Your Browser Does Not Support JavaScript. Please Update Your Browser and reload page. Have a nice day! Bildgenerierung mit künstlicher Intelligenz | Peak Ace

Wie können wir euch unterstützen?

Ansprechpartner

    *Pflichtfeld







    Peak Ace AG, Leuschnerdamm 13, 10999 Berlin | Telefon: +49 (0)30 – 832 117 447

    • ai
    • Feature
    • News
    15.05.2023

    Kunst oder KInst? Künstliche Intelligenz zur Bildgenerierung

    Vor noch nicht allzu vielen Jahren hätten viele wohl nicht für möglich gehalten, dass ein von einer Künstlichen Intelligenz (KI) generiertes Bild bei einem Kunstwettbewerb siegen könnte oder es so realistisch aussehende KI-generierte Bilder gibt, dass sie sich kaum von tatsächlichen Fotos unterscheiden lassen.

    Nehmen wir etwa folgende Bilder:

    Bei welchem Bild handelt es sich um ein echtes Foto, bei welchem um ein KI-generiertes Bild? Die Auflösung befindet sich ganz unten im Text. 
    Deutlich wird aber schon hier: Die bildergenerierenden KIs bewegen sich auf hohem Niveau.

    Der Markt der Grafik- und Bilderstellung erfährt aktuell also einen umfassenden Wandel. Ihr möchtet wissen was die KI-Bildgenerierung für SEOs und Marketer künftig bedeutet, welche nennenswerten Tools derzeit auf dem Markt sind und was mit ihnen möglich ist? Im Folgenden beantworten wir Fragen wie diese und verraten wir euch alles Wissenswerte zum Thema und stellen euch einige spannende KI-Bildgenerator-Tools vor.

    Das können KI-Bildgeneratoren

    Bereits nach einer kurzen Texteingabe schaffen KI-Bildgeneratoren so einiges. Damit lassen sich nicht nur fotorealistische und künstlerische Bilder generieren, sondern auch:

    • Bilder um einen neuen Hintergrund erweitern.
    • Bilder bearbeiten, beispielsweise bestimmte Elemente hinzufügen oder entfernen.
    • Verschiedene Versionen eines Bildes generieren (z. B. in verschiedenen künstlerischen Stilrichtungen).
    • 3D-Modelle erstellen.

    Tools zur KI-Bildgenerierung

    Im Folgenden soll eine kleine Auswahl an bekannten Tools zur KI-Bildgenerierung kurz vorgestellt werden. Allen voran steht DALL-E, der KI-Bildgenerierung zu einem Mainstream-Thema hat werden lassen.

    DALL-E 2

    DALL-E ist das aktuell raffinierteste Tool für KI-Bildgenerierung. Seine erste Version aus dem Jahr 2021 wurde bereits 2022 von seiner Folgeversion DALL-E 2 abgelöst. Der Begriff DALL-E ergibt sich aus einer Kreuzung aus dem Namen des spanischen Künstlers Salvador Dalí († 1989) und des Animationsfilmroboters Wall-E. Die Software stammt von einem zentralen Player im Feld der KI, dem amerikanischen Unternehmen OpenAI, das seit 2015 existiert und auch den bekannten Chatbot ChatGPT geschaffen hat.

    DALL-E ist seit September 2022 frei durch die Öffentlichkeit nutzbar – lediglich eine Anmeldung ist erforderlich. Bis zu einer gewissen Anzahl an Bildern pro Monat ist die Nutzung kostenlos. Zukünftig soll DALL-E in Microsoft Office Produkte und in die Sidebar von Microsoft Edge integriert werden.

    So funktioniert DALL-E 2

    DALL-E 2 hat mithilfe einer Technologie namens CLIP (Contrastive Language-Image Pre-training) die Verbindung zwischen den textuellen und visuellen Repräsentationen von Objekten erlernt. Es ist also in der Lage, den eingegebenen Text zu verstehen und mit Bildern zu verknüpfen. Wenn DALL-E 2 einen Textprompt bekommt, verwandelt ihn ein Mechanismus names prior zu einem CLIP Bild Encoding um. Um von dieser Ebene zur Bildgenerierung zu gelangen, enthält das Training von DALL-E 2 Diffusionsmodelle. Bilder, deren Bedeutung der Algorithmus kennt, werden dabei zuerst mit mehr und mehr Rauschen versetzt, bis sie und ihre Bedeutung nicht mehr ersichtlich sind. Im zweiten Schritt der Diffusion lernt das Programm, das Rauschen wieder abzubauen, um zu regenerieren, was ausgelöscht wurde. Dadurch versteht das Programm, wie Bildgenerierung funktioniert. DALL-E nutzt also die CLIP-Bilder-Encodings, den Textprompt sowie die Erkenntnisse aus dem Diffusionsprozess, um ein neues, originales Bild zu generieren.

    Quelle: https://arxiv.org/pdf/2204.06125.pdf

     

    KI-Bildgenerierung der Tech-Giganten Meta und Google

    Die Tech-Giganten Meta und Google mischen das Feld der KI-Bildgeneratoren ebenso auf. Metas Make-A-Scene ist gerade noch in der Entwicklungsphase und nicht öffentlich verfügbar. Das gleiche trifft auch auf die zwei KI-Softwares von Google zu, Google Imagen und Google Muse. Beide wollen mit besonders hoher Qualität überzeugen. Google Imagen soll besonders überzeugende fotorealistische Bilder produzieren – und dass, obwohl das Programm lediglich auf der Basis von Textdateien trainiert wurde. Google Muse verwendet nicht, wie viele seiner Wettbewerber:innen ein Diffusionsmodell, sondern ist ein Text-zu-Bild-Transformer-Modell. Ein entscheidender Vorteil soll in der erhöhten Geschwindigkeit liegen. Weitere Vorteile sollen in der verbesserten Bildkomposition sowie in der erfolgreichen Textwiedergabe bestehen. Andere KI-Bildgenerierungsprogramme haben aktuell oft das Problem, Prompts wie etwa „Pullover mit Aufschrift Peak Ace“ nicht gut wiedergeben zu können – bei Muse soll das kein Hindernis sein.

    Weitere KI-für-Bilder-Tools

    Neben DALL-E gibt es eine wachsende Zahl an anderen KI-Bildergenerierungssoftwares. Eine davon, Craiyon, war, dank ihres ursprünglichen Namens “DALL-E mini” leicht mit DALL-E zu verwechseln. Diese vollständig kostenlose Software hat jedoch keine Verbindung zu OpenAI und weist auch einige Unterschiede zu DALL-E auf. Der offensichtlichste davon ist die geringere Qualität der KI-generierten Bilder, die sich aus dem Fehlen des Diffusionsmodells ergibt.

    Zwei weitere Programme sind Midjourney und Stable Diffusion, die beide DALL-E 2 in ihrer Funktionsweise ähneln und ebenfalls mit Diffusionsmodellen arbeiten. Midjourney ist insbesondere für den künstlerischen Stil seiner generierten Bilder bekannt – aktuell in der Betaversion allerdings ausschließlich über Discord zugänglich. Stable Diffusion lässt sich über GitHub downloaden oder auch in seiner Onlineversion „Dream Studio“ nutzen.

    Ein weiteres interessantes Modell, das seit Ende 2022 im Gespräch ist, nennt sich X-Decoder. Es ist in der Lage, Bilder auf allen Granularitätsebenen zu analysieren. Dadurch kann X-Decoder eine Vielzahl von Bildverarbeitungs- und Bildsprachaufgaben übernehmen, zum Beispiel Bildbeschreibungen erstellen oder Bildsegmentierungen auf Pixelebene vornehmen. Um eine pixelgenaue Bildbearbeitung durchzuführen, lässt sich X-Decoder mit den oben genannten generativen KI-Modellen kombinieren.

    KI-Bildgenerierung – Welche Kontroversen bestehen?

    KI-Bilder kommen nicht ohne Kontroversen und rechtliche Fragestellungen. Die zentralen Kontroversen drehen sich um die Gefahr der Verbreitung von Desinformation und schädlichen Inhalten sowie Copyrights-Verletzungen.

    Verbreitung von Desinformation und schädlichen Inhalten

    Mit KI-Bildgenerierungsprogrammen lässt sich vieles schaffen. Dennoch besteht die Möglichkeit, sie für böswillige Zwecke zu nutzen, wie etwa der Produktion von Bildern, die Gewalt oder Missbrauch zeigen oder Desinformationen verbreiten sollen. Die Macher:innen von Google Imagen führen dies sogar als Grund an, ihre Software bisher nicht an die Öffentlichkeit gegeben zu haben. Manche der hier genannten Programme haben bereits Maßnahmen in dieser Hinsicht ergriffen und ihren KIs Limitationen auferlegt, welche Arten von Bildern sie generieren können. Damit sich etwa keine gewaltvollen oder pornographischen Bilder erzeugen lassen, wurden solche Inhalte weitestgehend aus dem Training von DALL-E 2 ausgeschlossen. Zudem erlaubt DALL-E 2 es nicht, Bilder von prominenten Personen zu generieren. Wie gut solche Limitationen jedoch tatsächlich funktionieren, wird sich zeigen.

    Copyright

    Es kam bereits zu Klagen gegen KI-Bildgenerierungssoftwares, weil diese ihre KIs mit Millionen von online verfügbaren Bildern trainiert haben, ohne dafür das Einverständnis der Künstler:innen eingeholt oder die nötigen Fotolizenzen dafür erworben zu haben. Da KI-Kunst und KI-Bilder ein so neues Thema sind, gibt es bislang noch keine aussagekräftigen Rechtsprechungen dazu. Ob KI-Bilder also das Recht der Urhebenden verletzen oder nicht, muss erst noch von Gerichten geklärt werden. Ein Fakt, den US-amerikanische Wissenschaftler:innen in einer Studie dazu jedoch gewonnen haben: KI-generierte Bilder sind den Materialien aus ihrem Training oftmals sehr ähnlich.

    Ob KI-erzeugte Materialien rechtlich schützbar sind, ist abhängig davon, wie weit ein echter Mensch in die Produktion des Materials involviert war. Nur, wenn ein Mensch lange an den Prompts zur Bildgenerierung gearbeitet hat oder den KI-Output nachträglich noch modifiziert hat, kommt ein Copyrightschutz infrage. Für die breite Masse an KI-Bildern wird das nicht der Fall sein.

    Was bedeutet KI-Bildgenerierung für SEO und Marketing?

    Visuelle Seitenelemente wie Bilder ziehen die Aufmerksamkeit an sich, bieten illustrativen Mehrwert und verbessern die User Experience – was Google mithilfe der Helpful Content Updates erkennt und belohnt. KI-Bildgeneratoren können sich daher als sehr hilfreich erweisen. Sie produzieren in kurzer Zeit direkt auf die Zielgruppe zugeschnittenes Material. Dafür wird es nötig sein, Skills im Formulieren von passenden Prompts zu entwickeln. Insbesondere kleinere Marketingunternehmen, die kein eigenes Designteam haben, werden wohl einen großen Nutzen daraus ziehen können.

    Eines ist sicher: KI ist gekommen und wird bleiben. Es liegt an uns, Wege zu finden, wie wir KI effektiv in unsere Arbeitsprozesse einbinden und bestmöglich nutzen können.

    Auflösung: KI-Bild oder echtes Foto

    1: Bild A ist KI-generiert

    2: Bild A ist KI-generiert

    Der Peak Ace AI Survival Guide

    Ihr wünscht euch noch mehr Input zu AI? Unser Whitepaper umfasst die jüngsten Entwicklungen der KI sowie erste Prognosen über den zukünftigen Umgang mit den intelligenten Tools.

      *Pflichtfeld



      Emily Wilson