KI-Bildgeneratoren

Die Thematik „KI-Bildgeneratoren“ („text-to-image-models“ als Teil von „generative artificial intelligence“) ist spannend und sehr dynamisch in der Entwicklung und Preisgestaltung. Im Folgenden eine Zusammenfassung der Basics aus meiner persönlichen Sicht mit Stand Anfang Dezember 2023.


Dreamstudio Beispiel RunwayML Beispiel ChatGPT Plus Beispiel Supermachine Beispiel  Bing Chat Beispiel


DALL-E, Midjourney und Stable Diffusion (incl. SDXL) sind die verbreitetsten und bekanntesten KI-Bildgenerator-Modelle. Im Unterschied zu DALL-E und Midjourney macht Stable Diffusion den Quellcode zugänglich. Unter der Funktion „KI-Bildgenerator“ verstehe ich zunächst grundlegend das Erstellen von fotorealistischen oder künstlerischen Bildern durch eine beschreibende Texteingabe (Prompt) – oft gibt es dabei Custom Models für das Generieren von Bildern in unterschiedlichen Stilen. Darüber hinaus bieten die KI-Bildgeneratoren noch viele weitere Funktionen.
KI-generierte Bilder sind manchmal nur schwer von echten Bildern zu unterscheiden – Indikatoren für KI-generierte Bilder können falsche/sinnlose Text-Beschriftungen sein, doppelte oder fehlerhafte Elemente und auch mit der Darstellung von Fingern/Haut gibt es oft sichtbare Probleme.

Die Prompts sollten die Szene und Eigeschaften beschreiben und können Anweisungen zu Handlung, Umgebung, Licht, Anordnung der Elemente, Stil, Blickwinkel und Emotion beinhalten.
Man könnte sich auch in ChatGPT Plus einen passenden Prompt erstellen lassen, indem man seine Wünsche dort kurz formuliert: „Erstelle mir einen Prompt für ein Bild, das (…) zeigt.“ und Inspiration für die Ausarbeitung erhält (s. ChatGPT Plus Panda-Beispiel).
Oder falls ChatGPT Plus durch diese Anforderung gleich ein Bild liefert, hinterher nachfragen „Wie lautet der für das Bild verwendete Prompt?“, um etwaige Änderungswünsche besser in Auftrag geben zu können.
Ausgefeilte Prompts werden von verschiedenen Diensten durchaus unterschiedlich interpretiert und dann ggf. in Teilen ignoriert/missverstanden. In der Regel gibt es auch ein Zeichenlimit. Daher ist es gut, darauf zu achten, was vom jeweiligen Dienst an Beispielen angeboten wird oder systemseitig an Ergebnis-Rückmeldungen erfolgt – bei ChatGPT Plus z. B. „Here is the icon symbolizing a teacher, designed with a minimalistic and expressive style“.
Stable Diffusion bietet einen „prompts search engine“ an: https://stablediffusionweb.com/prompts
Craiyon etwa zeigt unten immer einen Block „Inspirations“ mit Prompts und Ergebnissen an, die inhaltlich in Relation stehen zu der Eingabe, die man selbst oben gerade im Eingabefeld macht. Bzgl. Prompts bei Midjourney s.u. Artikel.
Während in ChatGPT Plus die Bilder rein per Textchat-Aufforderungen generiert und angepasst werden, ist es in KI-Bildgenerator-Programmen üblich, dass parallel zum Prompt viele weitere Einstellungen ausgewählt werden können.

DALL-E ist (wie ich hier schon beschrieben habe) über verschiedene Dienste/Webseiten nutzbar – in der derzeit aktuellsten Version DALL-E3 kostenlos m.W.n. nur über Microsoft-Account, entweder per https://www.bing.com/create oder direkt im Bing Chat, was ich bisher übersehen hatte (daher hier heute dieses Bing Chat Graureiher-Beispiel: Bild1, Bild2). Selbst nutze ich meinen kostenpflichtigen Zugang über die ChatGPT Plus-Integration, die den Riesenvorteil hat, dass im Rahmen von Textchat schon länger Bilder generiert und modifiziert werden können mit – wie ich finde – beeindruckender Output-Qualität und inzwischen sogar auch für eigene erstellte GPTs (s. mein GPT „Cheery Creator“: https://chat.openai.com/g/g-sQbPSW1Rx-cheery-creator).
Auffällig ist, dass bei ChatGPT Plus-Prompts durchaus Meldungen kommen im Sinne von „I’m sorry, but I’m unable to generate images that (…), as it goes against our content policy“. Eine Stärke von den Bildgeneratoren sind Bilder im Stile von berühmten Künstlern und da muss man dann – je nach Dienst – schon genau sein mit den Lebensdaten: „im Stile von Franz Marc“ ist auch bei ChatGPT Plus erlaubt.

Midjourney bietet leider keinen Testzugang und ist nur über kostenpflichtiges Abo nutzbar via https://www.midjourney.com/
Als Ersatz für einen persönlichen Test dient mir dieser Artikel: https://bootcamp.uxdesign.cc/the-ultimate-midjourney-cheat-sheet-2023-copy-paste-prompt-for-any-style-779049396dbe

Stable Diffusion wird in verschiedenen Diensten genutzt wie z. B. diesen beiden an der Entwicklung beteiligten Firmen, bei denen es nach Registrierung einige kostenlose Credits gibt. Zum Kurz-Test habe ich 3 verschiedene Prompt-Beispiele jeweils in die u.g. Dienste eingegeben und dann Screenshots der Oberfläche und ersten Ergebnisse erstellt, s.u. PDFs.
Prompt 1 = a teacher, modern line icon, cute young character avatar, smiling, icon design, minimalistic, black line on white background
Prompt 2 = a raccoon Franz Marc style
Prompt 3 = cute young female sitting on a beach reading a book, photo realistic style

Zum Vergleich mit Stable Diffusion hier die 3 Prompts, wie sie ChatGPT Plus mit DALL-E3 interpretiert hat (Testergebnis-PDF) (Einzelbild 1, Einzelbild 2, Einzelbild 3, Einzelbild 3a).

 

Abschließend noch der Hinweis auf von mir benutzte Bildgeneratoren ohne jegliche Registrierung und mit zumindest einigen kostenlosen Funktionen:

    • dream by Wombo: https://dream.ai/ Dieser Dienst war eine Empfehlung der c’t 2022, Heft25, und sorgte mit den damals erzeugten Bildern für einen privaten Waschbär-Kunst-Kalender schon Weihnachten 2022 für Begeisterung.

    • Craiyon (Modell DALL·E mini): https://www.craiyon.com/ Kostenlos für Privatzwecke und einfach nutzbar, benötigt ca. 1min.

    • (Update 2.1.24)
      Stable Diffusion Online: https://stablediffusionweb.com/
      Ohne Registrierung, ohne Anmeldung, allerdings aufwändige cookie policy und Generieren dauert einige Minuten. Ergebnisse in CC0 1.0 Lizenz

Cheery Creator – Chatbot GPT

Soeben habe ich meinen ersten Chatbot (powered by GPT-4) generiert und ich bin noch ganz hin und weg, wie einfach es war und wie beachtlich das Ergebnis ist! Kein Wunder, dass OpenAI momentan den Zugriff limitiert (keine neuen ChatGPT Plus-Kunden und zeitliche Limitierung bei Bestandskunden). Auch ich wurde kurz nach dem Fertigstellen meines GPTs und einigen Testläufen für einige Stunden „ausgesperrt“ – Das lässt Zeit für den folgenden Blogbeitrag.

Spoiler: Mein GPT ist inzwischen „Public“ und kann gerne getestet werden, s.u.

Das Erstellen eines Chatbots

Über den ChatGPT Plus-Menüpunkt „Explore“ kann man …

  • in wenigen Sätzen seine Idee für den Chatbot beschreiben
  • einen Titel vergeben (oder sich vorschlagen lassen)
  • ein Logo generieren lassen und per Chat anpassen
  • Beispiel-Prompts für die Startseite akzeptieren oder ändern
  • einfache Anpassungen machen, z. B. was in einem 2. Schritt passieren soll oder welche etwaigen Nachfragen immer oder zufällig gestellt werden sollen
  • uvm.

Beim Editieren ist der Bildschirm zweigeteilt: links der GPT Builder  mit Create-Chat zum Konfigurieren (inkl. einem Configure-Formular, in dem man auch Funktionen deaktivieren könnte) und rechts die große Vorschau mit dem Bereich zum sofortigen Testen.

Der Rest passiert automatisch und ChatGPT Plus generiert die Dialoge und Bilder dann wie üblich entsprechend seines Modells. Bei meiner Idee ist garantiert, dass die Ergebnisse nicht langweilig werden…

Freigabe: Den eigenen Chatbot kann man für ausgewählte Personen, die den Link kennen, freigeben (=Default) oder als Public. Den „Cheery Creator“ ausprobieren können allerdings nur Personen mit ChatGPT Plus-Account, denn der Link alleine und ein kostenloser OpenAI-Account reichen nicht.

Meine Idee: „Cheery Creator“

Die Zeiten sind düster genug, etwas verbale Aufheiterung per ganz kurzem Textchat kann nicht schaden und DALL-E3 generiert generell hervorragende Bilder. Warum also nicht Beides kombinieren und noch dazu mit der Idee von Ausmal-Motiven? Und natürlich immer mit Waschbär!

Beispiel Cheery Creator (zum Vergrößern anklicken)

 


Update: Inzwischen habe ich wieder Zugriff auf ChatGPT Plus und noch ein wenig getestet. Die Ergebnisse waren so schön, dass ich den „Cheery Creator“ nun als „Public“ freigegeben habe – wer mag (und ein ChatGPT-Plus-Abo hat), kann also gerne unter dem angegebenen Link testen.

Hier geht es zum „Cheery Creator“:
https://chat.openai.com/g/g-sQbPSW1Rx-cheery-creator

 

 

ChatGPT Plus und Bilderkennung

Und schon wieder hat sich ChatGPT Plus deutlich verändert: Endlich ist das Dropdown-Menü weg und die sonst nur alternativ auswählbaren Optionen „browse the web“, „analyze data“ und „generate images“ (= DALL-E3) sind jetzt direkt in GPT-4 enthalten. Lediglich die Plugins sind nun noch eine alternative Auswahloption. Btw, meine bisherigen Plugins sind aktuell weg – ob wegen des kürzlichen ChatGPT Plus-Updates oder anderer Gründe bleibt mir unklar.

chatgptplus-01.jpg   chatgptplus-02.jpg

Komplett neu in ChatGPT Plus ist die Möglichkeit, eigene GPTs zu erzeugen oder per „Explore“ von anderen bereits erstellte GPTs zu nutzen – doch das ist ein spannender Test für einen anderen Tag.

 

Test der Bilderkennungsfunktion per Upload eigener Fotos

Denn genauer anschauen möchte ich mir heute die viel gelobte Bilderkennungsfunktion, von der ich inzwischen annehme, dass ich sie noch gar nicht hatte, als ich versucht hatte, sie zu testen (s. Blogbeitrag vom 1.10.23). 

 

Beispiel 1: Gebäude „where is this?“

20231110-chatgptplus-03-chat.jpg

Ergebnis: Dieses Mal auf Anhieb korrekt erkannt (vgl. Blogbeitrag vom 1.10.23).

 

Beispiel 2: Geldsumme „what is the total?“

20231110-chatgptplus-04-chat.jpg

Ergebnis: Nicht schlecht, aber ChatGPT Plus machte bei der Erkennung aus einer 20 eine 50 – immerhin stimmte dann die Summe aus seinen erkannten Einzelpositionen.

 

Beispiel 3: Uhrzeit „what time is it?“

20231110-chatgptplus-05-chat.jpg

Ergebnis: Das scheint generell ein Problem zu sein, wie ich neulich in einem Artikel gelesen habe – wegen entsprechender Trainingsdaten kommt hier sowieso immer 10:10 Uhr heraus. Nunja, eine kleine Variation hat ChatGPT Plus bei mir ja zunächst versucht mit dem Ergebnis 10:09.

Da reizte es mich doch, den gleichen Prompt „what time is it?“ mit einem Foto einer digitalen Zeitanzeige zu probieren.

20231110-chatgptplus-06-chat.jpg

Ergebnis: Bei einem Uhrenfoto mit digitaler Anzeige war ChatGPT Plus wieder auf sicherem Terrain und lieferte korrekt die abgebildete Uhrzeit. Beim ersten Versuch gab es allerdings nur eine Fehlermeldung.

 

Auch heute finde ich die ChatGPT Plus-Ergebnisse beeindruckend, wenngleich man wirklich genau hinsehen muss (Geldsumme) und eben den Trainingsbesonderheiten eines LLM unterliegt (die man normalerweise ja nicht kennt), d.h. somit JEDES Ergebnis von ChatGPT Plus erst einmal kritisch hinterfragen sollte, wenn man nicht um Kreativität gebeten hat.

ChatGPTPlus und DALL-E-3

Welche KI-Dienste in welcher Version wo nutzbar sind, wird zunehmend unübersichtlicher… Den KI-Bildgenerator-Dienst DALL-E kann ich mittlerweile an 3 verschiedenen Stellen nutzen:

  1. DALL-E-2: Via labs.openai.com mit (aufgrund frühen Registrierens) monatlich 15 neuen credits und mit Bildergalerie.
  2. DALL-E-3: Über ChatGPT-Plus-Dropdown-Option im Rahmen vom Textchat. Lokaler Download der Bilder ohne DALL-E-Icon. Noch kein Sharing des Chats inkl. Bildern möglich. Bilder auch nicht importierbar in meine DALL-E-Galerie unter labs.openai.com.
  3. DALL-E-3: Via https://www.bing.com/create „Image Creator“ nach Microsoft-Anmeldung.
    Der Zugang über Bing Chat hingegen hat bei mir „Aufgrund der hohen Nachfrage“ nicht funktioniert.

 

ChatGPT Plus

Der Zugang zu DALL-E-3 durch ChatGPTPlus hat mir sehr gut gefallen bzgl. Möglichkeiten und Ergebnissen. Gleich beim ersten Versuch mit meinem langen Prompt kam ein sehr gutes Ergebnis und durch eine weitere Eingabe auch die gewünschte Veränderung. Im Gegensatz zu der Bilderstellung via labs.openai.com enthalten die Ergebnisse nicht das typische bunte Icon, sind aber nach Download dann auch Standalone und nicht mehr in eine DALL-E-Galerie einbindbar. Es bleibt beim typischen Exportformat 1024×1024. Mein deutscher Eingabeprompt wurde automatisch in englisch übersetzt:

  • Erstelle mir ein farbenfrohes photorealistisches Bild mit einem Waschbär, der eine Sonnenblume in der Pfote hält, ein Buch liest und unter einem blauen Sonnenschirm in einem Liegestuhl an einem Strand sitzt. Im Hintergrund grünes Meer und Wellen sowie 1 Apfelbaum mit gelben Äpfeln.“
  • Photorealistic image showcasing a colorful beach setting. A raccoon, with a sunflower clutched in its paw, is immersed in a book, comfortably resting on a beach chair under a bright blue parasol. The background vividly portrays the greenish hue of the sea with waves lapping at the shore. Adjacent to the scene is an apple tree laden with yellow fruits.“

Erstes Ergebnis (Bild 1 und 2):

Bild1, Ergebnis 1 | Bild2, Ergebnis 1

Verbessertes Ergebnis (Bild 1 und 2):
„The tail of the raccoon should be in colors grey and black instead of yellow and black.“

Bild1, Ergebnis 2 | Bild2, Ergebnis 2

(Link zu PDF mit Testergebnissen)

 

Exkurs Microsoft Image Creator

Das erste Image-Creator-Ergebnis mit dem gleichen Prompt war ziemlich „falsch“, da das Kernelement „Waschbär“ überhaupt nicht umgesetzt wurde und ich habe auch keine Möglichkeit gesehen, das Ergebnis zu verfeinern. Daher an dieser Stelle schon Ende meines Tests.

Image Creator Ergebnis

(Link zu PDF mit Testergebnissen)

Promptvergleich ChatGPT und ChatGPT Plus (GPT-4)

Im Rahmen der Vorbereitung des Workshops auf der RPTU „Summer School Studium und Lehre 2023“ hatte ich im August 2023 einige Prompt-Beispiele mit der kostenlosen Version von ChatGPT 3.5 erstellt. Seit kurzem habe ich privat ein Abo von „ChatGPT Plus“ und habe die gleichen Prompts heute in GPT-4 (Variante Default, Stand Januar 2022) eingegeben. Natürlich würde man auch innerhalb derselben Version von ChatGPT bei mehrfacher Eingabe der gleichen Prompts unterschiedliche Ergebnisse erhalten, so dass die folgenden Ergebnisse nur bedingt aussagekräftig sind.
Dennoch: „ChatGPT Plus“ war im Ergebnis umfangreicher (auch mit Erklärungen), arbeitete stärker mit Rückfragen, ließ sich auch nicht mehr auf Halluzinationen bei Abkürzungen ein, erweiterte beim Programmierauftrag und bot Ergebnisse nun öfter als „Copy Code“ an so z. B. bei den erwünschten Flashcards.

Die Beispiele 1-4 basieren auf vordefinierten Prompts aus dem TUM-ChatGPT4-Cookbook; die Beispiele 5-8 sind frei formuliert. Die Links führen zu auf meinem Webspace abgelegten PDFs mit Screenshots der jeweiligen Chatverläufe.

 

ChatGPT 3.5
(kostenlos)
ChatGPT Plus
(Abo GPT-4)
1 BSP-ChatGPT-Discussion ChatGPT ChatGPT Plus
2 BSP-ChatGPT-OpenQuestions ChatGPT ChatGPT Plus
3 BSP-ChatGPT-Quiz ChatGPT ChatGPT Plus
4 BSP-ChatGPT-Storytelling ChatGPT ChatGPT Plus
5 BSP-ChatGPT-Flashcards ChatGPT ChatGPT Plus
6 BSP-ChatGPT-Halluzinieren ChatGPT ChatGPT Plus
7 BSP-ChatGPT-LessonPlan ChatGPT ChatGPT Plus
8 BSP-ChatGPT-Programmcode ChatGPT ChatGPT Plus