GPT4All – Chatbot mit Open Source KI-Sprachmodellen lokal installieren

Ist es niederschwellig möglich, auch ein LLM lokal zu installieren und zu nutzen? Dies Frage stellte sich mir nach der erfolgreichen Installation eines KI-Bildgenerators. Antwort: Ja, mit einer gewissen Hardware.
Ein Kollege (danke, Steffen) machte mich auf GPT4All aufmerksam. Hier gibt es Installer für verschiedene Betriebssysteme und man kann sich anschließend eines der dafür passenden Open-Source-Modelle herunterladen.
https://gpt4all.io

Auch hier habe ich mein MacBook Air (M1,2020) genutzt:


1. Download und Installation von OSX Installer mit Desktop Chat Client


2. Anschließend Auswahl aus den angebotenen Sprachmodellen, hier Download eines Mistral-basierten und einem Llama2-basierten Modells

Aufforderung zum Modell-Download

2a. Mistral OpenOrca 3,83GB (= mistral-7b-openorca.gguf2.Q4_0.gguf) sowie

Auswahl MistralDownload Mistral

2b. Hermes 6,86GB (= nous-hermes-llama2-13b.Q4_0.gguf)

Auswahl Llama2Download Llama2


3. Fertig, gewünschtes heruntergeladenes Modell oben auswählen und unten bei „Send a message“ Prompt formulieren

Eingabemoeglichkeit nach Auswahl Modell Mistral


Die Antwortzeiten sind sehr gut und es funktioniert alles ohne Internet. Zunächst war ich bei meinen Prompts etwas irritiert über die Antworten – Mistral verstand die Bedeutung von poems nicht, mischte deutsch und englisch und fand 1kg Federn leichter als 1kg Wasser… Dies war bei Llama2 deutlich besser (das Modell ist auch fast doppelt so groß), aber nach und nach überzeugte mich auch Mistral bei weiteren Anfragen zu birthday cards, kleinen PHP-/HTML-Beispielen, sightseeing points, hybrid learning settings, PowerPoint presentations about Johannes Gutenberg, ski jumping, musical preferences etc.
Mein kurzes Fazit: OpenAI gefällt mir besser, aber das hätte ich auch nicht anders erwartet im Vergleich zu einer wirklich lokal laufenden Installation von OpenSource-Modellen – dennoch: Es lohnt durchaus, ein LLM einmal lokal zu installieren und auszuprobieren!

Stable Diffusion locally on MacBook Air via App „Draw Things“

It would be nice to have a local installation of the open source text-to-image model Stable Diffusion… that was my idea this weekend. As I didn’t find any convincing installation manuals and even wasn’t sure if my Windows PC’s hardware would be sufficient, a very simple article about „Draw Things“ came to my attention: https://www.unidigital.news/draw-things-ki-bilder-kostenlos-unterwegs-generieren/ Unfortunately my iPad and my iPhone are too old, but with my MacBook Air (M1,2020) the installation was no problem:
Downloading the app „Draw Things“ from the Apple Store and afterwards downloading the proposed model „SDXL Refiner v1.0 (8-bit)“. My first text prompt with default options, 1024×1024 etc. and waiting time of some minutes, was a disaster, my second prompt was a disaster and so it went… double things and not nearly what I wanted. O.k., I’m a little bit spoiled because of mostly using ChatGPTPlus and Bing Image Creator, but what was that thing? Totally disappointed, I deleted all the results.

Here is one disturbing example from today „young woman holding an umbrella“:

image with model SDXL Refiner v.10 8-bit
(click to enlarge)

Today, I thought maybe I should be modest and download/install an older Stable Diffusion model in my „Draw Things“ app and therefore chose „Generic (Stable Diffusion v2.1)“ which would result in a lower resolution image 512×512. For my prompt I chose something about cats (because, normally „cats always work“) and finally, I got results resembling a cat:

image with model Generic, Stable Diffusion v2.1image with model Generic, Stable Diffusion v2.1image with model Generic, Stable Diffusion v2.1image with model Generic, Stable Diffusion v2.1
(click to enlarge)

The good results with the older model led me to the assumption, that the SDXL model was the problem and I googled… a YouTube video „Fix Double-Headed Glitches in Stable Diffusion with Kohya Hires Fix!“ helped me understand the problem (Link: https://youtu.be/SbgMwHDXthU?feature=shared). As I don’t have a local installation but the Apple Store App „Draw Things“, I can’t install any extensions, but I looked instead at the menu „Advanced“ in my „Draw Things“: There is indeed already a solution, that means a configuration option named „High resolution fix“ (description „[…] it avoids duplicate objects when generating directly“), which I simply had to enable in order to avoid double heads in my results.

First result after enabling „High Resolution Fix“:

image with model SDXL Refiner v.10 8-bit
(click to enlarge)

That’s the problem with news articles regarding the topic IT or AI: they become obsolete faster than you can think – I don’t mean any offense – and next time, I will go through the advanced options even when I don’t want to experiment deeper with a software.

At last, I can start generating images with my local installation of Stable Diffusion via App „Draw Things“:

Draw Things Screenshot
(click to enlarge)

Thanks to the developer of „Draw Things: AI Generation“!

Experiment: Bilder kopieren via ChatGPT Plus

Was passiert, wenn man in ChatGPT Plus ein Prompt im Sinne von „Kannst Du dieses hochgeladene Bild bestmöglich kopieren?“ mit dem Upload eines selbst gemachten Fotos verbindet?

Ein Selbstversuch mit vier eigenen Fotos innerhalb eines Chatverlaufs ergibt Klarheit.

Fazit: ChatGPT Plus analysiert, was auf dem Foto abgebildet ist, schreibt sich für die wesentlichen erkannten Merkmale einen entsprechenden Prompt und erstellt daraus ein Bild – in überraschend guter Qualität.
In allen Fällen wurden die wesentlichen Aspekte gut erkannt, wenngleich das Ergebnis vom Stil her nicht immer photorealistisch war und teils auch noch typische KI-Merkmale/Fehler enthielt. Am Besten und realistischsten war das Paris-Beispiel, bei dem sogar noch Elemente des Louvre, die auf meinem Foto gar nicht zu sehen waren, hinzugefügt wurden – sicherlich eine Sache der Trainingsdaten. Dass ChatGPT Plus den Pilsumer Leuchtturm erkennt, war hingegen eher nicht zu erwarten und somit wurde hier ein anderer Leuchtturm-Typ verwendet – erstaunt war ich über die Windräder, die erkannt wurden, da diese in meinem Foto doch sehr im Hintergrund standen. Reiterbildstatuen sind offensichtlich auch kein Problem für ChatGPT Plus. Die (allerdings etwas hölzernen) Kühe in Landschaft wurden besser präsentiert als auf meinem schlecht belichteten Foto, aber dafür inklusive einer im Zaun steckenden Kuh – Hin und wieder werden bei der KI-Bildgenerierung noch derartige Überlappungs-Effekte deutlich.


1. Pilsumer Leuchtturm

Ich: Kannst Du bei diesem Bild die Farbe des Leuchtturmes in schwarz weiß ändern?
ChatGPT Plus: Ich kann das Originalbild nicht direkt bearbeiten, um die Farben des Leuchtturms zu ändern. Allerdings kann ich ein neues Bild mit einem ähnlichen Leuchtturm in Schwarz-Weiß erstellen. Soll ich das machen?
Ich: Ja
ChatGPT Plus: Hier ist ein neu generiertes Bild, das einem grünen Feld mit einem Weg führt, der zu einem Leuchtturm mit einer auffälligen schwarz-weißen Streifenmusterung führt. Der Himmel ist klar und blau mit flauschigen weißen Wolken, und im Hintergrund sind Windturbinen zu sehen.

Eigenes Foto Pilsumer Leuchtturm ChatGPTPlus-Ergebnis zum Leuchtturm

(Bilder zum Vergrößern anklicken)


2. Pariser Louvre-Glaspyramide

Ich: Kannst Du dieses hochgeladene Bild bestmöglich kopieren?
ChatGPT Plus: Hier ist ein generiertes Bild, das die Beschreibung des hochgeladenen Fotos nachbildet: Eine moderne Glaspyramide, umgeben von Wasser und Fontänen, unter einem dramatischen Wolkenhimmel.

Eigenes Foto Pariser Louvre-Glaspyramide ChatGPTPlus-Ergebnis zur Glaspyramide

(Bilder zum Vergrößern anklicken)


3. Dresdner Reiterstandbild Goldener Reiter

Ich: Kannst Du dieses hochgeladene Bild bestmöglich kopieren und nur die Farbe des Pferdes in weiß ändern?
ChatGPT Plus: Hier ist das neu erstellte Bild mit einer Statue eines Reiters auf einem Pferd, wobei das Pferd eine auffällige weiße Farbe hat.

Eigenes Foto Dresdner Reiterstandbild Goldener Reiter ChatGPTPlus-Ergebnis zum Reiterstandbild

(Bilder zum Vergrößern anklicken)


4. Kühe in Heidelberger Landschaft

Ich: Kannst du aus diesem Bild mit Kühen etwas Ähnliches generieren?
ChatGPT Plus: Hier ist ein generiertes Bild, das eine ruhige ländliche Szene mit einer Gruppe von Kühen zeigt, die in der Nähe eines Wasserbehälters unter dem Schatten von grünen Bäumen grasen.

Eigenes Foto Kühe in Heidelberger Landschaft ChatGPTPlus-Ergebnis zu den Kühen

(Bilder zum Vergrößern anklicken)


Hinweise:

  • Man sollte in ChatGPT Plus keine fremden Bilder hochladen, für die man keine Rechte am Bild hat. Zudem muss man davon ausgehen, dass bei Standard-ChatGPT Plus-Accounts alle hochgeladenen Dateien als ChatGPT-Trainingsdaten verwendet werden!
  • Die hier abgebildeten KI-Bilder wurden im Dialog über die Webanwendung von ChatGPT Plus und die Auswahl „ChatGPT4 (With DALL-E, browsing and analysis)“ erzeugt. Die dahinter liegende Version ist DALL-E3.

Literaturtipp: Generative KI im Musikbusiness

Die Popakademie Baden-Württemberg in Mannheim hat ein Whitepaper zu generativer KI im Musikbusiness veröffentlicht (s. Pressemeldung vom 19. Dezember 2023).


Whitepaper
https://www.popakademie.de/media/?file=889_popakademiedigital_06_generative_ki_im_musikbusiness_stammer2023.pdf&download


Toolboard
Zum Paper gehört ein Toolboard, das 50 aktuell verfügbare Anwendungen zur KI-gestützten Musikproduktion visualisiert: https://miro.com/app/board/uXjVM8uA-30=/


Tabellarische Übersicht
Die Tools werden zudem nach Anwendungsgebiet und Funktion beschrieben: https://docs.google.com/spreadsheets/d/1_rbSL_8EyeuX4BKmdiqk5G_4XhTEjoLBUfB69vLUbA0/edit#gid=0

KI-Bildgeneratoren

Die Thematik „KI-Bildgeneratoren“ („text-to-image-models“ als Teil von „generative artificial intelligence“) ist spannend und sehr dynamisch in der Entwicklung und Preisgestaltung. Im Folgenden eine Zusammenfassung der Basics aus meiner persönlichen Sicht mit Stand Anfang Dezember 2023.


Dreamstudio Beispiel RunwayML Beispiel ChatGPT Plus Beispiel Supermachine Beispiel  Bing Chat Beispiel


DALL-E, Midjourney und Stable Diffusion (incl. SDXL) sind die verbreitetsten und bekanntesten KI-Bildgenerator-Modelle. Im Unterschied zu DALL-E und Midjourney macht Stable Diffusion den Quellcode zugänglich. Unter der Funktion „KI-Bildgenerator“ verstehe ich zunächst grundlegend das Erstellen von fotorealistischen oder künstlerischen Bildern durch eine beschreibende Texteingabe (Prompt) – oft gibt es dabei Custom Models für das Generieren von Bildern in unterschiedlichen Stilen. Darüber hinaus bieten die KI-Bildgeneratoren noch viele weitere Funktionen.
KI-generierte Bilder sind manchmal nur schwer von echten Bildern zu unterscheiden – Indikatoren für KI-generierte Bilder können falsche/sinnlose Text-Beschriftungen sein, doppelte oder fehlerhafte Elemente und auch mit der Darstellung von Fingern/Haut gibt es oft sichtbare Probleme.

Die Prompts sollten die Szene und Eigeschaften beschreiben und können Anweisungen zu Handlung, Umgebung, Licht, Anordnung der Elemente, Stil, Blickwinkel und Emotion beinhalten.
Man könnte sich auch in ChatGPT Plus einen passenden Prompt erstellen lassen, indem man seine Wünsche dort kurz formuliert: „Erstelle mir einen Prompt für ein Bild, das (…) zeigt.“ und Inspiration für die Ausarbeitung erhält (s. ChatGPT Plus Panda-Beispiel).
Oder falls ChatGPT Plus durch diese Anforderung gleich ein Bild liefert, hinterher nachfragen „Wie lautet der für das Bild verwendete Prompt?“, um etwaige Änderungswünsche besser in Auftrag geben zu können.
Ausgefeilte Prompts werden von verschiedenen Diensten durchaus unterschiedlich interpretiert und dann ggf. in Teilen ignoriert/missverstanden. In der Regel gibt es auch ein Zeichenlimit. Daher ist es gut, darauf zu achten, was vom jeweiligen Dienst an Beispielen angeboten wird oder systemseitig an Ergebnis-Rückmeldungen erfolgt – bei ChatGPT Plus z. B. „Here is the icon symbolizing a teacher, designed with a minimalistic and expressive style“.
Stable Diffusion bietet einen „prompts search engine“ an: https://stablediffusionweb.com/prompts
Craiyon etwa zeigt unten immer einen Block „Inspirations“ mit Prompts und Ergebnissen an, die inhaltlich in Relation stehen zu der Eingabe, die man selbst oben gerade im Eingabefeld macht. Bzgl. Prompts bei Midjourney s.u. Artikel.
Während in ChatGPT Plus die Bilder rein per Textchat-Aufforderungen generiert und angepasst werden, ist es in KI-Bildgenerator-Programmen üblich, dass parallel zum Prompt viele weitere Einstellungen ausgewählt werden können.

DALL-E ist (wie ich hier schon beschrieben habe) über verschiedene Dienste/Webseiten nutzbar – in der derzeit aktuellsten Version DALL-E3 kostenlos m.W.n. nur über Microsoft-Account, entweder per https://www.bing.com/create oder direkt im Bing Chat, was ich bisher übersehen hatte (daher hier heute dieses Bing Chat Graureiher-Beispiel: Bild1, Bild2). Selbst nutze ich meinen kostenpflichtigen Zugang über die ChatGPT Plus-Integration, die den Riesenvorteil hat, dass im Rahmen von Textchat schon länger Bilder generiert und modifiziert werden können mit – wie ich finde – beeindruckender Output-Qualität und inzwischen sogar auch für eigene erstellte GPTs (s. mein GPT „Cheery Creator“: https://chat.openai.com/g/g-sQbPSW1Rx-cheery-creator).
Auffällig ist, dass bei ChatGPT Plus-Prompts durchaus Meldungen kommen im Sinne von „I’m sorry, but I’m unable to generate images that (…), as it goes against our content policy“. Eine Stärke von den Bildgeneratoren sind Bilder im Stile von berühmten Künstlern und da muss man dann – je nach Dienst – schon genau sein mit den Lebensdaten: „im Stile von Franz Marc“ ist auch bei ChatGPT Plus erlaubt.

Midjourney bietet leider keinen Testzugang und ist nur über kostenpflichtiges Abo nutzbar via https://www.midjourney.com/
Als Ersatz für einen persönlichen Test dient mir dieser Artikel: https://bootcamp.uxdesign.cc/the-ultimate-midjourney-cheat-sheet-2023-copy-paste-prompt-for-any-style-779049396dbe

Stable Diffusion wird in verschiedenen Diensten genutzt wie z. B. diesen beiden an der Entwicklung beteiligten Firmen, bei denen es nach Registrierung einige kostenlose Credits gibt. Zum Kurz-Test habe ich 3 verschiedene Prompt-Beispiele jeweils in die u.g. Dienste eingegeben und dann Screenshots der Oberfläche und ersten Ergebnisse erstellt, s.u. PDFs.
Prompt 1 = a teacher, modern line icon, cute young character avatar, smiling, icon design, minimalistic, black line on white background
Prompt 2 = a raccoon Franz Marc style
Prompt 3 = cute young female sitting on a beach reading a book, photo realistic style

Zum Vergleich mit Stable Diffusion hier die 3 Prompts, wie sie ChatGPT Plus mit DALL-E3 interpretiert hat (Testergebnis-PDF) (Einzelbild 1, Einzelbild 2, Einzelbild 3, Einzelbild 3a).

 

Abschließend noch der Hinweis auf von mir benutzte Bildgeneratoren ohne jegliche Registrierung und mit zumindest einigen kostenlosen Funktionen:

    • dream by Wombo: https://dream.ai/ Dieser Dienst war eine Empfehlung der c’t 2022, Heft25, und sorgte mit den damals erzeugten Bildern für einen privaten Waschbär-Kunst-Kalender schon Weihnachten 2022 für Begeisterung.

    • Craiyon (Modell DALL·E mini): https://www.craiyon.com/ Kostenlos für Privatzwecke und einfach nutzbar, benötigt ca. 1min.

    • (Update 2.1.24)
      Stable Diffusion Online: https://stablediffusionweb.com/
      Ohne Registrierung, ohne Anmeldung, allerdings aufwändige cookie policy und Generieren dauert einige Minuten. Ergebnisse in CC0 1.0 Lizenz