Stable Diffusion locally on MacBook Air via App „Draw Things“

It would be nice to have a local installation of the open source text-to-image model Stable Diffusion… that was my idea this weekend. As I didn’t find any convincing installation manuals and even wasn’t sure if my Windows PC’s hardware would be sufficient, a very simple article about „Draw Things“ came to my attention: https://www.unidigital.news/draw-things-ki-bilder-kostenlos-unterwegs-generieren/ Unfortunately my iPad and my iPhone are too old, but with my MacBook Air (M1,2020) the installation was no problem:
Downloading the app „Draw Things“ from the Apple Store and afterwards downloading the proposed model „SDXL Refiner v1.0 (8-bit)“. My first text prompt with default options, 1024×1024 etc. and waiting time of some minutes, was a disaster, my second prompt was a disaster and so it went… double things and not nearly what I wanted. O.k., I’m a little bit spoiled because of mostly using ChatGPTPlus and Bing Image Creator, but what was that thing? Totally disappointed, I deleted all the results.

Here is one disturbing example from today „young woman holding an umbrella“:

image with model SDXL Refiner v.10 8-bit
(click to enlarge)

Today, I thought maybe I should be modest and download/install an older Stable Diffusion model in my „Draw Things“ app and therefore chose „Generic (Stable Diffusion v2.1)“ which would result in a lower resolution image 512×512. For my prompt I chose something about cats (because, normally „cats always work“) and finally, I got results resembling a cat:

image with model Generic, Stable Diffusion v2.1image with model Generic, Stable Diffusion v2.1image with model Generic, Stable Diffusion v2.1image with model Generic, Stable Diffusion v2.1
(click to enlarge)

The good results with the older model led me to the assumption, that the SDXL model was the problem and I googled… a YouTube video „Fix Double-Headed Glitches in Stable Diffusion with Kohya Hires Fix!“ helped me understand the problem (Link: https://youtu.be/SbgMwHDXthU?feature=shared). As I don’t have a local installation but the Apple Store App „Draw Things“, I can’t install any extensions, but I looked instead at the menu „Advanced“ in my „Draw Things“: There is indeed already a solution, that means a configuration option named „High resolution fix“ (description „[…] it avoids duplicate objects when generating directly“), which I simply had to enable in order to avoid double heads in my results.

First result after enabling „High Resolution Fix“:

image with model SDXL Refiner v.10 8-bit
(click to enlarge)

That’s the problem with news articles regarding the topic IT or AI: they become obsolete faster than you can think – I don’t mean any offense – and next time, I will go through the advanced options even when I don’t want to experiment deeper with a software.

At last, I can start generating images with my local installation of Stable Diffusion via App „Draw Things“:

Draw Things Screenshot
(click to enlarge)

Thanks to the developer of „Draw Things: AI Generation“!

Ausprobiert: Text-zu-3D-Generator Genie

Auf heise.de (Link) inkl. Link zu decoder.de (Link) las ich gestern:

„Kürzlich hat Luma AI sein Text-zu-3D-Tool Genie auf den Markt gebracht, das die Erstellung von 3D-Modellen über das Web oder iOS ermöglicht. Generative KI-Modelle konzentrieren sich zunehmend auf 3D-Inhalte und Videos als nächstes Ziel nach Text und Bild.“

„plushy realistic whole body raccoon with light blue baseball cap“

Erzeugtes 3D-Modell-Testergebnis (als Video dargestellt);
Download des 3D-Modells s. ganz unten auf dieser Seite

***

Testbericht

Wenn man bedenkt, wie aufwändig es ist, selbst ein 3D-Modell manuell zu erstellen, hat ein derartiges „Text-zu-3D-Tool“ sehr viel Potential!

Ja, ein Textbefehl erzeugt in wenigen Sekunden vier simple 3-D-Modelle. Allerdings musste ich mit den Prompts mehrfach experimentieren, um in etwa ein Ergebnis zu erhalten, das meinen Vorstellungen entsprach. Wenn ich einen Waschbär haben möchte, dann bitte nicht nur einen Kopf und möglichst auch ansatzweise alle Körperteile – und man sollte noch erkennen, das ein Waschbär gemeint war… Aber das ist kein wirkliches Problem und das Ergebnis fand ich in seiner Einfachheit sehr beeindruckend.
Anschließend in Blender hochgeladen, hier das von Genie erzeugte 3D-Modell (GLB) einmal in der Blender-Wireframe-Ansicht:

3D-Modell-Ergebnis in Blender Wireframe-Ansicht

 

 


Schritt 1: Persönliche Anmeldung in Webanwendung https://lumalabs.ai/genie?view=create


Schritt 2: Prompt „plushy realistic whole body raccoon with light blue baseball cap“

Genie Test Schritt 2


Schritt 3: Nach einigen Sekunden vier simple Ergebnisse

Genie Test Schritt 3


Schritt 4: Auswahl von Ergebnis 2 durch Anklicken

Genie Test Schritt 4


Schritt 5: Auftrag „Make Hi-Res“ und Warten (Reload kann nicht schaden – habe dies nach 1h gemacht und das Ergebnis war schon da…)

Genie Test Schritt 5 Genie Test Schritt 5

Genie Test Schritt 5


Schritt 6: Export der „Hi-Res“-Variante (Mesh Cleanup, obj, glb, stl, usdz …)

Genie Test Schritt 6


Ergebnis zum Ausprobieren / Download

  1. Mein Genie-Ergebnis im Format GLB hier zum Download
  2. Mein Genie-Ergebnis im Format USDZ, nur für iOS usdz-Symbol Link zu USDZ-Version

Experiment: Bilder kopieren via ChatGPT Plus

Was passiert, wenn man in ChatGPT Plus ein Prompt im Sinne von „Kannst Du dieses hochgeladene Bild bestmöglich kopieren?“ mit dem Upload eines selbst gemachten Fotos verbindet?

Ein Selbstversuch mit vier eigenen Fotos innerhalb eines Chatverlaufs ergibt Klarheit.

Fazit: ChatGPT Plus analysiert, was auf dem Foto abgebildet ist, schreibt sich für die wesentlichen erkannten Merkmale einen entsprechenden Prompt und erstellt daraus ein Bild – in überraschend guter Qualität.
In allen Fällen wurden die wesentlichen Aspekte gut erkannt, wenngleich das Ergebnis vom Stil her nicht immer photorealistisch war und teils auch noch typische KI-Merkmale/Fehler enthielt. Am Besten und realistischsten war das Paris-Beispiel, bei dem sogar noch Elemente des Louvre, die auf meinem Foto gar nicht zu sehen waren, hinzugefügt wurden – sicherlich eine Sache der Trainingsdaten. Dass ChatGPT Plus den Pilsumer Leuchtturm erkennt, war hingegen eher nicht zu erwarten und somit wurde hier ein anderer Leuchtturm-Typ verwendet – erstaunt war ich über die Windräder, die erkannt wurden, da diese in meinem Foto doch sehr im Hintergrund standen. Reiterbildstatuen sind offensichtlich auch kein Problem für ChatGPT Plus. Die (allerdings etwas hölzernen) Kühe in Landschaft wurden besser präsentiert als auf meinem schlecht belichteten Foto, aber dafür inklusive einer im Zaun steckenden Kuh – Hin und wieder werden bei der KI-Bildgenerierung noch derartige Überlappungs-Effekte deutlich.


1. Pilsumer Leuchtturm

Ich: Kannst Du bei diesem Bild die Farbe des Leuchtturmes in schwarz weiß ändern?
ChatGPT Plus: Ich kann das Originalbild nicht direkt bearbeiten, um die Farben des Leuchtturms zu ändern. Allerdings kann ich ein neues Bild mit einem ähnlichen Leuchtturm in Schwarz-Weiß erstellen. Soll ich das machen?
Ich: Ja
ChatGPT Plus: Hier ist ein neu generiertes Bild, das einem grünen Feld mit einem Weg führt, der zu einem Leuchtturm mit einer auffälligen schwarz-weißen Streifenmusterung führt. Der Himmel ist klar und blau mit flauschigen weißen Wolken, und im Hintergrund sind Windturbinen zu sehen.

Eigenes Foto Pilsumer Leuchtturm ChatGPTPlus-Ergebnis zum Leuchtturm

(Bilder zum Vergrößern anklicken)


2. Pariser Louvre-Glaspyramide

Ich: Kannst Du dieses hochgeladene Bild bestmöglich kopieren?
ChatGPT Plus: Hier ist ein generiertes Bild, das die Beschreibung des hochgeladenen Fotos nachbildet: Eine moderne Glaspyramide, umgeben von Wasser und Fontänen, unter einem dramatischen Wolkenhimmel.

Eigenes Foto Pariser Louvre-Glaspyramide ChatGPTPlus-Ergebnis zur Glaspyramide

(Bilder zum Vergrößern anklicken)


3. Dresdner Reiterstandbild Goldener Reiter

Ich: Kannst Du dieses hochgeladene Bild bestmöglich kopieren und nur die Farbe des Pferdes in weiß ändern?
ChatGPT Plus: Hier ist das neu erstellte Bild mit einer Statue eines Reiters auf einem Pferd, wobei das Pferd eine auffällige weiße Farbe hat.

Eigenes Foto Dresdner Reiterstandbild Goldener Reiter ChatGPTPlus-Ergebnis zum Reiterstandbild

(Bilder zum Vergrößern anklicken)


4. Kühe in Heidelberger Landschaft

Ich: Kannst du aus diesem Bild mit Kühen etwas Ähnliches generieren?
ChatGPT Plus: Hier ist ein generiertes Bild, das eine ruhige ländliche Szene mit einer Gruppe von Kühen zeigt, die in der Nähe eines Wasserbehälters unter dem Schatten von grünen Bäumen grasen.

Eigenes Foto Kühe in Heidelberger Landschaft ChatGPTPlus-Ergebnis zu den Kühen

(Bilder zum Vergrößern anklicken)


Hinweise:

  • Man sollte in ChatGPT Plus keine fremden Bilder hochladen, für die man keine Rechte am Bild hat. Zudem muss man davon ausgehen, dass bei Standard-ChatGPT Plus-Accounts alle hochgeladenen Dateien als ChatGPT-Trainingsdaten verwendet werden!
  • Die hier abgebildeten KI-Bilder wurden im Dialog über die Webanwendung von ChatGPT Plus und die Auswahl „ChatGPT4 (With DALL-E, browsing and analysis)“ erzeugt. Die dahinter liegende Version ist DALL-E3.

Literaturtipp: Generative KI im Musikbusiness

Die Popakademie Baden-Württemberg in Mannheim hat ein Whitepaper zu generativer KI im Musikbusiness veröffentlicht (s. Pressemeldung vom 19. Dezember 2023).


Whitepaper
https://www.popakademie.de/media/?file=889_popakademiedigital_06_generative_ki_im_musikbusiness_stammer2023.pdf&download


Toolboard
Zum Paper gehört ein Toolboard, das 50 aktuell verfügbare Anwendungen zur KI-gestützten Musikproduktion visualisiert: https://miro.com/app/board/uXjVM8uA-30=/


Tabellarische Übersicht
Die Tools werden zudem nach Anwendungsgebiet und Funktion beschrieben: https://docs.google.com/spreadsheets/d/1_rbSL_8EyeuX4BKmdiqk5G_4XhTEjoLBUfB69vLUbA0/edit#gid=0