Die Popakademie Baden-Württemberg in Mannheim hat ein Whitepaper zu generativer KI im Musikbusiness veröffentlicht (s. Pressemeldung vom 19. Dezember 2023).
Toolboard
Zum Paper gehört ein Toolboard, das 50 aktuell verfügbare Anwendungen zur KI-gestützten Musikproduktion visualisiert: https://miro.com/app/board/uXjVM8uA-30=/
„Turn your ideas into songs with Suno on Microsoft Copilot“ – Das war eine Headline letzte Woche im Microsoft-Blog (Link Microsoft Blog).
Meine Tests basierten natürlich immer auf Waschbär-Prompts, meinem Markenzeichen für KI-Tests. Die schnell erzeugten Ergebnisse mit ihren jeweiligen Songausschnitten < 1min sind hier im Folgenden aufgelistet.
Beispiel 1 (Screenshot) „Erstelle mir einen Pop-Song mit einem Waschbär, der in der Stadt Kassel auf Wohnungssuche ist.“
[Verse]
Ich bin ein kleiner Waschbär in der Stadt Kassel
Auf Wohnungssuche, doch es ist nicht einfach (nicht einfach)
Ich suche Wärme und ein gemütliches Zuhause
Doch immer wieder hör‘ ich ein trauriges „Nein“ (oh-oh-oh)
[Chorus]
Ich bin ein Waschbär in der Stadt (Stadt)
Suche nach einem Platz zum Leben (Leben)
Doch keiner lässt mich rein (rein)
Ich finde keinen Ort zum Verweilen (weilen)
Doch ich geb‘ nicht auf (nicht auf)
Ich bleibe stark und werd‘ nicht verzagen (ja, ja)
Ein kleiner Waschbär auf Wohnungssuche in Kassel (oh-oh-oh-oh)
MP3-Ergebnis Copilot&Suno – Beispiel 1:
Beispiel 2 (Screenshot) „Erstell mir einen Song über einen Waschbär, der in Kassel eine Wohnung sucht. Country-Music-Style. Ironischer Text.“
Verse]
In Kassel da war ein Waschbär froh und munter
Er suchte ’ne Wohnung, doch er fand keine Winterunterkunft
Er fragte die Leute, ob sie ihm helfen könnten
Doch keiner will den Waschbär bei sich drinn haben
[Chorus]
Waschbär auf Wohnungssuche (Waschbär)
In Kassel keine Wohnung (oh nein)
Mit Fell so weich und süß (so süß)
Doch hier will ihn niemand (niemand)
Waschbär auf Wohnungssuche (Waschbär)
Oh bitte helft dem kleinen Kerl (bitte!)
Ein Leben ohne Heim ist nicht fair (nicht fair)
Oh bitte helft dem Waschbär, ja
MP3-Ergebnis Copilot&Suno – Beispiel 2:
Beispiel 3 (Screenshot) „can you compose a song (text and audio) about a racoon looking for a flat in Kassel?“
[Verse]
In the city of Kassel, where the streets are so grand
There’s a raccoon on a mission, with a dream in his hand
He’s looking for a flat, a place to call his own
No dumpsters or trash cans, a cozy little zone
[Chorus]
Oh, raccoon in the city, with your furry little mask (ooh-yeah)
Searching high and low, for a home that’s gonna last
Through the hustle and bustle, you’re on a quest so true
Raccoon in the city, we’re all rooting for you (ooh-yeah)
Das im Handelsblatt KI Briefing vom 22.12.23 erwähnte Verfahren, direkt auf der Website Suno.ai einen Song erstellen zu lassen, habe ich nicht getestet. Und etwas überraschend für mich war, dass innerhalb ChatGPTPlus m.W.n. derzeit keine Möglichkeit existiert, Ideen in Songtexte und Songs zu verwandeln.
Die Thematik „KI-Bildgeneratoren“ („text-to-image-models“ als Teil von „generative artificial intelligence“) ist spannend und sehr dynamisch in der Entwicklung und Preisgestaltung. Im Folgenden eine Zusammenfassung der Basics aus meiner persönlichen Sicht mit Stand Anfang Dezember 2023.
DALL-E, Midjourney und Stable Diffusion (incl. SDXL) sind die verbreitetsten und bekanntesten KI-Bildgenerator-Modelle. Im Unterschied zu DALL-E und Midjourney macht Stable Diffusion den Quellcode zugänglich. Unter der Funktion „KI-Bildgenerator“ verstehe ich zunächst grundlegend das Erstellen von fotorealistischen oder künstlerischen Bildern durch eine beschreibende Texteingabe (Prompt) – oft gibt es dabei Custom Models für das Generieren von Bildern in unterschiedlichen Stilen. Darüber hinaus bieten die KI-Bildgeneratoren noch viele weitere Funktionen. KI-generierte Bilder sind manchmal nur schwer von echten Bildern zu unterscheiden – Indikatoren für KI-generierte Bilder können falsche/sinnlose Text-Beschriftungen sein, doppelte oder fehlerhafte Elemente und auch mit der Darstellung von Fingern/Haut gibt es oft sichtbare Probleme.
Die Prompts sollten die Szene und Eigeschaften beschreiben und können Anweisungen zu Handlung, Umgebung, Licht, Anordnung der Elemente, Stil, Blickwinkel und Emotion beinhalten.
Man könnte sich auch in ChatGPT Plus einen passenden Prompt erstellen lassen, indem man seine Wünsche dort kurz formuliert: „Erstelle mir einen Prompt für ein Bild, das (…) zeigt.“ und Inspiration für die Ausarbeitung erhält (s. ChatGPT Plus Panda-Beispiel).
Oder falls ChatGPT Plus durch diese Anforderung gleich ein Bild liefert, hinterher nachfragen „Wie lautet der für das Bild verwendete Prompt?“, um etwaige Änderungswünsche besser in Auftrag geben zu können. Ausgefeilte Prompts werden von verschiedenen Diensten durchaus unterschiedlich interpretiert und dann ggf. in Teilen ignoriert/missverstanden. In der Regel gibt es auch ein Zeichenlimit. Daher ist es gut, darauf zu achten, was vom jeweiligen Dienst an Beispielen angeboten wird oder systemseitig an Ergebnis-Rückmeldungen erfolgt – bei ChatGPT Plus z. B. „Here is the icon symbolizing a teacher, designed with a minimalistic and expressive style“. Stable Diffusion bietet einen „prompts search engine“ an: https://stablediffusionweb.com/prompts Craiyon etwa zeigt unten immer einen Block „Inspirations“ mit Prompts und Ergebnissen an, die inhaltlich in Relation stehen zu der Eingabe, die man selbst oben gerade im Eingabefeld macht. Bzgl. Prompts bei Midjourney s.u. Artikel.
Während in ChatGPT Plus die Bilder rein per Textchat-Aufforderungen generiert und angepasst werden, ist es in KI-Bildgenerator-Programmen üblich, dass parallel zum Prompt viele weitere Einstellungen ausgewählt werden können.
DALL-E ist (wie ich hier schon beschrieben habe) über verschiedene Dienste/Webseiten nutzbar – in der derzeit aktuellsten Version DALL-E3 kostenlos m.W.n. nur über Microsoft-Account, entweder per https://www.bing.com/create oder direkt im Bing Chat, was ich bisher übersehen hatte (daher hier heute dieses Bing Chat Graureiher-Beispiel: Bild1, Bild2). Selbst nutze ich meinen kostenpflichtigen Zugang über die ChatGPT Plus-Integration, die den Riesenvorteil hat, dass im Rahmen von Textchat schon länger Bilder generiert und modifiziert werden können mit – wie ich finde – beeindruckender Output-Qualität und inzwischen sogar auch für eigene erstellte GPTs (s. mein GPT „Cheery Creator“: https://chat.openai.com/g/g-sQbPSW1Rx-cheery-creator).
Auffällig ist, dass bei ChatGPT Plus-Prompts durchaus Meldungen kommen im Sinne von „I’m sorry, but I’m unable to generate images that (…), as it goes against our content policy“. Eine Stärke von den Bildgeneratoren sind Bilder im Stile von berühmten Künstlern und da muss man dann – je nach Dienst – schon genau sein mit den Lebensdaten: „im Stile von Franz Marc“ ist auch bei ChatGPT Plus erlaubt.
Stable Diffusion wird in verschiedenen Diensten genutzt wie z. B. diesen beiden an der Entwicklung beteiligten Firmen, bei denen es nach Registrierung einige kostenlose Credits gibt. Zum Kurz-Test habe ich 3 verschiedene Prompt-Beispiele jeweils in die u.g. Dienste eingegeben und dann Screenshots der Oberfläche und ersten Ergebnisse erstellt, s.u. PDFs.
Prompt 1 = a teacher, modern line icon, cute young character avatar, smiling, icon design, minimalistic, black line on white background
Prompt 2 = a raccoon Franz Marc style
Prompt 3 = cute young female sitting on a beach reading a book, photo realistic style
Abschließend noch der Hinweis auf von mir benutzte Bildgeneratoren ohne jegliche Registrierung und mit zumindest einigen kostenlosen Funktionen:
dream by Wombo: https://dream.ai/ Dieser Dienst war eine Empfehlung der c’t 2022, Heft25, und sorgte mit den damals erzeugten Bildern für einen privaten Waschbär-Kunst-Kalender schon Weihnachten 2022 für Begeisterung.
Craiyon (Modell DALL·E mini): https://www.craiyon.com/ Kostenlos für Privatzwecke und einfach nutzbar, benötigt ca. 1min.
(Update 2.1.24) Stable Diffusion Online: https://stablediffusionweb.com/
Ohne Registrierung, ohne Anmeldung, allerdings aufwändige cookie policy und Generieren dauert einige Minuten. Ergebnisse in CC0 1.0 Lizenz
Soeben habe ich meinen ersten Chatbot (powered by GPT-4) generiert und ich bin noch ganz hin und weg, wie einfach es war und wie beachtlich das Ergebnis ist! Kein Wunder, dass OpenAI momentan den Zugriff limitiert (keine neuen ChatGPT Plus-Kunden und zeitliche Limitierung bei Bestandskunden). Auch ich wurde kurz nach dem Fertigstellen meines GPTs und einigen Testläufen für einige Stunden „ausgesperrt“ – Das lässt Zeit für den folgenden Blogbeitrag.
Spoiler: Mein GPT ist inzwischen „Public“ und kann gerne getestet werden, s.u.
Das Erstellen eines Chatbots
Über den ChatGPT Plus-Menüpunkt „Explore“ kann man …
in wenigen Sätzen seine Idee für den Chatbot beschreiben
einen Titel vergeben (oder sich vorschlagen lassen)
ein Logo generieren lassen und per Chat anpassen
Beispiel-Prompts für die Startseite akzeptieren oder ändern
einfache Anpassungen machen, z. B. was in einem 2. Schritt passieren soll oder welche etwaigen Nachfragen immer oder zufällig gestellt werden sollen
uvm.
Beim Editieren ist der Bildschirm zweigeteilt: links der GPT Builder mit Create-Chat zum Konfigurieren (inkl. einem Configure-Formular, in dem man auch Funktionen deaktivieren könnte) und rechts die große Vorschau mit dem Bereich zum sofortigen Testen.
Der Rest passiert automatisch und ChatGPT Plus generiert die Dialoge und Bilder dann wie üblich entsprechend seines Modells. Bei meiner Idee ist garantiert, dass die Ergebnisse nicht langweilig werden…
Freigabe: Den eigenen Chatbot kann man für ausgewählte Personen, die den Link kennen, freigeben (=Default) oder als Public. Den „Cheery Creator“ ausprobieren können allerdings nur Personen mit ChatGPT Plus-Account, denn der Link alleine und ein kostenloser OpenAI-Account reichen nicht.
Meine Idee: „Cheery Creator“
Die Zeiten sind düster genug, etwas verbale Aufheiterung per ganz kurzem Textchat kann nicht schaden und DALL-E3 generiert generell hervorragende Bilder. Warum also nicht Beides kombinieren und noch dazu mit der Idee von Ausmal-Motiven? Und natürlich immer mit Waschbär!
Beispiel Cheery Creator (zum Vergrößern anklicken)
Update: Inzwischen habe ich wieder Zugriff auf ChatGPT Plus und noch ein wenig getestet. Die Ergebnisse waren so schön, dass ich den „Cheery Creator“ nun als „Public“ freigegeben habe – wer mag (und ein ChatGPT-Plus-Abo hat), kann also gerne unter dem angegebenen Link testen.
Und schon wieder hat sich ChatGPT Plus deutlich verändert: Endlich ist das Dropdown-Menü weg und die sonst nur alternativ auswählbaren Optionen „browse the web“, „analyze data“ und „generate images“ (= DALL-E3) sind jetzt direkt in GPT-4 enthalten. Lediglich die Plugins sind nun noch eine alternative Auswahloption. Btw, meine bisherigen Plugins sind aktuell weg – ob wegen des kürzlichen ChatGPT Plus-Updates oder anderer Gründe bleibt mir unklar.
Komplett neu in ChatGPT Plus ist die Möglichkeit, eigene GPTs zu erzeugen oder per „Explore“ von anderen bereits erstellte GPTs zu nutzen – doch das ist ein spannender Test für einen anderen Tag.
Test der Bilderkennungsfunktion per Upload eigener Fotos
Denn genauer anschauen möchte ich mir heute die viel gelobte Bilderkennungsfunktion, von der ich inzwischen annehme, dass ich sie noch gar nicht hatte, als ich versucht hatte, sie zu testen (s. Blogbeitrag vom 1.10.23).
Ergebnis: Nicht schlecht, aber ChatGPT Plus machte bei der Erkennung aus einer 20 eine 50 – immerhin stimmte dann die Summe aus seinen erkannten Einzelpositionen.
Beispiel 3: Uhrzeit „what time is it?“
Ergebnis: Das scheint generell ein Problem zu sein, wie ich neulich in einem Artikel gelesen habe – wegen entsprechender Trainingsdaten kommt hier sowieso immer 10:10 Uhr heraus. Nunja, eine kleine Variation hat ChatGPT Plus bei mir ja zunächst versucht mit dem Ergebnis 10:09.
Da reizte es mich doch, den gleichen Prompt „what time is it?“ mit einem Foto einer digitalen Zeitanzeige zu probieren.
Ergebnis: Bei einem Uhrenfoto mit digitaler Anzeige war ChatGPT Plus wieder auf sicherem Terrain und lieferte korrekt die abgebildete Uhrzeit. Beim ersten Versuch gab es allerdings nur eine Fehlermeldung.
Auch heute finde ich die ChatGPT Plus-Ergebnisse beeindruckend, wenngleich man wirklich genau hinsehen muss (Geldsumme) und eben den Trainingsbesonderheiten eines LLM unterliegt (die man normalerweise ja nicht kennt), d.h. somit JEDES Ergebnis von ChatGPT Plus erst einmal kritisch hinterfragen sollte, wenn man nicht um Kreativität gebeten hat.
Diese Website benutzt Cookies. Wenn du die Website weiter nutzt, gehen wir von deinem Einverständnis aus.OK