Niederschwellig Bilder generieren mit Grok2 Aurora

Direkt innerhalb von X und auch ohne Premium Account ist es nun möglich, Bilder zu generieren. Ein Text-Prompt erzeugt jeweils 4 verschiedene Bilder mit Möglichkeit zum Download und Teilen. Natürlich kann man zuvor noch weitere Prompt-Eingaben machen – manchmal ist schon ein einfaches „Regenerate“ sehr zielführend.
Über Klick auf „Verlauf“ können ältere Konversationen aufgerufen und weitergenutzt werden.
Interessant bei Groks Aurora ist der Prompt „Draw me“, bei dem der eigene X-Account Grundlage sein soll für das erzeugte Ergebnis …

Grok-Beispiel Draw Me

Grok2 Aurora gefällt mir gut: Die fotorealistische Darstellung von Landschaft und Natur war bei meinen Prompts hervorragend.
Hingegen war bei meinen Eingaben die Umsetzung von Konzepten und Texten etwas problembehaftet und auch mit Fingern/Körperteilen bei Mensch und Tier gab es hin und wieder die bei KI bekannten Probleme.
Grok war vor einiger Zeit in den deutschen Medien kritisch im Gespräch wegen der Umsetzung von Prompts bzgl. Personen – die aktuellen diesbezüglichen Legal Terms sind recht deutlich. Insofern verzichte ich auf Bildbeispiele mit noch lebenden Personen.

Ausgewählte Bild-Ergebnisse

Grok-Beispiel 01| Grok-Beispiel 02|Grok-Beispiel 03|Grok-Beispiel 04|Grok-Beispiel 05|Grok-Beispiel 06|Grok-Beispiel 07|Grok-Beispiel 08|Grok-Beispiel 09|Grok-Beispiel 10|Grok-Beispiel 11|Grok-Beispiel 12|Grok-Beispiel 13

(Grok-Bilder zum Vergrößern anklicken)

 

Screenshot der Prompts und jeweils 4 Ergebnis-Bilder

Grok-Beispiel 01a | Grok-Beispiel 01b | Grok-Beispiel 02 | Grok-Beispiel 03 | Grok-Beispiel 04 | Grok-Beispiel 05 | Grok-Beispiel 06 | Grok-Beispiel 07 | Grok-Beispiel 08 | Grok-Beispiel 09 | Grok-Beispiel 10 | Grok-Beispiel 11 | Grok-Beispiel 12 | Grok-Beispiel 13 |

 

Literatur

Waschbär-Weihnachtsgeschichte – vom Kindergarten zur Graduiertenschule

Vor 2 Jahren hatte ich die erste Begegnung mit ChatGPT (s.a. Blogbeitrag) und seitdem hat sich viel getan.
Passend zur Jahreszeit eine gute Gelegenheit, die (für Nicht-Abonnenten) neue Funktion vom 10. Dezember 2024 („Today we made Canvas available in 4o by default for all users, Free and Paid.“) wieder mal an einer kleinen Waschbär-Weihnachtsgeschichte zu testen …
Da ChatGPT nach wie vor extrem beliebt ist, hat sich leider nichts daran geändert, dass der Dienst nicht immer erreichbar ist und Limits für Anfragen hat.

Start: Anmelden bei chat.openai.com, auf das Tool-Symbol klicken und „Canvas“ wählen, dann Prompt eingeben

Start Canvas

Die Ergebnisse vorab: Zu den PDFs mit der Waschbär-Weihnachtsgeschichte (verschiedene „Leseniveaus“)

Canvas-Prompt „Schreibe eine kurze amüsante Weihnachtsgeschichte über einen Waschbären, der in Heidelberg eine Wohnung sucht.“

Original / erste Fassung | Kindergarten (mit Emojis) | Graduiertenschule | Graduiertenschule (mit Emojis)

 

Hintergrund: Was ist neu in der ChatGPT-Webversion?

Canvas = Side-by-side-view und direktes Editieren im Text-Ergebnis möglich. Rechts unten Shortcuts u.a. zum Anpassen von Textlänge und Leseniveau plus Hinzufügen von Emojis.
Insbesondere die Kommentarfunktion per „Bearbeitungen vorschlagen“ ist interessant – nicht nur für die Möglichkeit, selbst geschriebene Texte zum anschließenden Bearbeiten in Canvas zu laden. Nützlich übrigens auch das Zurückgehen-Können zu vorherigen Versionen.

Beim Prompt-Schreiben war es stets eine gute Idee, die Zielgruppe bzw. das sprachliche Niveau vorab zu formulieren. Bei einer Waschbär-Weihnachtsgeschichte hingegen wird es sehr schräg, wenn man das Icon des höchsten Leseniveaus „Graduiertenschule“ wählt.

Die Screenshots zeigen die erste Fassung sowie speziell auf das Leseniveau „Graduiertenschule“ angepasste Versionen – mit Emoji-Einsatz bzw. mit Kommentarfunktion. Aus ChatGPT wurde dann der jeweilige Ergebnis-Text kopiert, in Word eingefügt und in PDF konvertiert.

 

Screenshots Waschbär-Weihnachtsgeschichte, Web-Oberfläche Canvas (hohe Auflösung)

Erste Nutzung | Oberfläche nach einigen Bearbeitungen | Kommentarfunktion

 

Weitere Informationen zu Canvas

 

NotebookLM: Aus Text Audio-Diskussion erzeugen

„NotebookLM now lets you listen to a conversation about your sources“ (s.a. https://blog.google/technology/ai/notebooklm-audio-overviews/)
Kurz gesagt, dieses Google-KI-Tool kann hochgeladene Dokumente in spannende Audio-Diskussionen („Podcast“) umsetzen.
Laut FAQ: „NotebookLM befindet sich noch in der frühen Testphase, daher werden derzeit keine Gebühren für den Zugriff erhoben.“

Im Folgenden ein Test auf der Grundlage einer fiktiven Kurzgeschichte, die ich schon vor längerer Zeit geschrieben habe. Aus einer einzigen DIN A4 Seite deutschen Textes machte NotebookLM knapp 10 Minuten thematische Diskussion auf englisch! Das unterhaltsame Audio-Ergebnis finde ich ausgesprochen beeindruckend, und es klingt so gar nicht mehr nach KI: Unten gerne zum Nachlesen und Vergleich des Originaltextes mit dem NotebookLM-Audio – viel Spaß!

Vorgehensweise

  1. http://notebooklm.google/
  2. Anmeldung mit persönlichem Google-Account
  3. Mindestens 1 Datei hochladen (z. B. Format PDF, txt)
  4. Rechts auf „Detaillierte Unterhaltung Zwei Hosts (nur auf englisch) – Generieren“ klicken und einige Minuten warten
  5. Download der „wav“-Datei und/oder Freigabe-Link erzeugen (zum Nutzen Google-Anmeldung nötig)

Screenshot NotebookLM

Originaltext meiner Kurzgeschichte

Urlaub mit Folgen

Susanne und Stefan blickten entgeistert auf das Durcheinander in ihrer Wohnung. Das war jetzt genau das, was man brauchte. Gestern hatten sie noch am Strand gelegen und sich auf zu Hause gefreut. Und nun war das einzig Erfreuliche, dass der Fischfutterautomat funktioniert hatte und das große Aquarium nebst Fischen aussah, als wäre man nicht 2 Wochen im Urlaub gewesen. Die Polizei konnte ihnen auch keine großen Hoffnungen machen. Es gab so viele Wohnungseinbrüche in der Stadt – gerade in besseren Wohnvierteln gehörte das inzwischen schon fast dazu. Doch so einfach wollten Susanne und Stefan es sich nicht machen. Wer hatte denn gewusst, dass sie nicht da waren? Die Arbeitskollegen natürlich, die Nachbarn, der Hausarzt – nein, solche Überlegungen führten nicht weiter. Und nun war alles weg: die Sammlung Eurocheques, die moderne Hifi-Anlage, sogar vor dem Computer hatten die Einbrecher nicht Halt gemacht. Wenigstens waren die Backup-Disketten noch da. Aber das Gefühl, dass womöglich jetzt jemand die geschäftlichen Daten und auch die privaten Briefe lesen würde, war ziemlich schockierend. Irgendjemand würde jetzt sehr viel von ihnen wissen. Ein Gespräch mit den Nachbarn ergab, dass sie vorgestern Abend ein paar Handwerker ins Haus gehen sahen. Aber wer denkt da gleich an Einbruch? Gut, also vorgestern war es dann wohl passiert. Während Stefan an seinem Schreibtisch saß und überlegte, stöhnte Susanne, dass sie doch lieber nur eine Woche auf der Insel hätten verbringen sollen und dass dann das alles nicht passiert wäre. Schließlich hätte es in der zweiten Woche sowieso nur ständig geregnet. Letzteres konnte Stefan nicht bestreiten; selbst die Einheimischen konnten sich nicht daran erinnern, wann es das letzte Mal um diese Jahreszeit derart viel geregnet hatte. Und dann waren da ja noch diese aufdringlichen Werbeleute gewesen, die ihnen am Anfang ihrer zweiten Woche unbedingt eine Timesharing-Option hatten aufschwatzen wollen. Natürlich nicht mit dieser Bezeichnung; dann hätte man sich ja nie auf ein Gespräch eingelassen, das stand ja schon im Reiseführer. Einen Ferientag hatten Susanne und Stefan damit verbracht, sich eine – zugegebenermaßen schöne – neue Ferienanlage anzuschauen. Naja, die Besichtigung und das Gespräch hatten über 2 Stunden gedauert und ein schon eingeplantes Mittagessen gekostet. Schlimmer war der Ärger, den sie nachmittags darüber empfunden hatten, zu höflich gewesen zu sein, um schon früher verärgert das Gespräch abzubrechen. Dieser Werbemensch war aber auch wirklich übel gewesen. Moment mal, könnte da etwa ein Zusammenhang bestehen zu dem Einbruch bei ihnen? Ein Anruf bei der Polizei konnte ja nicht schaden. Der Beamte, mit dem sie telefonierten, fand den Gedanken gar nicht so abwegig, wie sie befürchtet hatten und versprach, sich darum zu kümmern. Schließlich hatte man ja immerhin den Namen des Hotels, in dem die Veranstaltung stattgefunden hatte und mit etwas Glück war auch der Werbetyp noch da. Frank war der Name gewesen; er erzählte ihnen, er käme ursprünglich aus einem kleinen Ort bei Braunschweig. In 2 Monaten wollte er Urlaub auf Hawaii machen – etwas, dass man sich nur leisten könnte, wenn man Optionen bei seiner Urlaubsfirma erwerbe. Naja, vielleicht lag das aber wiederum eher daran, dass er selbst gewisse Nebeneinkünfte hatte … Schließlich hatte er sie für die Statistik nach ihrem Nachnamen gefragt und später im Gespräch hatten sie sich auch darüber unterhalten, aus welchem Ort sie stammten. Im Nachhinein konnte Stefan sich nicht mehr vorstellen, auf sowas Blödes hereingefallen zu sein, aber im Urlaub war man halt lockerer und rechnete auch nicht gleich mit dem Schlimmsten.
Tage später klingelte bei Stefan das Telefon und ein Polizeibeamter unterrichtete ihn, dass sein Verdacht begründet gewesen war. Sie waren nicht die einzigen Süd-Urlauber gewesen, deren Wohnung während ihrer Abwesenheit ausgeräumt worden war: Mit Hilfe der spanischen Kollegen hatten man in einer Durchsuchung bei Frank belastendes Material gefunden. Hawaii würde für ihn doch weiterhin nur ein Traum bleiben…

 

Ergebnis NotebookLM Audio-Diskussion

a) Lokale Ablage nach Umwandlung in MP3: https://www.idethloff.de/blogfiles/20240927/ID-Story-Urlaub-mit-Folgen-NotebookLM.mp3

b) Freigabelink (Google-Anmeldung erforderlich): https://notebooklm.google.com/notebook/9f1de117-e5e1-42d1-953f-edf09e32dd26/audio

Sprechende Avatare mit HeyGen

Heute ein kleiner HeyGen-Test. Dieses Tool ist ein „AI Video Generator“-Tool und bringt nach Registrierung einige kostenlose Funktionen mit sich. https://www.heygen.com/

Beispielsweise lässt sich ein kurzes Video mit einem eigenen Photo-Avatar erzeugen, der einen zuvor eingegebenen Skript-Text mit einer der HeyGen-KI-Stimmen wiedergibt.

 

Hierbei war es möglich, ein vorhandenes HeyGen-Template hinsichtlich Farben, Text und eigenen Assets (hochgeladenes Bild) zu editieren. Die ausgewählte KI-Stimme konnte man bereits vor Klick auf „Submit“ testen, die Animation des Avatars sieht man allerdings erst in dem (recht schnell) erzeugten Video. Anschließend das Video im mp4-Format herunterladen – fertig.

Hier noch der Sharing-Link auf der HeyGen-Plattform:
https://app.heygen.com/share/ceb61eb1cbd443009fe164dae743b533

HeyGen ist auch in der Lage, Übersetzungen in andere Sprachen zu erstellen, aber das ist ein Test für einen anderen Tag…

 

Bilder generieren mit ideogram.ai

Auf der Suche nach einer Alternative zu DALLE-3 stieß ich auf ideogram.ai – auch aufgrund des Hinweises, dass ideogram.ai sehr gut mit Texten in Bildern umgehen kann. Das Web-Tool hat mir sowohl von der Qualität als auch von der Geschwindigkeit her sehr gut gefallen. Wie inzwischen so ziemlich alle Tools, erfordert es ein persönliches Login (Google, Apple) – auch für einen freien Account mit max. 25 Prompts täglich. Hier die ideogram.ai-Dokumenation: https://docs.ideogram.ai/using-ideogram/generating-images und die Nutzungsbedingungen: https://ideogram.ai/tos

ideogram.ai-Testbericht

Programm-Oberflaeche

Mit jedem Prompt werden 4 Bilder erzeugt, von denen eines automatisch zum Cover-Bild gewählt wird. Dennoch kann man manuell einzelne Bilder aus verschiedenen Kollektionen anpinnen an den eigenen Account (s.u. Screenshot). Die erzeugten Bilder sind downloadbar im jpg-Format inkl. Exif-Daten. Die Option „share“ scheint im ideogram.ai-Bereich intern zu bleiben, daher hier im Blogbeitrag manuell hochgeladene Ergebnisse.

Standardmäßig ist „Magic Prompt“ angehakt zur Optimierung der eigenen Text-Eingabe, was man auf Wunsch aber deaktivieren kann. Ansonsten kann man noch zwischen verschiedenen Ausgabe-Formaten wählen und das ist es dann schon mit der Wahlfreiheit bei einem kostenlosen Account: Erzeugte Bilder sind „public“ und man kann sie nicht löschen. Der Editor steht auch nur für Bezahl-Accounts zur Verfügung.

Screenshot meiner angepinnten ideogram.ai-Ergebnisse

Programm-Oberflaeche(zum Vergrößern anklicken)

Einzelbilder zum genaueren Anschauen


Prompt = 3 raccoons, a cat and a waterfall. wildlife photography


Prompt = a blue heron standing on a desk in front of a keyboard and looking at a monitor. mysterious yellow light, black and white items. a small pink raccoon logo in the upper right corner.


Prompt = Create an aspect ratio of 9:16 depicting half of a face of a raccoon and the other half with text „RACCOONS IN KASSEL FOREVER“ with bold and grunge effect on the text, black and white illustration with pink background, typography.

Magic Prompt = A striking black and white illustration with a 9:16 aspect ratio, capturing half of a raccoon’s face looking intently towards the viewer. The other half of its face is replaced by bold, grungy text that reads „RACCOONS IN KASSEL FOREVER“ in a playful and rebellious tone. The illustration is set against a vibrant pink background, adding an unexpected pop of color. The overall design is edgy and artistic, with a strong typography element that adds to its visual impact.
-> Mein Prompt war inspiriert von einem Beispiel auf X (Ex-Twitter): https://twitter.com/ideogram_ai/status/1775512625851375812
Meine Formatangaben wurden durch die gesetzte Option Aspect Ratio = 1:1 übersteuert.


Prompt = Stelle den Vorgang der Photosynthese symbolisch dar.

Magic Prompt = A creative visual representation of photosynthesis, where a large tree stands tall in a sunlit meadow. The tree’s leaves are depicted as glowing, capturing sunlight and converting it into energy. A series of tiny, colorful insects and birds surround the tree, symbolizing the interconnectedness of the ecosystem. In the background, there is a golden sun and a gentle, blue sky. The overall ambiance of the image is serene, with a touch of magic and life.


Prompt = cute young woman sitting on a beach reading a book labeled „Raccoons forever“, photo realistic style, mysterious sun light, typography.

-> Der Text im Bild klappte auf Anhieb, der Text auf dem Buchtitel nicht ganz so gut …


Prompt = a learning space designed with areas for quiet study, online learning, hybrid learning, power generation via exercise bikes and a comfortable relaxing atmosphere. empty – no students.

Magic Prompt = A futuristic and innovative learning space, designed for a variety of educational experiences. In the center, there are several exercise bikes connected to power generators, providing an eco-friendly way to produce energy while students study. The quiet study area features modern, comfortable seating and natural lighting, while the online and hybrid learning zones are equipped with state-of-the-art technology and interactive displays. The entire space is empty, awaiting the arrival of eager students to explore and learn in this unique environment.
-> Meine Eingabe „no students“ wurde leider ignoriert und auch die entsprechende automatisch erzeugte Eingabe des Magic Prompts … Die Darstellung der Personen ist zudem extrem schlecht – im Gegensatz zu meinem Beispiel mit dem Chemiker.


Prompt = a typical north german landscape. one blue sheep. sunny day.

Magic Prompt = A serene, sunny scene of a typical north German landscape, featuring a lush green field with various types of tall grass and wildflowers. In the center, a single, unique blue sheep grazes peacefully, contrasting with the surrounding natural colors. The sky is a brilliant blue, with fluffy white clouds floating above. The overall atmosphere is tranquil and idyllic, capturing the essence of a perfect rural day.


Prompt = Historisches Wasserschloss im Abendlicht. Bleistiftzeichnung.


Prompt = Louvre pyramid with giraffes next to it. Evening light. Photo.

Magic Prompt = A stunning photograph of the Louvre Pyramid bathed in the golden glow of evening light. Two elegant giraffes gracefully pose next to the pyramid, casting elongated shadows on the polished floor. The background reveals a serene, open plaza with a few people admiring the striking scene. The combination of modern architecture and graceful wildlife creates a harmonious and enchanting atmosphere.


Prompt = raccoon with balloon., graffiti


Prompt = Laborraum. Ein Chemiker mit einem Reagenzglas auf dem Tisch. Fotorealistisch.


Prompt = raccon for president. poster. typography

Magic Prompt = A vibrant and humorous political poster featuring a raccoon wearing a stylish suit, holding a microphone with the slogan „Raccoon for President.“ The raccoon’s face is replaced with the American flag, emphasizing its patriotic message. The background is a cityscape with skyscrapers, and the typography is bold, modern, and eye-catching. The overall tone of the image is playful and satirical, poking fun at the political landscape.


Prompt = a classroom. van Gogh style.


Prompt = a raccoon, a giraffe and a cat looking at the sunset over a river. black & white coloring book style illustration.


Prompt = self portrait of a emperor penguin as an artist, painting on a canvas in a historical setting that echoes the ambience of a 17th century Europe.


Prompt = 3 raccoons, a cat and a waterfall. wildlife photography

Magic Prompt = A serene wildlife photo capturing three raccoons and a cat coexisting peacefully near a picturesque waterfall. The raccoons display a mix of curiosity and caution, while the sleek cat observes intently from a distance. The waterfall cascades in the background, casting a mist that shines in the sunlight. The lush greenery and rocks in the foreground give a sense of the animals‘ natural habitat.


Prompt = Bergpark Kassel, Tiger, Katze und Maus., 3d render

Magic Prompt = A stunning 3D rendered scene of Bergpark Kassel, a majestic mountain park featuring a gigantic tiger, a curious cat, and a playful mouse. The tiger stands proudly on a hill, surveying the expansive park, while the cat and mouse engage in a lighthearted game nearby. The setting is a lush, green environment with vibrant flowers and trees, creating a serene atmosphere., 3d render
-> Der „Bergpark Kassel“ war dem Tool offensichtlich kein Begriff … (im Gegensatz zum Begriff „Louvre“)


Prompt = Louvre pyramid with giraffes next to it. Evening light. Photo.

Magic Prompt = A stunning photograph of the Louvre Pyramid illuminated by the warm evening light, with a delicately blurred effect. Near the base of the pyramid, two majestic giraffes gracefully pose, their long necks reaching towards the sky. The background reveals a picturesque view of the Louvre Museum and a serene cityscape. The overall atmosphere of the image is peaceful and enchanting, blending architecture, wildlife, and urban elegance.