KI / AI – ID's Blog

Juni 5, 2025Juni 5, 2025

5-Sekunden-KI-Videos mit Bing Video Creator

Dank des Heise-Artikels vom 4.6.25 zum neuen Bing Video Creator (https://www.heise.de/news/Microsoft-spendiert-Bing-einen-KI-Video-Ersteller-10425495.html) im Folgenden eigene kostenlos erzeugte Testergebnisse als LOOP-Videos auf meinem Webserver.
Die in Bing verwendete Komponente Sora ist bei OpenAI schon länger erhältlich, allerdings dort lediglich über ein kostenpflichtiges Abo (s.a. https://openai.com/de-DE/sora/).
Microsoft bietet über die Bing App nun die Erstellung von Videos im Seitenverhältnis 9:16 in 480p und zwar mit einer Dauer von 5 Sekunden Länge.

Waschbär-Motive finde ich sehr geeignet zum Testen von KI-Anwendungen, daher auch hier meine entsprechenden Prompts.
Die KI ist – wie bei Bing bzw. OpenAI üblich – gestaltend tätig, ohne dass man selbst jedes Detail angibt. Bei Videos ist daher spannend, welche Bewegungen von der KI akzentuiert wurden. Noch geht das Erstellen eines Videos nur aus der Bing-App heraus und nicht über die Desktop-Version, doch das wird sich sicherlich bald ändern. Auf die jeweiligen Ergebnisse musste ich tatsächlich jeweils mehr als 2 Stunden warten, aber das habe ich für meine kostenlosen Tests gerne in Kauf genommen.

Versuch 1: Fishing Raccoon

„a raccoon who goes fishing with a sun flower in a pond in front of the Louvre. evening light“

Die Umsetzung finde ich gelungen mit Bewegungen des Wassers und Drehbewegung des Waschbärs bei entspanntem Ambiente.
Die Prompt-Idee habe ich für diesen Sora-Test recycelt, aber ohne Hommingberger Gepardenforelle (s.a. https://www.heise.de/foto/galerie/suche/foto/?keyword=gepardenforelle).

Versuch 2: Juggling Raccoon

„a raccoon at the beach juggling balls during a thunderstorm while a herring gull watches“

Die Möwe fehlt leider im Ergebnis, aber das Video zeigt einen sehr hektischen Waschbären, was gut zum Gewitter-Setting passt. Er will schnell mit seinem Training fertig werden, bevor das Wetter noch schlechter wird und es nicht nur über dem Wasser regnet 😉

***

Laut Heise-Artikel werden die Bing-Videos bis zu 90 Tagen bei Microsoft gespeichert; hier die Links zu meinen 2 Versuchen:

Versuch 1: https://sl.bing.net/Mum1yNGsXQ
Versuch 2: https://sl.bing.net/iyHi5tjsY7o

Februar 15, 2025

Hugging Face AI Agents Course

AI Agents sind DAS Thema derzeit. Regelmäßig gute Links dazu bietet übrigens George Siemens „SAIL“-Newsletter https://buttondown.com/SAIL/archive
So bin ich auch auf den am 10.2.2025 gestarteten kostenlosen „AI Agents“-Kurs von Hugging Face gestoßen:
https://huggingface.co/agents-course
https://huggingface.co/learn/agents-course/unit0/introduction

Die Hugging Face Empfehlung für Teilnehmende ohne Python-Kenntnisse lautet, sich (evtl. nur) mit Unit1 „Introduction to Agents“ zu befassen und ein kleines Zertifikat zu erwerben. Am Ende des Unit1-Theorieteils gibt es die Möglichkeit, ein fertiges AI-Agent-Beispiel online in einem eigenen Hugging Face Space auszuprobieren und dabei lediglich in einer Python-Datei kleinere Anpassungen zu machen. Verwendet wurde dafür „Smolagents“, das AI Agent Framework von Hugging Face.

Meine Tests mit dem in Unit1 angebotenen AI-Agent-Beispiel
Wegen Überlastung des eingebundenen Qwen2.5-Coder-32B-Instruct-LLM habe ich schnell auf die im Skript aktivierbare technische Alternative zurückgreifen müssen. Dann klappte es gut mit Anfragen und Ergebnissen mit Darlegung der Agent-„Thoughts“ bis hin zur „Final Answer“.
Bzgl. eigenen Anpassungen der Python-Beispieldatei habe ich 2 Dinge getestet:
a) Aktivieren des bereits vorbereiteten Image-Generators durch Eintrag in der Zeile tools=[final_answer, image_generation_tool],
b) Eintragen eines kleinen Lottozahlen-Skripts als Tool
Wieder einmal war die Nutzung von ChatGPT hilfreich, um mir ggf. Code erklären bzw. generieren zu lassen, da meine Python-Kenntnisse sich in Grenzen halten 🙂

Für mich interessant: Der bereits im AI-Agent-Beispiel referenzierte Image-Generator greift auf „model_sdxl = „black-forest-labs/FLUX.1-schnell“ zurück und lieferte ziemlich gute Bilder.

Chatverlauf Screenshot 1 | Chatverlauf Screenshot 2 | Chatverlauf Screenshot 3

| | |

***************************

Abschließend noch eine Erklärung aus dem Kurs, was ein AI Agent ist 🙂

„To summarize, an Agent is a system that uses an AI Model (typically an LLM) as its core reasoning engine, to:

Understand natural language: Interpret and respond to human instructions in a meaningful way.

Reason and plan: Analyze information, make decisions, and devise strategies to solve problems.

Interact with its environment: Gather information, take actions, and observe the results of those actions.“

(Quelle: https://huggingface.co/learn/agents-course/unit1/what-are-agents)

Dezember 19, 2024

Niederschwellig Bilder generieren mit Grok2 Aurora

Direkt innerhalb von X und auch ohne Premium Account ist es nun möglich, Bilder zu generieren. Ein Text-Prompt erzeugt jeweils 4 verschiedene Bilder mit Möglichkeit zum Download und Teilen. Natürlich kann man zuvor noch weitere Prompt-Eingaben machen – manchmal ist schon ein einfaches „Regenerate“ sehr zielführend.
Über Klick auf „Verlauf“ können ältere Konversationen aufgerufen und weitergenutzt werden.
Interessant bei Groks Aurora ist der Prompt „Draw me“, bei dem der eigene X-Account Grundlage sein soll für das erzeugte Ergebnis …

Grok-Beispiel Draw Me

Grok2 Aurora gefällt mir gut: Die fotorealistische Darstellung von Landschaft und Natur war bei meinen Prompts hervorragend.
Hingegen war bei meinen Eingaben die Umsetzung von Konzepten und Texten etwas problembehaftet und auch mit Fingern/Körperteilen bei Mensch und Tier gab es hin und wieder die bei KI bekannten Probleme.
Grok war vor einiger Zeit in den deutschen Medien kritisch im Gespräch wegen der Umsetzung von Prompts bzgl. Personen – die aktuellen diesbezüglichen Legal Terms sind recht deutlich. Insofern verzichte ich auf Bildbeispiele mit noch lebenden Personen.

Ausgewählte Bild-Ergebnisse

| |||||||||||

(Grok-Bilder zum Vergrößern anklicken)

Screenshot der Prompts und jeweils 4 Ergebnis-Bilder

Literatur

Grok Image Generation Release (9.12.24): https://x.ai/blog/grok-image-generation-release
Bringing Grok to Everyone (12.12.24): https://x.ai/blog/grok-1212
Terms of Service – Consumer https://x.ai/legal/terms-of-service

Dezember 12, 2024

Waschbär-Weihnachtsgeschichte – vom Kindergarten zur Graduiertenschule

Vor 2 Jahren hatte ich die erste Begegnung mit ChatGPT (s.a. Blogbeitrag) und seitdem hat sich viel getan.
Passend zur Jahreszeit eine gute Gelegenheit, die (für Nicht-Abonnenten) neue Funktion vom 10. Dezember 2024 („Today we made Canvas available in 4o by default for all users, Free and Paid.“) wieder mal an einer kleinen Waschbär-Weihnachtsgeschichte zu testen …
Da ChatGPT nach wie vor extrem beliebt ist, hat sich leider nichts daran geändert, dass der Dienst nicht immer erreichbar ist und Limits für Anfragen hat.

Start: Anmelden bei chat.openai.com, auf das Tool-Symbol klicken und „Canvas“ wählen, dann Prompt eingeben

Start Canvas

Die Ergebnisse vorab: Zu den PDFs mit der Waschbär-Weihnachtsgeschichte (verschiedene „Leseniveaus“)

Canvas-Prompt „Schreibe eine kurze amüsante Weihnachtsgeschichte über einen Waschbären, der in Heidelberg eine Wohnung sucht.“

Original / erste Fassung | Kindergarten (mit Emojis) | Graduiertenschule | Graduiertenschule (mit Emojis)

Hintergrund: Was ist neu in der ChatGPT-Webversion?

Canvas = Side-by-side-view und direktes Editieren im Text-Ergebnis möglich. Rechts unten Shortcuts u.a. zum Anpassen von Textlänge und Leseniveau plus Hinzufügen von Emojis.
Insbesondere die Kommentarfunktion per „Bearbeitungen vorschlagen“ ist interessant – nicht nur für die Möglichkeit, selbst geschriebene Texte zum anschließenden Bearbeiten in Canvas zu laden. Nützlich übrigens auch das Zurückgehen-Können zu vorherigen Versionen.

Beim Prompt-Schreiben war es stets eine gute Idee, die Zielgruppe bzw. das sprachliche Niveau vorab zu formulieren. Bei einer Waschbär-Weihnachtsgeschichte hingegen wird es sehr schräg, wenn man das Icon des höchsten Leseniveaus „Graduiertenschule“ wählt.

Die Screenshots zeigen die erste Fassung sowie speziell auf das Leseniveau „Graduiertenschule“ angepasste Versionen – mit Emoji-Einsatz bzw. mit Kommentarfunktion. Aus ChatGPT wurde dann der jeweilige Ergebnis-Text kopiert, in Word eingefügt und in PDF konvertiert.

Screenshots Waschbär-Weihnachtsgeschichte, Web-Oberfläche Canvas (hohe Auflösung)

Erste Nutzung | Oberfläche nach einigen Bearbeitungen | Kommentarfunktion

Weitere Informationen zu Canvas

„Canvas – 12 Days of OpenAI: Day 4“ https://www.youtube.com/live/qZ0ImE41pVs?feature=shared (ca. die ersten 8 Minuten)
https://help.openai.com/en/articles/9930697-what-is-the-canvas-feature-in-chatgpt-and-how-do-i-use-it

September 27, 2024

NotebookLM: Aus Text Audio-Diskussion erzeugen

„NotebookLM now lets you listen to a conversation about your sources“ (s.a. https://blog.google/technology/ai/notebooklm-audio-overviews/)
Kurz gesagt, dieses Google-KI-Tool kann hochgeladene Dokumente in spannende Audio-Diskussionen („Podcast“) umsetzen.
Laut FAQ: „NotebookLM befindet sich noch in der frühen Testphase, daher werden derzeit keine Gebühren für den Zugriff erhoben.“

Im Folgenden ein Test auf der Grundlage einer fiktiven Kurzgeschichte, die ich schon vor längerer Zeit geschrieben habe. Aus einer einzigen DIN A4 Seite deutschen Textes machte NotebookLM knapp 10 Minuten thematische Diskussion auf englisch! Das unterhaltsame Audio-Ergebnis finde ich ausgesprochen beeindruckend, und es klingt so gar nicht mehr nach KI: Unten gerne zum Nachlesen und Vergleich des Originaltextes mit dem NotebookLM-Audio – viel Spaß!

Vorgehensweise

http://notebooklm.google/
Anmeldung mit persönlichem Google-Account
Mindestens 1 Datei hochladen (z. B. Format PDF, txt)
Rechts auf „Detaillierte Unterhaltung Zwei Hosts (nur auf englisch) – Generieren“ klicken und einige Minuten warten
Download der „wav“-Datei und/oder Freigabe-Link erzeugen (zum Nutzen Google-Anmeldung nötig)

Screenshot NotebookLM

Originaltext meiner Kurzgeschichte

Urlaub mit Folgen

Susanne und Stefan blickten entgeistert auf das Durcheinander in ihrer Wohnung. Das war jetzt genau das, was man brauchte. Gestern hatten sie noch am Strand gelegen und sich auf zu Hause gefreut. Und nun war das einzig Erfreuliche, dass der Fischfutterautomat funktioniert hatte und das große Aquarium nebst Fischen aussah, als wäre man nicht 2 Wochen im Urlaub gewesen. Die Polizei konnte ihnen auch keine großen Hoffnungen machen. Es gab so viele Wohnungseinbrüche in der Stadt – gerade in besseren Wohnvierteln gehörte das inzwischen schon fast dazu. Doch so einfach wollten Susanne und Stefan es sich nicht machen. Wer hatte denn gewusst, dass sie nicht da waren? Die Arbeitskollegen natürlich, die Nachbarn, der Hausarzt – nein, solche Überlegungen führten nicht weiter. Und nun war alles weg: die Sammlung Eurocheques, die moderne Hifi-Anlage, sogar vor dem Computer hatten die Einbrecher nicht Halt gemacht. Wenigstens waren die Backup-Disketten noch da. Aber das Gefühl, dass womöglich jetzt jemand die geschäftlichen Daten und auch die privaten Briefe lesen würde, war ziemlich schockierend. Irgendjemand würde jetzt sehr viel von ihnen wissen. Ein Gespräch mit den Nachbarn ergab, dass sie vorgestern Abend ein paar Handwerker ins Haus gehen sahen. Aber wer denkt da gleich an Einbruch? Gut, also vorgestern war es dann wohl passiert. Während Stefan an seinem Schreibtisch saß und überlegte, stöhnte Susanne, dass sie doch lieber nur eine Woche auf der Insel hätten verbringen sollen und dass dann das alles nicht passiert wäre. Schließlich hätte es in der zweiten Woche sowieso nur ständig geregnet. Letzteres konnte Stefan nicht bestreiten; selbst die Einheimischen konnten sich nicht daran erinnern, wann es das letzte Mal um diese Jahreszeit derart viel geregnet hatte. Und dann waren da ja noch diese aufdringlichen Werbeleute gewesen, die ihnen am Anfang ihrer zweiten Woche unbedingt eine Timesharing-Option hatten aufschwatzen wollen. Natürlich nicht mit dieser Bezeichnung; dann hätte man sich ja nie auf ein Gespräch eingelassen, das stand ja schon im Reiseführer. Einen Ferientag hatten Susanne und Stefan damit verbracht, sich eine – zugegebenermaßen schöne – neue Ferienanlage anzuschauen. Naja, die Besichtigung und das Gespräch hatten über 2 Stunden gedauert und ein schon eingeplantes Mittagessen gekostet. Schlimmer war der Ärger, den sie nachmittags darüber empfunden hatten, zu höflich gewesen zu sein, um schon früher verärgert das Gespräch abzubrechen. Dieser Werbemensch war aber auch wirklich übel gewesen. Moment mal, könnte da etwa ein Zusammenhang bestehen zu dem Einbruch bei ihnen? Ein Anruf bei der Polizei konnte ja nicht schaden. Der Beamte, mit dem sie telefonierten, fand den Gedanken gar nicht so abwegig, wie sie befürchtet hatten und versprach, sich darum zu kümmern. Schließlich hatte man ja immerhin den Namen des Hotels, in dem die Veranstaltung stattgefunden hatte und mit etwas Glück war auch der Werbetyp noch da. Frank war der Name gewesen; er erzählte ihnen, er käme ursprünglich aus einem kleinen Ort bei Braunschweig. In 2 Monaten wollte er Urlaub auf Hawaii machen – etwas, dass man sich nur leisten könnte, wenn man Optionen bei seiner Urlaubsfirma erwerbe. Naja, vielleicht lag das aber wiederum eher daran, dass er selbst gewisse Nebeneinkünfte hatte … Schließlich hatte er sie für die Statistik nach ihrem Nachnamen gefragt und später im Gespräch hatten sie sich auch darüber unterhalten, aus welchem Ort sie stammten. Im Nachhinein konnte Stefan sich nicht mehr vorstellen, auf sowas Blödes hereingefallen zu sein, aber im Urlaub war man halt lockerer und rechnete auch nicht gleich mit dem Schlimmsten.
Tage später klingelte bei Stefan das Telefon und ein Polizeibeamter unterrichtete ihn, dass sein Verdacht begründet gewesen war. Sie waren nicht die einzigen Süd-Urlauber gewesen, deren Wohnung während ihrer Abwesenheit ausgeräumt worden war: Mit Hilfe der spanischen Kollegen hatten man in einer Durchsuchung bei Frank belastendes Material gefunden. Hawaii würde für ihn doch weiterhin nur ein Traum bleiben…

Ergebnis NotebookLM Audio-Diskussion

a) Lokale Ablage nach Umwandlung in MP3: https://www.idethloff.de/blogfiles/20240927/ID-Story-Urlaub-mit-Folgen-NotebookLM.mp3

b) Freigabelink (Google-Anmeldung erforderlich): https://notebooklm.google.com/notebook/9f1de117-e5e1-42d1-953f-edf09e32dd26/audio