Google Gemini: 3D-Figuren als Foto

Über Google Gemini hatte ich in meinem Blog bisher noch nichts gepostet, einfach weil ich bisher keinen Anlass sah, Gemini zu verwenden. Neugierig war ich jedoch auf die Möglichkeit, 3D-Figuren als Foto zu erstellen mittels „Nano Banana“.
In diesem WDR-Artikel wurde ein recht komplexer Prompt beschrieben, mit dem eben diese 3D-Figurenerstellung realisiert werden könne: https://www1.wdr.de/nachrichten/google-gemini-nano-banana-ki-bilder-trend-100.html

Mein Test von Google Gemini Nano Banana

1. Persönliche Anmeldung bei Google (https://gemini.google.com/)

2. Hochladen eines schon 2023 mittels DALL-E erzeugten KI-Bildes und dazu Eingabe Prompt

„Create a 1/6 scale commercialized figurine of the characters in the picture, in a realistic style, in a real environment. The figurine is placed on a computer desk. The figurine has a round transparent acrylic base, with no text on the base. The content on the computer screen is a 3D modeling process of this figurine. Next to the computer screen is a toy packaging box, designed in a style reminiscent of high-quality collectible figures, printed with original artwork. The packaging features two-dimensional flat illustrations and a logo ([Waschbär]).“

3. Download des erzeugten Bildes und Wiederholen des Prompts für ein zweites Ergebnis

Die beiden Ergebnisse (zum Vergrößern anklicken)

Google Gemini Testergebnis 1 | Google Gemini Testergebnis 2

Mein Fazit

Die Verwendung von bereits getesteten aufwendigen Prompts kann sehr viel Zeit sparen und sehr interessante Ergebnisse ermöglichen. Diese unterscheiden sich – wie üblich bei KI – bei mehrfacher Eingabe des gleichen Prompts durchaus stark voneinander.

Workflow-Screenshots (zum Vergrößern anklicken)

Workflow Bild 1 | Workflow Bild 2

Hinweis: Die Testergebnisse sind bereits vom 23.9.2025.

KI-Video in 10 Minuten

Die KI-Möglichkeiten entwickeln sich rasant. Für das folgende Video hätte man früher Tage gebraucht, hier mittels HeyGen von meinem Softwaretest bis zum Ergebnis nur 10 Minuten und das ganz ohne intellektuellen Aufwand. Lediglich Prompt eingeben und den Rest macht die Software ganz alleine.

Um so einfacher es wird, KI zu benutzen, desto wertvoller wird eigenes Denken und Produzieren. KI zur Unterstützung ist eine gute Hilfe, allerdings vermute ich, dass leider vielfach künftig die reine Bequemlichkeit siegen wird.

s.a. https://www.heygen.com/

Der Workflow in 3 Screenshots (Bilder zum Vergrößern anklicken)

Video Agent Test - Bild 1 | Video Agent Test - Bild 2 | Video Agent Test - Bild 3

Das Ergebnis: Raccoon Apartment Hunt (23s, auf meinem Webserver)

Prompt: „A vlog-style video from the perspective of a raccoon standing in line with a bunch of people waiting to view an apartment.“

5-Sekunden-KI-Videos mit Bing Video Creator

Dank des Heise-Artikels vom 4.6.25 zum neuen Bing Video Creator (https://www.heise.de/news/Microsoft-spendiert-Bing-einen-KI-Video-Ersteller-10425495.html) im Folgenden eigene kostenlos erzeugte Testergebnisse als LOOP-Videos auf meinem Webserver.
Die in Bing verwendete Komponente Sora ist bei OpenAI schon länger erhältlich, allerdings dort lediglich über ein kostenpflichtiges Abo (s.a. https://openai.com/de-DE/sora/).
Microsoft bietet über die Bing App nun die Erstellung von Videos im Seitenverhältnis 9:16 in 480p und zwar mit einer Dauer von 5 Sekunden Länge.

Waschbär-Motive finde ich sehr geeignet zum Testen von KI-Anwendungen, daher auch hier meine entsprechenden Prompts.
Die KI ist – wie bei Bing bzw. OpenAI üblich – gestaltend tätig, ohne dass man selbst jedes Detail angibt. Bei Videos ist daher spannend, welche Bewegungen von der KI akzentuiert wurden. Noch geht das Erstellen eines Videos nur aus der Bing-App heraus und nicht über die Desktop-Version, doch das wird sich sicherlich bald ändern. Auf die jeweiligen Ergebnisse musste ich tatsächlich jeweils mehr als 2 Stunden warten, aber das habe ich für meine kostenlosen Tests gerne in Kauf genommen.

Versuch 1: Fishing Raccoon

„a raccoon who goes fishing with a sun flower in a pond in front of the Louvre. evening light“

Die Umsetzung finde ich gelungen mit Bewegungen des Wassers und Drehbewegung des Waschbärs bei entspanntem Ambiente.
Die Prompt-Idee habe ich für diesen Sora-Test recycelt, aber ohne Hommingberger Gepardenforelle (s.a. https://www.heise.de/foto/galerie/suche/foto/?keyword=gepardenforelle).

Versuch 2: Juggling Raccoon

„a raccoon at the beach juggling balls during a thunderstorm while a herring gull watches“

Die Möwe fehlt leider im Ergebnis, aber das Video zeigt einen sehr hektischen Waschbären, was gut zum Gewitter-Setting passt. Er will schnell mit seinem Training fertig werden, bevor das Wetter noch schlechter wird und es nicht nur über dem Wasser regnet 😉

***

Laut Heise-Artikel werden die Bing-Videos bis zu 90 Tagen bei Microsoft gespeichert; hier die Links zu meinen 2 Versuchen:

 

Hugging Face AI Agents Course

AI Agents sind DAS Thema derzeit. Regelmäßig gute Links dazu bietet übrigens George Siemens „SAIL“-Newsletter https://buttondown.com/SAIL/archive
So bin ich auch auf den am 10.2.2025 gestarteten kostenlosen „AI Agents“-Kurs von Hugging Face gestoßen:
https://huggingface.co/agents-course
https://huggingface.co/learn/agents-course/unit0/introduction

Die Hugging Face Empfehlung für Teilnehmende ohne Python-Kenntnisse lautet, sich (evtl. nur) mit Unit1 „Introduction to Agents“ zu befassen und ein kleines Zertifikat zu erwerben. Am Ende des Unit1-Theorieteils gibt es die Möglichkeit, ein fertiges AI-Agent-Beispiel online in einem eigenen Hugging Face Space auszuprobieren und dabei lediglich in einer Python-Datei kleinere Anpassungen zu machen. Verwendet wurde dafür „Smolagents“, das AI Agent Framework von Hugging Face.

HF AI Agents Course Certificate ID (Unit1)

Meine Tests mit dem in Unit1 angebotenen AI-Agent-Beispiel
Wegen Überlastung des eingebundenen Qwen2.5-Coder-32B-Instruct-LLM habe ich schnell auf die im Skript aktivierbare technische Alternative zurückgreifen müssen. Dann klappte es gut mit Anfragen und Ergebnissen mit Darlegung der Agent-„Thoughts“ bis hin zur „Final Answer“.
Bzgl. eigenen Anpassungen der Python-Beispieldatei habe ich 2 Dinge getestet:
a) Aktivieren des bereits vorbereiteten Image-Generators durch Eintrag in der Zeile tools=[final_answer, image_generation_tool],
b) Eintragen eines kleinen Lottozahlen-Skripts als Tool
Wieder einmal war die Nutzung von ChatGPT hilfreich, um mir ggf. Code erklären bzw. generieren zu lassen, da meine Python-Kenntnisse sich in Grenzen halten 🙂

Für mich interessant: Der bereits im AI-Agent-Beispiel referenzierte Image-Generator greift auf „model_sdxl = „black-forest-labs/FLUX.1-schnell“ zurück und lieferte ziemlich gute Bilder.

Chatverlauf Screenshot 1 | Chatverlauf Screenshot 2 | Chatverlauf Screenshot 3

Ergebnisbild 1 | Ergebnisbild 2 | Ergebnisbild 3|

 

***************************

Abschließend noch eine Erklärung aus dem Kurs, was ein AI Agent ist 🙂

„To summarize, an Agent is a system that uses an AI Model (typically an LLM) as its core reasoning engine, to:

Understand natural language: Interpret and respond to human instructions in a meaningful way.

Reason and plan: Analyze information, make decisions, and devise strategies to solve problems.

Interact with its environment: Gather information, take actions, and observe the results of those actions.“

(Quelle: https://huggingface.co/learn/agents-course/unit1/what-are-agents)

 

Bilder generieren mit ideogram.ai

Auf der Suche nach einer Alternative zu DALLE-3 stieß ich auf ideogram.ai – auch aufgrund des Hinweises, dass ideogram.ai sehr gut mit Texten in Bildern umgehen kann. Das Web-Tool hat mir sowohl von der Qualität als auch von der Geschwindigkeit her sehr gut gefallen. Wie inzwischen so ziemlich alle Tools, erfordert es ein persönliches Login (Google, Apple) – auch für einen freien Account mit max. 25 Prompts täglich. Hier die ideogram.ai-Dokumenation: https://docs.ideogram.ai/using-ideogram/generating-images und die Nutzungsbedingungen: https://ideogram.ai/tos

ideogram.ai-Testbericht

Programm-Oberflaeche

Mit jedem Prompt werden 4 Bilder erzeugt, von denen eines automatisch zum Cover-Bild gewählt wird. Dennoch kann man manuell einzelne Bilder aus verschiedenen Kollektionen anpinnen an den eigenen Account (s.u. Screenshot). Die erzeugten Bilder sind downloadbar im jpg-Format inkl. Exif-Daten. Die Option „share“ scheint im ideogram.ai-Bereich intern zu bleiben, daher hier im Blogbeitrag manuell hochgeladene Ergebnisse.

Standardmäßig ist „Magic Prompt“ angehakt zur Optimierung der eigenen Text-Eingabe, was man auf Wunsch aber deaktivieren kann. Ansonsten kann man noch zwischen verschiedenen Ausgabe-Formaten wählen und das ist es dann schon mit der Wahlfreiheit bei einem kostenlosen Account: Erzeugte Bilder sind „public“ und man kann sie nicht löschen. Der Editor steht auch nur für Bezahl-Accounts zur Verfügung.

Screenshot meiner angepinnten ideogram.ai-Ergebnisse

Programm-Oberflaeche(zum Vergrößern anklicken)

Einzelbilder zum genaueren Anschauen


Prompt = 3 raccoons, a cat and a waterfall. wildlife photography


Prompt = a blue heron standing on a desk in front of a keyboard and looking at a monitor. mysterious yellow light, black and white items. a small pink raccoon logo in the upper right corner.


Prompt = Create an aspect ratio of 9:16 depicting half of a face of a raccoon and the other half with text „RACCOONS IN KASSEL FOREVER“ with bold and grunge effect on the text, black and white illustration with pink background, typography.

Magic Prompt = A striking black and white illustration with a 9:16 aspect ratio, capturing half of a raccoon’s face looking intently towards the viewer. The other half of its face is replaced by bold, grungy text that reads „RACCOONS IN KASSEL FOREVER“ in a playful and rebellious tone. The illustration is set against a vibrant pink background, adding an unexpected pop of color. The overall design is edgy and artistic, with a strong typography element that adds to its visual impact.
-> Mein Prompt war inspiriert von einem Beispiel auf X (Ex-Twitter): https://twitter.com/ideogram_ai/status/1775512625851375812
Meine Formatangaben wurden durch die gesetzte Option Aspect Ratio = 1:1 übersteuert.


Prompt = Stelle den Vorgang der Photosynthese symbolisch dar.

Magic Prompt = A creative visual representation of photosynthesis, where a large tree stands tall in a sunlit meadow. The tree’s leaves are depicted as glowing, capturing sunlight and converting it into energy. A series of tiny, colorful insects and birds surround the tree, symbolizing the interconnectedness of the ecosystem. In the background, there is a golden sun and a gentle, blue sky. The overall ambiance of the image is serene, with a touch of magic and life.


Prompt = cute young woman sitting on a beach reading a book labeled „Raccoons forever“, photo realistic style, mysterious sun light, typography.

-> Der Text im Bild klappte auf Anhieb, der Text auf dem Buchtitel nicht ganz so gut …


Prompt = a learning space designed with areas for quiet study, online learning, hybrid learning, power generation via exercise bikes and a comfortable relaxing atmosphere. empty – no students.

Magic Prompt = A futuristic and innovative learning space, designed for a variety of educational experiences. In the center, there are several exercise bikes connected to power generators, providing an eco-friendly way to produce energy while students study. The quiet study area features modern, comfortable seating and natural lighting, while the online and hybrid learning zones are equipped with state-of-the-art technology and interactive displays. The entire space is empty, awaiting the arrival of eager students to explore and learn in this unique environment.
-> Meine Eingabe „no students“ wurde leider ignoriert und auch die entsprechende automatisch erzeugte Eingabe des Magic Prompts … Die Darstellung der Personen ist zudem extrem schlecht – im Gegensatz zu meinem Beispiel mit dem Chemiker.


Prompt = a typical north german landscape. one blue sheep. sunny day.

Magic Prompt = A serene, sunny scene of a typical north German landscape, featuring a lush green field with various types of tall grass and wildflowers. In the center, a single, unique blue sheep grazes peacefully, contrasting with the surrounding natural colors. The sky is a brilliant blue, with fluffy white clouds floating above. The overall atmosphere is tranquil and idyllic, capturing the essence of a perfect rural day.


Prompt = Historisches Wasserschloss im Abendlicht. Bleistiftzeichnung.


Prompt = Louvre pyramid with giraffes next to it. Evening light. Photo.

Magic Prompt = A stunning photograph of the Louvre Pyramid bathed in the golden glow of evening light. Two elegant giraffes gracefully pose next to the pyramid, casting elongated shadows on the polished floor. The background reveals a serene, open plaza with a few people admiring the striking scene. The combination of modern architecture and graceful wildlife creates a harmonious and enchanting atmosphere.


Prompt = raccoon with balloon., graffiti


Prompt = Laborraum. Ein Chemiker mit einem Reagenzglas auf dem Tisch. Fotorealistisch.


Prompt = raccon for president. poster. typography

Magic Prompt = A vibrant and humorous political poster featuring a raccoon wearing a stylish suit, holding a microphone with the slogan „Raccoon for President.“ The raccoon’s face is replaced with the American flag, emphasizing its patriotic message. The background is a cityscape with skyscrapers, and the typography is bold, modern, and eye-catching. The overall tone of the image is playful and satirical, poking fun at the political landscape.


Prompt = a classroom. van Gogh style.


Prompt = a raccoon, a giraffe and a cat looking at the sunset over a river. black & white coloring book style illustration.


Prompt = self portrait of a emperor penguin as an artist, painting on a canvas in a historical setting that echoes the ambience of a 17th century Europe.


Prompt = 3 raccoons, a cat and a waterfall. wildlife photography

Magic Prompt = A serene wildlife photo capturing three raccoons and a cat coexisting peacefully near a picturesque waterfall. The raccoons display a mix of curiosity and caution, while the sleek cat observes intently from a distance. The waterfall cascades in the background, casting a mist that shines in the sunlight. The lush greenery and rocks in the foreground give a sense of the animals‘ natural habitat.


Prompt = Bergpark Kassel, Tiger, Katze und Maus., 3d render

Magic Prompt = A stunning 3D rendered scene of Bergpark Kassel, a majestic mountain park featuring a gigantic tiger, a curious cat, and a playful mouse. The tiger stands proudly on a hill, surveying the expansive park, while the cat and mouse engage in a lighthearted game nearby. The setting is a lush, green environment with vibrant flowers and trees, creating a serene atmosphere., 3d render
-> Der „Bergpark Kassel“ war dem Tool offensichtlich kein Begriff … (im Gegensatz zum Begriff „Louvre“)


Prompt = Louvre pyramid with giraffes next to it. Evening light. Photo.

Magic Prompt = A stunning photograph of the Louvre Pyramid illuminated by the warm evening light, with a delicately blurred effect. Near the base of the pyramid, two majestic giraffes gracefully pose, their long necks reaching towards the sky. The background reveals a picturesque view of the Louvre Museum and a serene cityscape. The overall atmosphere of the image is peaceful and enchanting, blending architecture, wildlife, and urban elegance.