Mit KI zum Video: 2 Text-to-Video-Tools im Vergleich

Lediglich ein kurzer Prompt im Webbrowser für eine fiktive Story – was machen bei einem kleinen Test zwei KI-Tools in der Free-Version daraus? Die Ergebnisse unterscheiden sich stark in Länge, Stil, Stimmung und den eingesetzten gestalterischen Möglichkeiten der Videoproduktion.

Test 1: Canva
Canva ist für Mediendesign sowie Zusammenarbeit durchaus beliebt und bietet auch eine Funktion, per Text-Prompt ein Video zu erstellen. Nach Prompt-Eingabe in der etwas versteckten Video-Option „Magic Media“ (Video -> YouTube-Video -> Magic Media -> Videos) wurde sehr schnell ein Video mit 5 Sekunden Länge erzeugt. Das Ergebnis war durchaus beachtenswert, wenngleich etwas künstlich.
Unter dem Prompt-Eingabe-Fenster befindet sich ja auch folgender Canva-Hinweis: „Dies ist eine neue Technologie. Szenen mit Menschen oder Tieren können etwas seltsam aussehen“.
Nachträglich hinzugefügt via Timeline habe ich dann noch als Text-Element eine Überschrift und als Audio-Element „AI Voice“ mit kurzem Text. Die eingeblendeten Musik-Beispiele wären kostenpflichtig gewesen – erst über die Suche nach Begriffen hätte man auch einige verwendbare Sounds gefunden… Lokaler MP4-Download war möglich; für eine etwaige Freigabe ist gut zu wissen: Die Zugriffsebene „Jeder mit dem Link“ vergibt standardmäßig im Sinne einer Zusammenarbeit gleich Bearbeitungsrechte fürs Design – ggf. also umstellen/reduzieren auf „Darf ansehen“.
Informationen zu Canva-Möglichkeiten und -Preismodellen: https://www.canva.com/de_de/

https://canva.link/d870ykw1l68rqzq (nur ansehen)
Prompt „im frühlingshaften Londoner Park sieht eine Frau einen Waschbär, der auf einen Uhu oben im Baum schaut

******

Test 2: HeyGen
HeyGen ist rein auf Videos spezialisiert „At HeyGen, our mission revolves around empowering individuals through accessible AI video generation“ und verfolgt mit seinem Video Agent den Anspruch „Not a tool. Not a copilot. It’s a creative agent doing the work for you.“ Zentral ist die Möglichkeit, einen (z. B. auch selbst erstellten) Sprecher-Avatar zu wählen mit Voiceover für die einzelnen Szenen – in Kombination mit der Aktivierung des KI-Videogenerierungsmodells „Seedance 2.0“ konnte mein bisheriger eigener Foto-Avatar jedoch nicht genutzt werden.
Nach Eingabe des Prompts machte der AI Agent dann wirklich alles von alleine und listete dabei stets die jeweiligen Schritte (inkl. Thoughts) auf: Beschreibung der Szenen, Medienauswahl, Vertonung, Untertitel etc.
Das Video-Ergebnis wirkte auf mich dabei sehr seriös und realitätsnah mit persönlichem Touch, dauerte in der Generierung jedoch ca. 45 Minuten für die vom AI Agent vorgesehenen ca. 28 Sekunden (tatsächlich 21) – Da war die Mail „Your video is ready“ durchaus nützlich.
Gut zu wissen: Über „Edit a copy in AI Studio“ könnte man nun auch eine gezielte eigene Video-Weiterbearbeitung mit Elementen, Medien, Musik etc. vornehmen, was ich mir hier gespart habe.
Lokaler MP4-Download war möglich; eine etwaige Freigabe ist standardmäßig mit der Berechtigung „Ansehen und Kommentieren“ verbunden.
Informationen zu HeyGen-Möglichkeiten und -Preismodellen s. https://www.heygen.com/

https://app.heygen.com/videos/c138debb239949d2bba62d76dabd75ac
Prompt „Lisa is wearing a blue suit and walks on the streets of London thinking about something. Scene change: Spring – She is now in a park with a lake and sees a raccoon looking up at an eagle owl on a tree. She smiles and the video ends.“

Screenshot während Generierung des Videos

Mixed-Dimension Illusion

Interessante Effekte liefert folgender Nano Banana Prompt: https://nanoprompts.org/prompt-handbook/spatial-design#case318
In meinem Prompt nun statt der Katze ein Uhu, statt dem gemütlichen Zimmer eine Bibliothek und voilà:

Nano Banana Promptergebnisbild Uhu

Meine Eingabe bei Google Gemini, frei nach s.o.:

„A historical library room where the wall looks like a giant paper illustration, flat ink lines and watercolor washes, yet a corner of the „paper wall“ is peeled back, revealing a fully 3D forest behind it. The peeled edge curls outward like thick cardstock, casting a real shadow on the illustrated surface. The illusion: the 2D drawn objects (drawn shelves) cast realistic 3D shadows, while the 3D forest casts faint „ink“ shadows as if it is becoming a drawing. An eagle owl with a mouse sits half-in, half-out: front claws in 3D forest moss, back body with wings in 2D sketch form, seamlessly blended. Soft morning light, gentle pastel palette, tactile paper fibers visible, high detail, whimsical but believable „mixed-dimension“ realism.“

Eine schnelle Realisierung von interessanten kreativen Bild-Ergebnissen ganz ohne aufwändige Bildbearbeitung – KI macht es möglich. Wie sich wohl in Zukunft die Zugänge zu KI-Tools entwickeln werden? Nach den hohen Investitionsausgaben für KI ist der Weg zur Monetarisierung noch unklar. Ob die User-Daten von gläsernen Kunden „genügen“ oder die künftigen KI-Möglichkeiten für Privatpersonen (zusätzlich) hinter teuren Abos verschwinden?
Sehr nützlich finde ich das am 27.3.26 erschienene c’t Sonderheft „Geld & Daten“, um Mechanismen zu verstehen und auch etwas gegensteuern zu können (https://www.heise.de/news/Jetzt-erhaeltlich-c-t-Sonderheft-Geld-Daten-11241014.html).

***

Der bei meinen KI-Tests „obligatorische“ Waschbär darf natürlich in diesem Blogbeitrag nicht fehlen – ebenfalls mittels adaptiertem Nano Banana Beispiel-Prompt erzeugt.

Nano Banana Promptergebnisbild Waschbaer