Bilder generieren mit ideogram.ai

Auf der Suche nach einer Alternative zu DALLE-3 stieß ich auf ideogram.ai – auch aufgrund des Hinweises, dass ideogram.ai sehr gut mit Texten in Bildern umgehen kann. Das Web-Tool hat mir sowohl von der Qualität als auch von der Geschwindigkeit her sehr gut gefallen. Wie inzwischen so ziemlich alle Tools, erfordert es ein persönliches Login (Google, Apple) – auch für einen freien Account mit max. 25 Prompts täglich. Hier die ideogram.ai-Dokumenation: https://docs.ideogram.ai/using-ideogram/generating-images und die Nutzungsbedingungen: https://ideogram.ai/tos

ideogram.ai-Testbericht

Programm-Oberflaeche

Mit jedem Prompt werden 4 Bilder erzeugt, von denen eines automatisch zum Cover-Bild gewählt wird. Dennoch kann man manuell einzelne Bilder aus verschiedenen Kollektionen anpinnen an den eigenen Account (s.u. Screenshot). Die erzeugten Bilder sind downloadbar im jpg-Format inkl. Exif-Daten. Die Option „share“ scheint im ideogram.ai-Bereich intern zu bleiben, daher hier im Blogbeitrag manuell hochgeladene Ergebnisse.

Standardmäßig ist „Magic Prompt“ angehakt zur Optimierung der eigenen Text-Eingabe, was man auf Wunsch aber deaktivieren kann. Ansonsten kann man noch zwischen verschiedenen Ausgabe-Formaten wählen und das ist es dann schon mit der Wahlfreiheit bei einem kostenlosen Account: Erzeugte Bilder sind „public“ und man kann sie nicht löschen. Der Editor steht auch nur für Bezahl-Accounts zur Verfügung.

Screenshot meiner angepinnten ideogram.ai-Ergebnisse

Programm-Oberflaeche(zum Vergrößern anklicken)

Einzelbilder zum genaueren Anschauen


Prompt = 3 raccoons, a cat and a waterfall. wildlife photography


Prompt = a blue heron standing on a desk in front of a keyboard and looking at a monitor. mysterious yellow light, black and white items. a small pink raccoon logo in the upper right corner.


Prompt = Create an aspect ratio of 9:16 depicting half of a face of a raccoon and the other half with text „RACCOONS IN KASSEL FOREVER“ with bold and grunge effect on the text, black and white illustration with pink background, typography.

Magic Prompt = A striking black and white illustration with a 9:16 aspect ratio, capturing half of a raccoon’s face looking intently towards the viewer. The other half of its face is replaced by bold, grungy text that reads „RACCOONS IN KASSEL FOREVER“ in a playful and rebellious tone. The illustration is set against a vibrant pink background, adding an unexpected pop of color. The overall design is edgy and artistic, with a strong typography element that adds to its visual impact.
-> Mein Prompt war inspiriert von einem Beispiel auf X (Ex-Twitter): https://twitter.com/ideogram_ai/status/1775512625851375812
Meine Formatangaben wurden durch die gesetzte Option Aspect Ratio = 1:1 übersteuert.


Prompt = Stelle den Vorgang der Photosynthese symbolisch dar.

Magic Prompt = A creative visual representation of photosynthesis, where a large tree stands tall in a sunlit meadow. The tree’s leaves are depicted as glowing, capturing sunlight and converting it into energy. A series of tiny, colorful insects and birds surround the tree, symbolizing the interconnectedness of the ecosystem. In the background, there is a golden sun and a gentle, blue sky. The overall ambiance of the image is serene, with a touch of magic and life.


Prompt = cute young woman sitting on a beach reading a book labeled „Raccoons forever“, photo realistic style, mysterious sun light, typography.

-> Der Text im Bild klappte auf Anhieb, der Text auf dem Buchtitel nicht ganz so gut …


Prompt = a learning space designed with areas for quiet study, online learning, hybrid learning, power generation via exercise bikes and a comfortable relaxing atmosphere. empty – no students.

Magic Prompt = A futuristic and innovative learning space, designed for a variety of educational experiences. In the center, there are several exercise bikes connected to power generators, providing an eco-friendly way to produce energy while students study. The quiet study area features modern, comfortable seating and natural lighting, while the online and hybrid learning zones are equipped with state-of-the-art technology and interactive displays. The entire space is empty, awaiting the arrival of eager students to explore and learn in this unique environment.
-> Meine Eingabe „no students“ wurde leider ignoriert und auch die entsprechende automatisch erzeugte Eingabe des Magic Prompts … Die Darstellung der Personen ist zudem extrem schlecht – im Gegensatz zu meinem Beispiel mit dem Chemiker.


Prompt = a typical north german landscape. one blue sheep. sunny day.

Magic Prompt = A serene, sunny scene of a typical north German landscape, featuring a lush green field with various types of tall grass and wildflowers. In the center, a single, unique blue sheep grazes peacefully, contrasting with the surrounding natural colors. The sky is a brilliant blue, with fluffy white clouds floating above. The overall atmosphere is tranquil and idyllic, capturing the essence of a perfect rural day.


Prompt = Historisches Wasserschloss im Abendlicht. Bleistiftzeichnung.


Prompt = Louvre pyramid with giraffes next to it. Evening light. Photo.

Magic Prompt = A stunning photograph of the Louvre Pyramid bathed in the golden glow of evening light. Two elegant giraffes gracefully pose next to the pyramid, casting elongated shadows on the polished floor. The background reveals a serene, open plaza with a few people admiring the striking scene. The combination of modern architecture and graceful wildlife creates a harmonious and enchanting atmosphere.


Prompt = raccoon with balloon., graffiti


Prompt = Laborraum. Ein Chemiker mit einem Reagenzglas auf dem Tisch. Fotorealistisch.


Prompt = raccon for president. poster. typography

Magic Prompt = A vibrant and humorous political poster featuring a raccoon wearing a stylish suit, holding a microphone with the slogan „Raccoon for President.“ The raccoon’s face is replaced with the American flag, emphasizing its patriotic message. The background is a cityscape with skyscrapers, and the typography is bold, modern, and eye-catching. The overall tone of the image is playful and satirical, poking fun at the political landscape.


Prompt = a classroom. van Gogh style.


Prompt = a raccoon, a giraffe and a cat looking at the sunset over a river. black & white coloring book style illustration.


Prompt = self portrait of a emperor penguin as an artist, painting on a canvas in a historical setting that echoes the ambience of a 17th century Europe.


Prompt = 3 raccoons, a cat and a waterfall. wildlife photography

Magic Prompt = A serene wildlife photo capturing three raccoons and a cat coexisting peacefully near a picturesque waterfall. The raccoons display a mix of curiosity and caution, while the sleek cat observes intently from a distance. The waterfall cascades in the background, casting a mist that shines in the sunlight. The lush greenery and rocks in the foreground give a sense of the animals‘ natural habitat.


Prompt = Bergpark Kassel, Tiger, Katze und Maus., 3d render

Magic Prompt = A stunning 3D rendered scene of Bergpark Kassel, a majestic mountain park featuring a gigantic tiger, a curious cat, and a playful mouse. The tiger stands proudly on a hill, surveying the expansive park, while the cat and mouse engage in a lighthearted game nearby. The setting is a lush, green environment with vibrant flowers and trees, creating a serene atmosphere., 3d render
-> Der „Bergpark Kassel“ war dem Tool offensichtlich kein Begriff … (im Gegensatz zum Begriff „Louvre“)


Prompt = Louvre pyramid with giraffes next to it. Evening light. Photo.

Magic Prompt = A stunning photograph of the Louvre Pyramid illuminated by the warm evening light, with a delicately blurred effect. Near the base of the pyramid, two majestic giraffes gracefully pose, their long necks reaching towards the sky. The background reveals a picturesque view of the Louvre Museum and a serene cityscape. The overall atmosphere of the image is peaceful and enchanting, blending architecture, wildlife, and urban elegance.

GPT4All – Chatbot mit Open Source KI-Sprachmodellen lokal installieren

Ist es niederschwellig möglich, auch ein LLM lokal zu installieren und zu nutzen? Dies Frage stellte sich mir nach der erfolgreichen Installation eines KI-Bildgenerators. Antwort: Ja, mit einer gewissen Hardware.
Ein Kollege (danke, Steffen) machte mich auf GPT4All aufmerksam. Hier gibt es Installer für verschiedene Betriebssysteme und man kann sich anschließend eines der dafür passenden Open-Source-Modelle herunterladen.
https://gpt4all.io

Auch hier habe ich mein MacBook Air (M1,2020) genutzt:


1. Download und Installation von OSX Installer mit Desktop Chat Client


2. Anschließend Auswahl aus den angebotenen Sprachmodellen, hier Download eines Mistral-basierten und einem Llama2-basierten Modells

Aufforderung zum Modell-Download

2a. Mistral OpenOrca 3,83GB (= mistral-7b-openorca.gguf2.Q4_0.gguf) sowie

Auswahl MistralDownload Mistral

2b. Hermes 6,86GB (= nous-hermes-llama2-13b.Q4_0.gguf)

Auswahl Llama2Download Llama2


3. Fertig, gewünschtes heruntergeladenes Modell oben auswählen und unten bei „Send a message“ Prompt formulieren

Eingabemoeglichkeit nach Auswahl Modell Mistral


Die Antwortzeiten sind sehr gut und es funktioniert alles ohne Internet. Zunächst war ich bei meinen Prompts etwas irritiert über die Antworten – Mistral verstand die Bedeutung von poems nicht, mischte deutsch und englisch und fand 1kg Federn leichter als 1kg Wasser… Dies war bei Llama2 deutlich besser (das Modell ist auch fast doppelt so groß), aber nach und nach überzeugte mich auch Mistral bei weiteren Anfragen zu birthday cards, kleinen PHP-/HTML-Beispielen, sightseeing points, hybrid learning settings, PowerPoint presentations about Johannes Gutenberg, ski jumping, musical preferences etc.
Mein kurzes Fazit: OpenAI gefällt mir besser, aber das hätte ich auch nicht anders erwartet im Vergleich zu einer wirklich lokal laufenden Installation von OpenSource-Modellen – dennoch: Es lohnt durchaus, ein LLM einmal lokal zu installieren und auszuprobieren!

Stable Diffusion locally on MacBook Air via App „Draw Things“

It would be nice to have a local installation of the open source text-to-image model Stable Diffusion… that was my idea this weekend. As I didn’t find any convincing installation manuals and even wasn’t sure if my Windows PC’s hardware would be sufficient, a very simple article about „Draw Things“ came to my attention: https://www.unidigital.news/draw-things-ki-bilder-kostenlos-unterwegs-generieren/ Unfortunately my iPad and my iPhone are too old, but with my MacBook Air (M1,2020) the installation was no problem:
Downloading the app „Draw Things“ from the Apple Store and afterwards downloading the proposed model „SDXL Refiner v1.0 (8-bit)“. My first text prompt with default options, 1024×1024 etc. and waiting time of some minutes, was a disaster, my second prompt was a disaster and so it went… double things and not nearly what I wanted. O.k., I’m a little bit spoiled because of mostly using ChatGPTPlus and Bing Image Creator, but what was that thing? Totally disappointed, I deleted all the results.

Here is one disturbing example from today „young woman holding an umbrella“:

image with model SDXL Refiner v.10 8-bit
(click to enlarge)

Today, I thought maybe I should be modest and download/install an older Stable Diffusion model in my „Draw Things“ app and therefore chose „Generic (Stable Diffusion v2.1)“ which would result in a lower resolution image 512×512. For my prompt I chose something about cats (because, normally „cats always work“) and finally, I got results resembling a cat:

image with model Generic, Stable Diffusion v2.1image with model Generic, Stable Diffusion v2.1image with model Generic, Stable Diffusion v2.1image with model Generic, Stable Diffusion v2.1
(click to enlarge)

The good results with the older model led me to the assumption, that the SDXL model was the problem and I googled… a YouTube video „Fix Double-Headed Glitches in Stable Diffusion with Kohya Hires Fix!“ helped me understand the problem (Link: https://youtu.be/SbgMwHDXthU?feature=shared). As I don’t have a local installation but the Apple Store App „Draw Things“, I can’t install any extensions, but I looked instead at the menu „Advanced“ in my „Draw Things“: There is indeed already a solution, that means a configuration option named „High resolution fix“ (description „[…] it avoids duplicate objects when generating directly“), which I simply had to enable in order to avoid double heads in my results.

First result after enabling „High Resolution Fix“:

image with model SDXL Refiner v.10 8-bit
(click to enlarge)

That’s the problem with news articles regarding the topic IT or AI: they become obsolete faster than you can think – I don’t mean any offense – and next time, I will go through the advanced options even when I don’t want to experiment deeper with a software.

At last, I can start generating images with my local installation of Stable Diffusion via App „Draw Things“:

Draw Things Screenshot
(click to enlarge)

Thanks to the developer of „Draw Things: AI Generation“!

Ausprobiert: Text-zu-3D-Generator Genie

Auf heise.de (Link) inkl. Link zu decoder.de (Link) las ich gestern:

„Kürzlich hat Luma AI sein Text-zu-3D-Tool Genie auf den Markt gebracht, das die Erstellung von 3D-Modellen über das Web oder iOS ermöglicht. Generative KI-Modelle konzentrieren sich zunehmend auf 3D-Inhalte und Videos als nächstes Ziel nach Text und Bild.“

„plushy realistic whole body raccoon with light blue baseball cap“

Erzeugtes 3D-Modell-Testergebnis (als Video dargestellt);
Download des 3D-Modells s. ganz unten auf dieser Seite

***

Testbericht

Wenn man bedenkt, wie aufwändig es ist, selbst ein 3D-Modell manuell zu erstellen, hat ein derartiges „Text-zu-3D-Tool“ sehr viel Potential!

Ja, ein Textbefehl erzeugt in wenigen Sekunden vier simple 3-D-Modelle. Allerdings musste ich mit den Prompts mehrfach experimentieren, um in etwa ein Ergebnis zu erhalten, das meinen Vorstellungen entsprach. Wenn ich einen Waschbär haben möchte, dann bitte nicht nur einen Kopf und möglichst auch ansatzweise alle Körperteile – und man sollte noch erkennen, das ein Waschbär gemeint war… Aber das ist kein wirkliches Problem und das Ergebnis fand ich in seiner Einfachheit sehr beeindruckend.
Anschließend in Blender hochgeladen, hier das von Genie erzeugte 3D-Modell (GLB) einmal in der Blender-Wireframe-Ansicht:

3D-Modell-Ergebnis in Blender Wireframe-Ansicht

 

 


Schritt 1: Persönliche Anmeldung in Webanwendung https://lumalabs.ai/genie?view=create


Schritt 2: Prompt „plushy realistic whole body raccoon with light blue baseball cap“

Genie Test Schritt 2


Schritt 3: Nach einigen Sekunden vier simple Ergebnisse

Genie Test Schritt 3


Schritt 4: Auswahl von Ergebnis 2 durch Anklicken

Genie Test Schritt 4


Schritt 5: Auftrag „Make Hi-Res“ und Warten (Reload kann nicht schaden – habe dies nach 1h gemacht und das Ergebnis war schon da…)

Genie Test Schritt 5 Genie Test Schritt 5

Genie Test Schritt 5


Schritt 6: Export der „Hi-Res“-Variante (Mesh Cleanup, obj, glb, stl, usdz …)

Genie Test Schritt 6


Ergebnis zum Ausprobieren / Download

  1. Mein Genie-Ergebnis im Format GLB hier zum Download
  2. Mein Genie-Ergebnis im Format USDZ, nur für iOS usdz-Symbol Link zu USDZ-Version

Experiment: Bilder kopieren via ChatGPT Plus

Was passiert, wenn man in ChatGPT Plus ein Prompt im Sinne von „Kannst Du dieses hochgeladene Bild bestmöglich kopieren?“ mit dem Upload eines selbst gemachten Fotos verbindet?

Ein Selbstversuch mit vier eigenen Fotos innerhalb eines Chatverlaufs ergibt Klarheit.

Fazit: ChatGPT Plus analysiert, was auf dem Foto abgebildet ist, schreibt sich für die wesentlichen erkannten Merkmale einen entsprechenden Prompt und erstellt daraus ein Bild – in überraschend guter Qualität.
In allen Fällen wurden die wesentlichen Aspekte gut erkannt, wenngleich das Ergebnis vom Stil her nicht immer photorealistisch war und teils auch noch typische KI-Merkmale/Fehler enthielt. Am Besten und realistischsten war das Paris-Beispiel, bei dem sogar noch Elemente des Louvre, die auf meinem Foto gar nicht zu sehen waren, hinzugefügt wurden – sicherlich eine Sache der Trainingsdaten. Dass ChatGPT Plus den Pilsumer Leuchtturm erkennt, war hingegen eher nicht zu erwarten und somit wurde hier ein anderer Leuchtturm-Typ verwendet – erstaunt war ich über die Windräder, die erkannt wurden, da diese in meinem Foto doch sehr im Hintergrund standen. Reiterbildstatuen sind offensichtlich auch kein Problem für ChatGPT Plus. Die (allerdings etwas hölzernen) Kühe in Landschaft wurden besser präsentiert als auf meinem schlecht belichteten Foto, aber dafür inklusive einer im Zaun steckenden Kuh – Hin und wieder werden bei der KI-Bildgenerierung noch derartige Überlappungs-Effekte deutlich.


1. Pilsumer Leuchtturm

Ich: Kannst Du bei diesem Bild die Farbe des Leuchtturmes in schwarz weiß ändern?
ChatGPT Plus: Ich kann das Originalbild nicht direkt bearbeiten, um die Farben des Leuchtturms zu ändern. Allerdings kann ich ein neues Bild mit einem ähnlichen Leuchtturm in Schwarz-Weiß erstellen. Soll ich das machen?
Ich: Ja
ChatGPT Plus: Hier ist ein neu generiertes Bild, das einem grünen Feld mit einem Weg führt, der zu einem Leuchtturm mit einer auffälligen schwarz-weißen Streifenmusterung führt. Der Himmel ist klar und blau mit flauschigen weißen Wolken, und im Hintergrund sind Windturbinen zu sehen.

Eigenes Foto Pilsumer Leuchtturm ChatGPTPlus-Ergebnis zum Leuchtturm

(Bilder zum Vergrößern anklicken)


2. Pariser Louvre-Glaspyramide

Ich: Kannst Du dieses hochgeladene Bild bestmöglich kopieren?
ChatGPT Plus: Hier ist ein generiertes Bild, das die Beschreibung des hochgeladenen Fotos nachbildet: Eine moderne Glaspyramide, umgeben von Wasser und Fontänen, unter einem dramatischen Wolkenhimmel.

Eigenes Foto Pariser Louvre-Glaspyramide ChatGPTPlus-Ergebnis zur Glaspyramide

(Bilder zum Vergrößern anklicken)


3. Dresdner Reiterstandbild Goldener Reiter

Ich: Kannst Du dieses hochgeladene Bild bestmöglich kopieren und nur die Farbe des Pferdes in weiß ändern?
ChatGPT Plus: Hier ist das neu erstellte Bild mit einer Statue eines Reiters auf einem Pferd, wobei das Pferd eine auffällige weiße Farbe hat.

Eigenes Foto Dresdner Reiterstandbild Goldener Reiter ChatGPTPlus-Ergebnis zum Reiterstandbild

(Bilder zum Vergrößern anklicken)


4. Kühe in Heidelberger Landschaft

Ich: Kannst du aus diesem Bild mit Kühen etwas Ähnliches generieren?
ChatGPT Plus: Hier ist ein generiertes Bild, das eine ruhige ländliche Szene mit einer Gruppe von Kühen zeigt, die in der Nähe eines Wasserbehälters unter dem Schatten von grünen Bäumen grasen.

Eigenes Foto Kühe in Heidelberger Landschaft ChatGPTPlus-Ergebnis zu den Kühen

(Bilder zum Vergrößern anklicken)


Hinweise:

  • Man sollte in ChatGPT Plus keine fremden Bilder hochladen, für die man keine Rechte am Bild hat. Zudem muss man davon ausgehen, dass bei Standard-ChatGPT Plus-Accounts alle hochgeladenen Dateien als ChatGPT-Trainingsdaten verwendet werden!
  • Die hier abgebildeten KI-Bilder wurden im Dialog über die Webanwendung von ChatGPT Plus und die Auswahl „ChatGPT4 (With DALL-E, browsing and analysis)“ erzeugt. Die dahinter liegende Version ist DALL-E3.