Neben der Generierung von Text oder Code, dürfte die Bildgenerierung das zweite große Einsatzfeld der diversen KI-Anwendungen sein, die seit zwei Jahren die Runde machen. Doch eines ist bei den beiden Branchenprimi von OpenAI oder Google noch immer ein Problem: die Kombination aus beidem.
Jeder der schon Mal einen bestimmten Text auf einem KI-Bild haben wollte, war (und ist) gut beraten lieber eine freie Fläche mit zu generieren und diese dann mit einem Bildbearbeitungsprogramm mit Text zu füllen.
Vereinfacht gesagt liegt es daran, dass Text auf Bildern für die Lernmodelle a) ein Problem an sich ist und es b) auch weniger Lernmaterial gibt, als bei reinem Text oder nur Bildern. Modifizierte Modelle tun sich also schwerer, aber es gibt sie. Der Service Ideogram nutzt ein solch angepasstes Modell und gilt deshalb als Top-Standard in diesem Bereich.
Im folgenden Beitrag habe ich Ideogram einmal gegen Dall-e von OpenAI antreten lassen. Während man Dall-e nur in der Bezahlvariante von ChatGPT nutzen kann, bietet Ideogram ein kostenlose Testvariante mit der sich je Tag fünf Prompts nutzen lassen, die jeweils vier Bilder generieren. Was den Test insofern verzerrt hat, da ich von den generierten vier Bildern das jeweils beste mit dem einen generierten Bild von Dall-e verglichen habe. Und ich bin Ideogram insofern entgegengekommen, als das alle Prompts auf Englisch formuliert wurden – auch bei Dall-e. Denn vorweg, mit Deutsch hat Ideogram nicht nur bei den Prompts, sondern auch den Ergebnissen seine Probleme.
Doch jetzt genug der Vorrede, lassen wir Ideogram und Dall-e gegeneinander antreten.
Der erste Prompt:
The sentence “I am not Bart Simpson” is written 10 times on a school blackboard.
Das Ergebnis auf Ideogram:
Bei Dall- stößt man mit diesem Prompt allerdings schon auf das erste Problem, auch wenn ich Bart Simpson nicht selbst auf dem Bild dargestellt sehen wollte, triggerte offenbar schon der Name den Copyright-Filter von OpenAI. Also bekam Dall-e die Aufgabe „Sam Bartson“ zu schreiben:
Man sieht, in Sachen Schreiben ist Ideogram deutlich besser – nur zählen kann es nicht. Statt 10x wurde „I am not Bart Simpson“ nur 7x geschrieben. Zählen konnte auch Dall-e nicht, dafür hat er halt die Zahl 10 zwei Mal mit auf die Tafel geschrieben. Insgesamt sind also beide KIs nicht berauschend, aber Ideogram führt doch 1:0.
Zweite Runde:
A coffee cup with a picture of a tired and grim-looking kitten. Underneath is the sentence “I need coffee!”
Hier schwächelt Ideogram. Zwar ist die Schrift wieder top, aber eigentlich ist ja eine Tasse und kein Coffee-to-go-Becher gewünscht gewesen. (Den Fehler könnte man wahrscheinlich allerdings abfangen, indem man in den Prompt einarbeitet, es solle eine Porzellantasse sein.)
Dall-e scheitert leider erneut recht deutlich an der Schrift. Selbst einfache und wahrscheinlich oft gebrauchte Worte wie „need“ oder „Coffee“, werden nur mangelhaft eingefügt.
Dafür hat Dall-e aber zumindest eine echte Tasse aufs Bild gebracht. Sagen wir also Gleichstand.
Der aktuelle Stand: 2:1 für Ideogram
Machen wir die Sache jetzt ein wenig komplizierter, indem wir festlegen, aus was genau die Buchstaben optisch zusammengesetzt sind:
Write the sentence “Reach for the stars” with letters made up of stars. In the background you can see the starry sky, at the bottom of the picture you can see an astronomer looking at the sky through a telescope.
Ideogram liefert ein recht überzeugendes Ergebnis. Allerdings war unter den vier Vorschlägen auch ein Bild, auf dem der Astronom fehlte.
Doch diesmal lässt sich auch Dall-e nicht lumpen:
Man könnte lediglich bemängeln, dass „FOR THE“ nicht so wirklich mit Sternen geschrieben wurde. Aber wir wollen mal nicht so sein. Ein Punkt für beide.
Der aktuelle Stand 3:2 für Ideogram
Bis jetzt haben wir es beiden KI-Bildgeneratoren relativ leicht gemacht, weil nicht nur die Prompts in Englisch waren, sondern auch der zu schreibende Text. Also ziehen wir die Daumen an und kopieren uns ein paar Zeilen aus einem Gedicht von Heinrich Heine in einen Prompt:
Write a poem on a parchment with the following text: "Doch horch! ein schollernd schnöder Klang
Ertönt unfern der öden Bühne; —
Vielleicht, dss eine Saite sprang
An einer alten Violine.
Verdrießlich rascheln im Parterr’
Etwelche Ratten hin und her,
Und alles riecht nach ranz’gem Öle.
Die letzte Lampe ächzt und zischt
Verzweiflungsvoll, und sie erlischt.
Das arme Licht war meine Seele."
Und was soll ich sagen, Ideogram versagt geradezu episch:
Allerdings ist Dall-e auch nicht besser:
Also alles in allem 0 Punkte für beide KI-Bildgeneratoren.
Okay, vielleicht ist die KI mit echter menschlicher Poesie doch noch etwas überfordert, versuchen wir es mit etwas mehr profanem: Werbung
An advertising poster for tourism in Hawaii. It features the words: ‘Es gibt doch Bier auf Hawaii, drum fahre ich hin.’ The poster is in a glass box at a bus stop.
Das Ergebnis von Ideogram ist auf den ersten Blick gar nicht so schlecht. Auf den zweiten sieht man allerdings, dass dort zum einen „DRÜM“ statt „DRUM“ steht und der nicht vorgegebene Text ist leider Fantasietext ohne Sinn und Verstand:
Aber im Gegensatz zum Ergebnis von Dall-e …
ist geradezu Ideogram top. Hier sind nicht nur die meisten Worte falschgeschrieben, sondern viele Buchstaben haben auch nicht sonderlich viel mit Buchstaben zu tun.
Der Endstand: 4:2 für Ideogram
Der Gewinner nach Punkten: Ideogram
Allerdings mit der Einschränkung, dass auch Ideogram aktuell nur mit englischen Texten wirklich nutzbar ist.
PS: Was Ideogram außerdem noch interessant macht, ist die Integration von Canvas, um erstellte Grafiken weiter zu bearbeiten. OpenAI bietet hier nur die Möglichkeit bestimmte Bereiche eines Bildes zu markieren und diese dann per Prompt zu ändern.
Weiterführende Links