Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

DALL-E 3: OpenAI hebt Bildgenerator auf neue Stufe – überzeugende Bilder mit einfachen Sätzen

Am 20. September kündigte OpenAI einen Nachfolger des Bildsynthesemodells DALL-E 2 an. Der auf den Namen DALL-E 3 hörende Chatbot soll mithilfe von Millionen von Bildern trainiert worden sein. Anders als bisher stehe dem Nutzer nun ein „Brainstorming-Partner“ zur Seite. Dieser schöpfte hierbei vorrangig aus dem Repertoire menschlicher Künstler und Fotografen. Hierzu zählten unter anderem auch lizenzierte Stock-Fotos, wie man sie etwa auf Shutterstock antrifft. Auch DALL-E 2 folgte dem gleichen Schema, die verbesserte Version habe allerdings neue Trainingstechniken angewendet und sich hierfür auch deutlich mehr Rechenzeit gegönnt.


Neuer Bot deutlich leistungsfähiger
Unter anderem ist es DALL-E 3 möglich, Bilder zu rendern, welche selbst Text enthalten. Für den Vorgänger war es stets eine Herausforderung insbesondere Etiketten und Schilder anhand von Beschreibungen zu erstellen. Derart komplexe Prompts stellen für den auf ChatGPT basierenden Algorithmus wohl kein Problem mehr dar. Über die technische Umsetzung ließ das Unternehmen auf der entsprechenden Webseite nichts verlauten. Ein Blick auf die Beispielbilder im Werbeblog lassen wenig Zweifel daran, dass OpenAI kräftig an der Effektivität des Bots gearbeitet hat. Das Modell scheint wesentlich leistungsfähiger als andere vergleichbare Varianten wie Midjourney oder Stable Diffusion. Bereits einige, mitunter komplexe Aufforderungen an den Algorithmus vermögen Bilder zu erzeugen, für welche vorher aufwendiges Prompt Engineering betrieben werden musste.

Prompt:
A detailed oil painting of an old sea captain, steering his ship through a storm. Saltwater is splashing against his weathered face, determination in his eyes. Twirling malevolent clouds are seen above and stern waves threaten to submerge the ship while seagulls dive and twirl through the chaotic landscape. Thunder and lights embark in the distance, illuminating the scene with an eerie green glow.

Prompt:
Close-up photograph of a hermit crab nestled in wet sand, with sea foam nearby and the details of its shell and texture of the sand accentuated.



Mehr Detailreichtum
Zwar ließen sich stellenweise noch minimale Verformungen erkennen, dennoch schaffe es das neue Modell überzeugende Bilder zu erstellen, die sich im Vergleich als wesentlich Prompt-getreuer herausstellen. Selbst kleine Details arbeite das Modell in Bezug zum Vorgänger besser heraus, was am besten an der Generierung von Händen zu sehen sei. Bisher waren häufig aufwendige Prompt-Verkettungen und mehrere Iterationsschritte, wenn nicht sogar sogenannte Hacks notwendig, um zum gewünschten Ergebnis zu gelangen. Unter dem Begriff Prompt-Engineering ist gar eine neue Berufssparte erschaffen worden, die sich dieser Tatsache annimmt. Bereits Anfang Oktober soll der Text-zu-Bild-Generator für Geschäftskunden verfügbar sein.

Kommentare

Brunhilde_von_der_Leyen26.09.23 15:28
Ich finde diese Prompt Orgien immer interessant. Wenn ich bei Midjourney die Prompts aus dem Beispiel eingebe, unterscheidet sich das Ergebnis kaum, als wenn ich nur „ a detailed oil painting of an old sea captain, steering his ship through a storm.“ verwende. War es nicht so, dass nur eine bestimmte Anzahl an Prompts verarbeitet werden kann?
+1
MacStudio26.09.23 20:28
Bei AI geht es um korrekte und exakte Sprache. Wer sich elegant, kreativ ausdrücken kann, bekommt die besten Bilder. YouTube Promt-Orgien mit angeblichen Zauberworten sind Schwachsinn. Es gilt: Kannst Du das Bild Deiner Oma über das Telefon erklären, versteht es auch die AI.
+1
MrWombat
MrWombat26.09.23 23:00

Anbei das Ergebnis von mindjourney mit dem Prompt von oben.
0

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.