KI-Forschung: Apple kombiniert "verworfene" Algorithmen für effiziente Bilderzeugung


Bilderzeugung mittels Künstlicher Intelligenz erfreut sich zunehmender Beliebtheit. Apple macht zunehmend Gebrauch davon. Viele denken dabei zunächst an „Image Playground“, welche in der EU seit macOS 15.4 auf Apple-Silicon-Macs Teil des Betriebssystems ist. Doch auch die „Bereinigen“-Funktion sowie eine Umwandlung zweidimensionaler Fotos in „spatial Images“ für die Apple Vision Pro nutzt KI-Algorithmen. In zwei wissenschaftlichen Publikationen zeigen Apple-Entwickler nun einen vielversprechenden Ansatz auf, der auf Algorithmen mit normalisierendem Fluss setzt. Diese sollen insbesondere bei Bilderzeugung vorteilhaft sein – und bei lokaler anstatt cloud-basierter Generierung.
Die verwendeten Algorithmen, bekannt als „
normalisierter Fluss“, sind keine Neuentwicklung, sondern wurden bereits vor zehn Jahren umfangreich beschrieben. Aus mathematischer Sicht besteht ihr Vorteil darin, dass sie für jeden Trainingsdatensatz einen Wahrscheinlichkeitswert „schätzen“. Bisherige Bilderzeugungen auf Basis von normalisiertem Fluss resultierten allerdings in unscharfen Bildern. Der Ansatz, den Apple-Entwickler
vorstellen, kombiniert Transformer-Modelle mit Normalisiertem Fluss (TARFflow). Ein auf diesem Ansatz trainiertes KI-Modell erzeugt recht effizient überzeugende Bilder, allerdings bleiben diese auf niedriger Auflösung.
Höhere Auflösung mit STARFLOWDieser konzeptuellen Schwäche widmet sich die zweite Veröffentlichung, welche Apple im konzerneigenen
Machine-Learning-Blog präsentierte. In dieser optimieren Apples Entwickler den TARFlow-Algorithmus in einer Form, dass hochauflösende Bildresultate entstehen. STARFlow nennen die Entwickler das
Resultat, dem sie einen Durchbruch in der KI-Forschung zuschreiben:
STARFlow erzielt konkurrenzfähige Ergebnisse sowohl bei der klassen- als auch bei der textbedingten Bilderzeugung, wobei die Qualität der Stichproben an die der modernsten Diffusionsmodelle heranreicht. Unseres Wissens ist dies die erste erfolgreiche Demonstration Normalisierter-Fluss-Algorithmen in dieser Größenordnung und Auflösung.
STARFlow verändert Bilder auf Basis einer Textanweisung. (Quelle:
arXiv)
Optimiert für „Inpainting“Als potenziellen Anwendungsfall sehen die Entwickler das Übermalen bestimmter Bereiche eines bestehenden Bildes mit einem Wunschelement. Dafür definiert der Nutzer einen Bildbereich und beschreibt, was dort erscheinen soll. Der definierte Bereich wird dann mit einem Gauss-Unschärfe-Effekt versehen, woraus STARFlow dann erfolgreich ein Wunschelement erzeugen kann – etwa einen Hut auf dem Kopf eines Corgi. Ebenso könnte ein solches KI-Modell dabei helfen, störende Bildelemente zu entfernen oder verdeckte Elemente hinter einer Person im Bildvordergrund zu berechnen, um Bilder mit einem Räumlichkeitseffekt zu versehen.