Foto blitzschnell in 3D-Szene verwandeln: Apple veröffentlicht Quellcode


Spätestens seit der Einführung des AR-Headsets Vision Pro ist offensichtlich, dass dreidimensionale Szenen ein wichtiges Entwicklungsfeld für Apple darstellen: Von der ersten Version an war das auf den Kopf geschnallte Gerät in der Lage, räumliche Fotos und Videos aufzunehmen. Mit iOS 26 können iPhone-Nutzer aus nahezu jedem Foto eine dreidimensionale Szene erzeugen. Eine
wissenschaftliche Arbeit gibt einen Einblick, mit welchen Machine-Learning-Algorithmen so etwas möglich ist. Apple stellt Beispielcode und LLM kostenlos zum Download bereit – wer das Terminal nicht scheut, kann SHARP in einer Python-Umgebung selbst ausprobieren.
Die Publikation beschreibt den Aufbau des Algorithmus, den Apples KI-Entwickler selbstbewusst SHARP getauft haben. Eine gewöhnliche GPU könne aus einem einzelnen Bild binnen weniger als einer Sekunde eine dreidimensionale Simulation generieren. Qualitativ soll das Resultat 20 bis 40 Prozent besser sein als der beste konkurrierende Algorithmus (Gen3C). Gleichzeitig sei SHARP um drei Größenordnungen schneller – Gen3C benötigte mehr als 830 Sekunden, SHARP weniger als eine.
Apples SHARP-Algorithmus erzeugt weniger Artefakte als konkurrierende ML-Algorithmen. (Quelle:
ArXiv)
Optimiertes LLMFür diese Aufgabe hat Apple ein spezielles Großes Sprachmodell (LLM) trainiert. Hierbei kamen sowohl echte Aufnahmen nebst 3D-Renderings als auch synthetische Szenen zum Einsatz. Setzt man SHARP auf ein Foto an, erzeugt der Algorithmus zunächst eine Tiefensimulation, optimiert diese dann und berechnet zusätzliche Bildelemente, welche vom Vordergrundmotiv verdeckt wurden. In einem gewissen Winkelbereich wirken die erzeugten 3D-Simulationen täuschend echt – erst beim Verlassen des ursprünglichen Blickwinkels nehmen die Artefakte überhand.
Vorgehensweise des SHARP-Umwandlers im Flussdiagramm. (Quelle:
ArXiv)
Code und Modell verfügbarDen
SHARP-Algorithmus stellt Apple auf der Code-Plattform GitHub zum Download bereit. Bei der ersten Anwendung lädt dieses automatisch das dazugehörige LLM herunter. Um es zu installieren, sollte man sicher in der Kommandozeile sein und gewisse Programmierkenntnisse mitbringen: Apples Anleitung setzt Kenntnisse mit der Skriptsprache Python, deren Virtualisierungsumgebung conda sowie der Paketverwaltung pip voraus. Alternativ kann man auch auf die Browser-Coding-Plattform Huggingface
ausweichen, diese setzt allerdings einen Chrome-Browser voraus. Einige Anwender haben dies bereits vollbracht und teilen auf X die beeindruckenden Resultate.
Räumliche Fotos ab iPhone 12Um den Effekt auszuprobieren, muss man nicht unbedingt das Projekt herunterladen und installieren. Es genügt ein maximal fünf Jahre altes iPhone mit iOS 26. Wenn Sie ein geeignetes Bild in der Bildersammlung betrachten, erscheint ein halbtransparentes sechseckiges Landschafts-Icon in der oberen rechten Ecke. Tippen Sie darauf, um binnen kürzester Zeit eine 3D-Simulation zu erzeugen. Neigen Sie im Anschluss das iPhone, scheint sich auch Ihr Blickwinkel zu verändern.
Mit iOS 26 bekommen auch ältere iPhones die Fähigkeit, räumliche Szenen zu erzeugen.