Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Foto blitzschnell in 3D-Szene verwandeln: Apple veröffentlicht Quellcode

Spätestens seit der Einführung des AR-Headsets Vision Pro ist offensichtlich, dass dreidimensionale Szenen ein wichtiges Entwicklungsfeld für Apple darstellen: Von der ersten Version an war das auf den Kopf geschnallte Gerät in der Lage, räumliche Fotos und Videos aufzunehmen. Mit iOS 26 können iPhone-Nutzer aus nahezu jedem Foto eine dreidimensionale Szene erzeugen. Eine wissenschaftliche Arbeit gibt einen Einblick, mit welchen Machine-Learning-Algorithmen so etwas möglich ist. Apple stellt Beispielcode und Modell kostenlos zum Download bereit – wer das Terminal nicht scheut, kann SHARP in einer Python-Umgebung selbst ausprobieren.


Die Publikation beschreibt den Aufbau des Algorithmus, den Apples KI-Entwickler selbstbewusst SHARP getauft haben. Eine gewöhnliche GPU könne aus einem einzelnen Bild binnen weniger als einer Sekunde eine dreidimensionale Simulation generieren. Qualitativ soll das Resultat 20 bis 40 Prozent besser sein als der beste konkurrierende Algorithmus (Gen3C). Gleichzeitig sei SHARP um drei Größenordnungen schneller – Gen3C benötigte mehr als 830 Sekunden, SHARP weniger als eine.

Apples SHARP-Algorithmus erzeugt weniger Artefakte als konkurrierende ML-Algorithmen. (Quelle: ArXiv)

Optimiertes Modell
Für diese Aufgabe hat Apple ein spezielles Transformer-Modell trainiert. Hierbei kamen sowohl echte Aufnahmen nebst 3D-Renderings als auch synthetische Szenen zum Einsatz. Setzt man SHARP auf ein Foto an, erzeugt der Algorithmus zunächst eine Tiefensimulation, optimiert diese dann und berechnet zusätzliche Bildelemente, welche vom Vordergrundmotiv verdeckt wurden. In einem gewissen Winkelbereich wirken die erzeugten 3D-Simulationen täuschend echt – erst beim Verlassen des ursprünglichen Blickwinkels nehmen die Artefakte überhand.

Vorgehensweise des SHARP-Umwandlers im Flussdiagramm. (Quelle: ArXiv)

Code und Modell verfügbar
Den SHARP-Algorithmus stellt Apple auf der Code-Plattform GitHub zum Download bereit. Bei der ersten Anwendung lädt dieses automatisch das dazugehörige Modell herunter. Um SHARP zu installieren, sollte man sicher in der Kommandozeile sein und gewisse Programmierkenntnisse mitbringen: Apples Anleitung setzt Kenntnisse mit der Skriptsprache Python, deren Virtualisierungsumgebung conda sowie der Paketverwaltung pip voraus. Alternativ kann man auch auf die Browser-Coding-Plattform Huggingface ausweichen, diese verlangt allerdings zwingend einen Chrome-Browser. Einige Anwender haben dies bereits vollbracht und teilen auf X die beeindruckenden Resultate.


Räumliche Fotos ab iPhone 12
Um den Effekt auszuprobieren, muss man nicht unbedingt das Projekt herunterladen und installieren. Es genügt ein maximal fünf Jahre altes iPhone mit iOS 26. Wenn Sie ein geeignetes Bild in der Bildersammlung betrachten, erscheint ein halbtransparentes sechseckiges Landschafts-Icon in der oberen rechten Ecke. Tippen Sie darauf, um binnen kürzester Zeit eine 3D-Simulation zu erzeugen. Neigen Sie im Anschluss das iPhone, scheint sich auch Ihr Blickwinkel zu verändern.

Mit iOS 26 bekommen auch ältere iPhones die Fähigkeit, räumliche Szenen zu erzeugen.

Kommentare

TMS
TMS19.12.25 20:10
Funktioniert echt gut. Aber der variable Blickwinkel ist doch arg beschränkt. Ab 25° würde es nützlich werden.
0
NitroxX19.12.25 22:47
Ein solches Transformermodell zählt definitiv nicht zu den Large Language Models (LLM). Da es korrekterweise in der Veröffentlichung so auch nicht genannt wird, sollte das hier im MTN Artikel bitte auch nicht als ein LLM bezeichnet werden.
+9
Nebula
Nebula20.12.25 00:47
Interessant, dass die Apple-Entwickler eine Sprache einsetzen, die macOS nicht mehr beiliegt. Bedeutet das eigentlich, dass Python auch die Basis für die Funktion in iOS war, oder ist das eher ein einfaches Vehikel, um etwa C- oder Swift-Code anzusprechen?
»Wir sind hier, um eine Delle im Universum zu hinterlassen.« – Steve Jobs
+1
KoGro20.12.25 08:01
Das kriegt man halt nicht raus aus den Köpfen. Eine Zeitlang war ja alles Machine Learning, auch wenn es sich um statistische Modelle handelte, jetzt sind halt alle Methoden LLMs, auch wenn sie mit Sprache ganz offensichtlich nichts zu tun haben.

conda als “die Virtualisierungsumgebung von Python” zu bezeichnen ist ja auch leicht an der Realität vorbei.

Aber ich finde den Artikel trotzdem super, weil er sich mal nicht mit “welches feature findet sich wohl im x-ten geleakten device” beschäftigt und weil ich jetzt verstanden habe, wofür das komische neue icon in der Fotos-App ist.
NitroxX
Ein solches Transformermodell zählt definitiv nicht zu den Large Language Models (LLM).
+8
MacBelwinds
MacBelwinds20.12.25 20:39
Kann man diese 3D-Bilder gar nicht speichern? Ich kann es nur schließen und zur Normalansicht zurückkehren.
+3
immo_j
immo_j21.12.25 11:34
NitroxX
Ein solches Transformermodell zählt definitiv nicht zu den Large Language Models (LLM). Da es korrekterweise in der Veröffentlichung so auch nicht genannt wird, sollte das hier im MTN Artikel bitte auch nicht als ein LLM bezeichnet werden.

Erledigt. Vielen Dank für den Hinweis!
0
Meddten
Meddten21.12.25 22:04
immo_j
NitroxX
Ein solches Transformermodell zählt definitiv nicht zu den Large Language Models (LLM). Da es korrekterweise in der Veröffentlichung so auch nicht genannt wird, sollte das hier im MTN Artikel bitte auch nicht als ein LLM bezeichnet werden.

Erledigt. Vielen Dank für den Hinweis!

Also bei mir steht in der Absatz Überschrift immer noch Optimiertes LLM
+1
frankh22.12.25 10:27
Habe den Code installiert und kann .ply files erzeugen. Scheinbar die Tiefeninformationen, kenne mich mit 3D nicht aus. Womit kann ich das .ply als "3D Foto" anschauen?
0
duerre23.12.25 11:34
frankh
Habe den Code installiert und kann .ply files erzeugen. Scheinbar die Tiefeninformationen, kenne mich mit 3D nicht aus. Womit kann ich das .ply als "3D Foto" anschauen?
Versuchs hiermit: https://imagetostl.com/de/ply-online-ansehen
0
frankh23.12.25 14:49
duerre
frankh
Habe den Code installiert und kann .ply files erzeugen. Scheinbar die Tiefeninformationen, kenne mich mit 3D nicht aus. Womit kann ich das .ply als "3D Foto" anschauen?
Versuchs hiermit: https://imagetostl.com/de/ply-online-ansehen

Danke, hatte ich schon. Zeigt keine Farben.
Inzwischen habe ich dies empfohlen bekommen: https://superspl.at/editor, damit geht's.
0
Dicone
Dicone26.12.25 00:26
Ich check immer nicht so ganz was ich in iOS mit der räumlichen Szene machen darf/kann? Nichts ausser wegklicken, irgendwie schade, wär doch ein klasse Format zum verschicken. Die Funktion erscheint Nutzlos oder nur Spielerei. Kommen stolze Besitzer der Brille oder anderer Geräte in andere Genüsse? Oder übersehe ich hier was
+1

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.