KI-Forschung: Apples Modell macht aus Fotos 3D-Objekte

Der Übergang vom zwei- in den dreidimensionalen Raum stellt eine Herausforderung dar, mit der sich alle Unternehmen beschäftigen, die Augmented-Reality-Produkte anbieten. Für Apple ist dies in vielen Bereichen wichtig – nicht nur für das Spatial-Computing-Headset Vision Pro, deren Nutzer derzeit eher spärlich gesät sind. So wandelt iOS 26 auf Wunsch Fotos in räumliche Szenen um. Für solche Zwecke entsteht aus einem einzigen Bild auf die Schnelle ein möglichst realistisches dreidimensionales Modell. Apples KI-Forscher stellen nun einen Ansatz für ein sichtbar besseres Resultat: Ihr LiTo getauftes KI-Modell interpretiert zusätzlich zur Form auch die Farbeindrücke und schlussfolgert daraus Oberflächenbeschaffenheit sowie Lichteinfall.

Um diese Aufgabe zu meistern, entwickelten Apples KI-Forscher ein Trainings-Framework, welches Geometrie und Erscheinungsbild gemeinsam beobachtet. Dazu nutzten sie zufällige Stichproben von Oberflächen-Lichtfelddaten aus Multiview-Bildern mit RGB-Tiefe. Das resultierende Modell war dadurch in der Lage, blickwinkelabhängige Effekte (etwa Glanzlichter oder Linsenreflexionen) von der Oberflächenfarbe zu trennen und schließlich selbst zu erzeugen.

Besser als vergleichbare Ansätze
Das so entstandene Modell ist in der Lage, realistische dreidimensionale Objekte aus einem einzigen Foto vorherzusagen. In mehreren Tabellen argumentiert die Veröffentlichung, dass Apples LiTo-Modell in standardisierten Tests zu dieser Aufgabe besser abschneidet als konkurrierende Modelle wie 3DTopia-XL oder TRELLIS. Praktischerweise kann man sich aber auch selbst ein Bild von der Qualität machen: Auf der GitHub-Seite zum Projekt präsentieren Animationen die Resultate von LiTo, zusammen mit dem Ausgangsbild und dem Resultat von TRELLIS. Im interaktiven Bereich dürfen Betrachter eins von vier 3D-Modellen wählen, um sie eigenständig zu drehen; so lassen sich die Resultate von TRELLIS und LiTo vergleichen.

Im interaktiven 3D-Raum können Anwender die KI-generierten 3D-Modelle miteinander vergleichen.

Vorstellung auf Konferenz
Wie rechenaufwendig die Berechnungen von dreidimensionalen Modellen mittels LiTo ausfallen, erwähnt das Forschungspapier nicht. Die Veröffentlichung ist eine Methoden- und Ergebnispräsentation, welche in Vorbereitung für die Konferenz "International Conference on Learning Representations" (ICLR) entstand; diese findet vom 23. bis 27. April 2026 in Rio de Janeiro statt. Apple veröffentlichte das Paper auf dem Vorabdruck-Server arXiv und erwähnt sie auf dem konzerneigenen Machine Learning Research Blog.

KI-Forschung: Apples Modell macht aus Fotos 3D-Objekte

Kommentare

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.