Apples neues KI-Modell: 3D-Szenen aus nur drei Fotos


Apple veröffentlicht regelmäßig Forschungsarbeiten, vor allem dann, wenn diese in Kooperation mit Universitäten entstanden sind. Nun gibt es die Ankündigung aus dem ML-Team, wonach man zusammen mit der Nanjing University sowie der Hong Kong University of Science and Technology eine neuartige Bild-KI entwickelt hat. Unter der Bezeichnung "
Matrix3D" handelt es sich um eine Technologie, die 3D-Objekte erzeugen kann. Hierzu sind lediglich wenige Fotos erforderlich, im besten Fall gerade einmal drei.
Ein einziger Schritt – statt vieleZunächst geht es darum, die Geometrie samt allen Abmessungen zu erfassen. Das "Large Photogrammetry Model" rekonstruiert daraus die genaue Beschaffenheit, verfolgt aber hierfür einen anderen Weg als bisherige Ansätze. Durch Verwendung von Fotos, Kamera- und Tiefeninformationen soll es möglich sein, die Berechnungen in nur einem Vorgang auszuführen, anstatt einen mehrschrittigen Prozess zu wählen. Man zeigt sich optimistisch, dadurch nicht nur vereinfachte Handhabung, sondern gleichzeitig akkuratere Ergebnisse zu erzielen.
Einzelne Objekte und ganze SzenenMatrix3D geht über die Erstellung einfacher Objekte hinaus, denn auf Grundlage von Fotos seien komplette Umgebungen und Landschaften in den dreidimensionalen Raum zu überführen. Zwar gibt es noch keine Ankündigungen, inwiefern die Forschungsergebnisse in marktreife Produkte einfließen könnten, doch würde sich die Apple Vision Pro eindeutig anbieten. Theoretisch wäre es möglich, mit dem iPhone einige Fotos anzufertigen und sich dann per Vision Pro durch die Szene zu bewegen – ganz so, wie man es per Google Street View oder Look Around aus Apple Maps tun kann.
Projektseite und QuellcodeWer sich für nähere Details interessiert, findet auf der
Projektseite viele Beispiele und technische Hintergründe vor. Apple selbst bezeichnet es in der
Ankündigung als "innovatives Tool für 3D-Content" – welches auch dann überzeugende Ergebnisse liefere, wenn lediglich unvollständige Daten vorliegen. Den Quellcode darf jeder auf
Github einsehen.