Menschen als Vorbild: Vision Pro trainiert humanoide Roboter


Einen humanoiden Roboter korrekte Bewegungsabläufe beizubringen, stellt eine große Herausforderung dar. Um etwa den Inhalt einer Flasche in einen Becher zu füllen, muss die Maschine zwei Objekte erkennen, ihre Dimensionen erfassen, die Bewegung eigener Greifer auf sie anpassen – und erkennen, ob eine Bewegung gelang oder daneben ging. Reines „Machine Learning“ per Versuch und Irrtum ist aufwendig und langwierig. Apples Machine-Learning-Blog veröffentlicht nun eine
Studie, bei der Forscher eine Methode entwickelten, Aufzeichnungen von Menschen mit Vision-Pro-Headset erfolgreich für das Roboter-Training einzusetzen.
Die Forscher wählten für diese Zwecke einen Aufbau, welcher Mensch und Maschine ähnlich positionierte: Für Trainingsdaten saßen Menschen an einem Tisch und führten Handgriffe aus, die für sie Routine waren, etwa Gegenstände in eine Schachtel zu legen oder Getränke umzufüllen. Eine Kamera der Vision Pro zeichnete dabei das Sichtfeld auf, während mittels Apples ARKit nicht nur Hand-, sondern auch Kopfbewegungen analysiert wurden. Teilweise installierten die Forscher zusätzlich eine Stereoskopie-Kamera. Die zu trainierenden Roboter hatten dieselbe Perspektive und verfügten über menschenähnliche Arme und Hände. Das erleichterte die „Abstraktion“ der Aufzeichnungen: Der von Apples Forschern entwickelte Human Action Transformer (HAT) vereinfacht die Arbeit der Machine-Learning-Algorithmen. Mit ihm gelingt es, menschliche Bewegungen als effizientes Lernmaterial zu verwenden. Die auf diese Weise mit variablem Beispielmaterial menschlicher Bewegungen instruierten humanoiden Roboter lernten dank HAT schneller als mit traditionellen Trainingsmethoden.

Trainingsdaten für humanoide Roboter setzen auf Kamerabilder sowie ARKit-Analysedaten. (Quelle:
Arxiv.org)
Ziel: Bewegungen effizient aufzeichnenMit dem Forschungsansatz will Apple das Sammeln eigener Aufzeichnungen von Bewegungsabläufen erleichtern. Neben der Apple Vision Pro wurde parallel ein Quest-Headset von Meta in Kombination mit einer Stereokamera verwendet – die Anschaffungskosten belaufen sich in dieser Konfiguration auf etwa 700 US-Dollar, so die Forscher. Auf einer
GitHub-Seite präsentiert das Team seine Ergebnisse mit vielen animierten Beispielen; obendrein können Machine-Learning-Forscher sowohl Datensätze als auch Quellcode herunterladen.