Apple arbeitet an künstlicher Intelligenz, die iPhones etc. steuern kann


Grafische Bedienschnittstellen (GUI) sind dafür gedacht, vom Menschen benutzt zu werden. Das macht sie nicht automatisch eingängig – oftmals bleibt die Interaktion herausfordernd. Manche Funktionen verbergen sich auf Menüunterseiten, Buttons sind oft unklar beschriftet, Menüeinträge seltsam übersetzt. Seit einiger Zeit gibt es deshalb Bestrebungen, die Bedienung einer Software einer KI zu überlassen, während der Anwender seinen Wunsch in natürlicher Sprache formuliert. Auch Apple
forscht an einem entsprechenden Agenten – mit einem speziellen, der Konzernstrategie entsprechenden Ansatz.
In ihren Veröffentlichungen nennen die Entwickler ihren Bedienschnittstellen-Agenten nach einem possierlichen Raubtier: Ferret (engl. für Frettchen) erkennt interaktive Elemente auf einem Bildschirm und führt Interaktionen aus, etwa Klicks, Tipp- oder Wischgesten. Erste Veröffentlichungen in Apples
Machine-Learning-Blog, welche Ferret erwähnen, stammen aus dem Jahr 2023. Das aktuelle Paper beschäftigt sich damit, wie es gelingen kann, die entsprechenden Aufgaben lokal auszuführen. Dafür haben Forscher drei Teilaufgaben isoliert: Verstehen, Planung und Ausführung. Diese werden oftmals mehrfach hintereinander durchlaufen, bis ein Auftrag erfolgreich erledigt wurde.
Ein Beispiel für die Umsetzung eines Nutzerwunsches besteht aus mehreren Teilaufgaben, welche ein Agent identifizieren und ausführen muss. (Quelle:
Arxiv)
Effizientes lokales LLMDas aktuell untersuchte Large Language Model (LLM) nennen Apples KI-Forscher "Ferret-UI Lite". Es ist für die Nutzung an Touchscreens optimiert. Wiederholt analysiert es den Inhalt des gesamten Bildschirms, um den Erfolg der eigenen Aktion zu überprüfen und den nächsten Schritt zu bestimmen. Ferret UI Lite ist mit 3 Milliarden Parametern recht klein und explizit darauf ausgelegt, auf dem jeweiligen Endgerät zu laufen. Anwenderwünsche und Screenshots verlassen also nicht das Gerät, um von einer serverseitigen KI begutachtet zu werden. Wichtig war den Forschern zudem die Verarbeitungsgeschwindigkeit – Nutzer sollten nicht unverhältnismäßig lang auf die Umsetzung ihres Auftrags warten.
Noch ein weiter WegIn standardisierten Tests zeigte sich Ferret-UI Lite konkurrenzfähig, argumentieren die Forscher. Im ScreenSpot-Pro-Benchmark überträfe Apples Modell etwa die Leistung des mehr als doppelt so großen UI-TARS-1.5 (7. Mrd. Parameter) um mehr als 15 Prozent. Der tatsächliche Wert von 53,3 Prozent Genauigkeit ist jedoch weit davon entfernt, alltagstauglich zu sein.
Großer WettbewerbViele Unternehmen im KI-Bereich widmen sich dem automatischen Bedienen von mehr oder minder komplexen Bedienschnittstellen. Das von Anthropic veröffentlichte Model Context Protocol (MCP) soll etwa die Interaktion zwischen LLM und Software erleichtern.
Code-Fragmente in iOS 26.1 offenbaren, dass Apple Grundlagen für Interaktionen mit KI-Agenten integriert. OpenAI hat mit der Übernahme des KI-Startups Sky sowie der
Anwerbung des OpenClaw-Entwicklers Peter Steinberger gezeigt, dass es ebenfalls an direkter und individualisierter Interaktion mit grafischen Bedienoberflächen arbeitet.