Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Apple arbeitet an künstlicher Intelligenz, die iPhones etc. steuern kann

Grafische Bedienschnittstellen (GUI) sind dafür gedacht, vom Menschen benutzt zu werden. Das macht sie nicht automatisch eingängig – oftmals bleibt die Interaktion herausfordernd. Manche Funktionen verbergen sich auf Menüunterseiten, Buttons sind oft unklar beschriftet, Menüeinträge seltsam übersetzt. Seit einiger Zeit gibt es deshalb Bestrebungen, die Bedienung einer Software einer KI zu überlassen, während der Anwender seinen Wunsch in natürlicher Sprache formuliert. Auch Apple forscht an einem entsprechenden Agenten – mit einem speziellen, der Konzernstrategie entsprechenden Ansatz.


In ihren Veröffentlichungen nennen die Entwickler ihren Bedienschnittstellen-Agenten nach einem possierlichen Raubtier: Ferret (engl. für Frettchen) erkennt interaktive Elemente auf einem Bildschirm und führt Interaktionen aus, etwa Klicks, Tipp- oder Wischgesten. Erste Veröffentlichungen in Apples Machine-Learning-Blog, welche Ferret erwähnen, stammen aus dem Jahr 2023. Das aktuelle Paper beschäftigt sich damit, wie es gelingen kann, die entsprechenden Aufgaben lokal auszuführen. Dafür haben Forscher drei Teilaufgaben isoliert: Verstehen, Planung und Ausführung. Diese werden oftmals mehrfach hintereinander durchlaufen, bis ein Auftrag erfolgreich erledigt wurde.

Ein Beispiel für die Umsetzung eines Nutzerwunsches besteht aus mehreren Teilaufgaben, welche ein Agent identifizieren und ausführen muss. (Quelle: Arxiv)


Effizientes lokales LLM
Das aktuell untersuchte Large Language Model (LLM) nennen Apples KI-Forscher "Ferret-UI Lite". Es ist für die Nutzung an Touchscreens optimiert. Wiederholt analysiert es den Inhalt des gesamten Bildschirms, um den Erfolg der eigenen Aktion zu überprüfen und den nächsten Schritt zu bestimmen. Ferret UI Lite ist mit 3 Milliarden Parametern recht klein und explizit darauf ausgelegt, auf dem jeweiligen Endgerät zu laufen. Anwenderwünsche und Screenshots verlassen also nicht das Gerät, um von einer serverseitigen KI begutachtet zu werden. Wichtig war den Forschern zudem die Verarbeitungsgeschwindigkeit – Nutzer sollten nicht unverhältnismäßig lang auf die Umsetzung ihres Auftrags warten.

Noch ein weiter Weg
In standardisierten Tests zeigte sich Ferret-UI Lite konkurrenzfähig, argumentieren die Forscher. Im ScreenSpot-Pro-Benchmark überträfe Apples Modell etwa die Leistung des mehr als doppelt so großen UI-TARS-1.5 (7. Mrd. Parameter) um mehr als 15 Prozent. Der tatsächliche Wert von 53,3 Prozent Genauigkeit ist jedoch weit davon entfernt, alltagstauglich zu sein.

Großer Wettbewerb
Viele Unternehmen im KI-Bereich widmen sich dem automatischen Bedienen von mehr oder minder komplexen Bedienschnittstellen. Das von Anthropic veröffentlichte Model Context Protocol (MCP) soll etwa die Interaktion zwischen LLM und Software erleichtern. Code-Fragmente in iOS 26.1 offenbaren, dass Apple Grundlagen für Interaktionen mit KI-Agenten integriert. OpenAI hat mit der Übernahme des KI-Startups Sky sowie der Anwerbung des OpenClaw-Entwicklers Peter Steinberger gezeigt, dass es ebenfalls an direkter und individualisierter Interaktion mit grafischen Bedienoberflächen arbeitet.

Kommentare

martzell23.02.26 15:57
Befehlszeilen im Terminal funktionieren so standardisiert und zuverlässig dass KI (OpenClaw) sie bedienen kann. Mit der grafischen Oberfläche hat KI (und auch Menschen) Probleme.

Ich wünsche mir dass die grafische Benutzeroberfläche maßgeblich weiterentwickelt wird. Raskin und Sohn haben mit The Human Interface / Archy / Enso gezeigt wie Software effizienter und effektiver bedient werden kann.

Immer mehr Programme haben ein Texteingabefeld für Befehle. Mac OS X hat das sogar betriebssystemweit im Hilfe-Menü, wenn auch limitiert. Die Menüleiste sollte aufgebohrt werden. Damit sollte man alle Befehle nachschlagen können, übersichtlich gruppiert (Ablage, Bearbeiten, Ansicht, etc.) und via Suche.
0
MLOS23.02.26 16:17
martzell

Sprachmedelle können Text generieren, daher können sie auch Text in Shell erzeugen. Mit Standardisierung hat das erstmal wenig zu tun. Es geht um die Form der Interaktion.
0

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.