Apple will per Statistiken zeigen: Apple Intelligence zunehmend auf Augenhöhe


Mit einiger Verzögerung fanden die auf der letztjährigen WWDC angekündigten KI-Features in Apples Betriebssysteme. Für EU-Bürger war es erst mit iOS 18.4 sowie macOS 15.4 so weit, dass Schreibwerkzeuge, Genmoji und Image Playground auf Geräten mit entsprechender Ausstattung verfügbar waren. Das zugrunde liegende Große Sprachmodell (LLM) nennt Apple „Foundation Model“; als Generalist ist es zu weitaus umfangreicheren Leistungen in der Lage, als Apple derzeit anbietet. Ab Herbst können auch externe Entwickler die Foundation-Fähigkeiten in ihren Apps anzapfen, verkündete Apple auf der WWDC 2025. Eine Veröffentlichung auf Apples Machine-Learning-Blog
vergleicht die aktuelle Version der Foundation-Models mit denen anderer KI-Assistenten. Die Messgröße: Menschliche Qualitätsbewertung.
Für den Vergleich wurden eine Reihe an Fragen formuliert, welche alle untersuchten Modelle beantworten sollten. Diese umfassten unter anderem. Analyse, Brainstorming, Chat, Klassifizierung, geschlossene und offene Fragen, Coding, kreatives Schreiben, Umformulieren sowie Zusammenfassung bestehender Texte. Die menschlichen Tester bekamen jeweils zwei Antworten auf eine Frage vorgelegt und sollten entscheiden, welche besser ist, oder ob beide gleich gut seien. Dabei flossen auch Faktoren wie regionale Begrifflichkeiten und unnatürliche Formulierungen in ihre Bewertung ein. Der Vergleich fand separat in mehreren Sprachräumen statt: Englisch, Englisch außerhalb der Vereinigten Staaten und „PFIGSCJK“, was für „Portugiesisch, Französisch, Italienisch, Deutsch, Spanisch, vereinfachtes Chiniesisch, Japanisch und Koreanisch“ steht.
In den meisten Vergleichsfällen schlagen sich die Foundation-Antworten recht gut. (Quelle:
Apple)
Lokale und ServerleistungFür die Bewertung der lokalen Foundation-Modelle zog Apple portable Modelle von Alibaba (Qwen 2.5 sowie 3) sowie Google (Gemma 3) heran. Bei den Antworten der Serverversion wagten Apples Entwickler zudem einen Vergleich mit LLMs von Meta (Llama 4 Scout) sowie OpenAI (GPT-4o). Insgesamt zeigten sich die Resultate der eigenen Sprachmodelle in Apples Vergleich in vielen Fällen als zumindest gleichauf und teilweise sogar besser als die Konkurrenz – mit Ausnahme von GPT-4o; hier kann Apple immerhin mit einem recht umfangreichen Anteil an Antworten punkten, bei denen die Antworten aus der „Private Computing Cloud“ ähnlich gut wie die der OpenAI-Konkurrenz erschienen.
Bilderzeugung: OpenAI liegt vornEinen ähnlichen Vergleich beim Erzeugen von bildlichen Darstellungen können Apples Modelle nur teilweise bestehen: Während im Vergleich lokaler Modelle die Apple-Intelligence-Resultate noch in knapp drei Viertel aller Fälle besser oder zumindest gleichwertig der Konkurrenz erschienen, waren die Bilder von GPT-4o deutlich besser: weniger als 40 Prozent aller Apple-Bilder überzeugten die Tester im direkten Vergleich zu Grafiken aus der OpenAI-KI.
Bei der Bilderzeugung hat OpenAI derzeit die Nase deutlich vorn. (Quelle:
Apple)
Vorteil Apple: Lokal und privatIm Abschluss heben die Apple-Entwickler ihre Prinzipien hervor, mit denen sich der Konzern von der Konkurrenz absetzen will. Vier Kernaspekte der verantwortungsvollen KI habe man herausgearbeitet:
- Nutzer mit intelligenten Werkzeugen ermächtigen (sinnvolle KI-Anwendung bieten)
- Anwender repräsentieren (Reproduktion von Vorurteilen vermeiden)
- Gestaltung mit Voraussicht und Sorge (Missbrauch verhindern)
- Privatsphäre schützen (keine Erfassung und Nutzung von Anwenderdaten für KI-Training)
Um einen objektiven Vergleichstest handelt es sich bei dieser Aufstellung nicht, sie bietet vielmehr einen Einblick in die aktuelle Fortentwicklung und in die Ziele, welche sich der Konzern gesetzt hat. Die Kernaussage der Veröffentlichung: Apples Foundation-Modelle liefern zwar nicht in jedem Fall die allerbesten Resultate, aber die Antworten sind gut genug – und lassen sich sicher nutzen.