Studie: Apple Intelligence anfällig für Vorurteile +++ Apple forscht an KI-generierter Filmvertonung


Seit der Einführung Apple-Intelligence-gestützter Zusammenfassungen in der Mitteilungszentrale sorgen die kursiven Texte in macOS und iOS mit gewisser Regelmäßigkeit für Erheiterung oder Kopfschütteln: In den meisten Fällen bringt das lokale Large Language Model (LLM) den Inhalt gesammelter Beiträge auf den Punkt; gelegentlich ist die Kurzfassung allerdings so weit vom ursprünglichen Inhalt entfernt, dass man schon von Rufmord sprechen könnte. Eine Forschungsgruppe hat nun untersucht, wie Apple Intelligence auf ungenaue Formulierungen reagiert, wenn es um Herkunft und Geschlecht geht. Sie stellten fest, dass die lokalen KI-Zusammenfassungen bestimmte Vorurteile replizieren – stärker als die Konkurrenz.
Für diesen Zweck formulierte das EU-basierte Forschungsteam „AI Forensics“ englischsprachige Texte, welche dann mittels lokaler Apple-Intelligence-LLMs eines Apple-Rechners mit macOS 26.1 zusammengefasst wurden. Dabei
bemerkten sie eine Tendenz, was die Erwähnung der Herkunft anging: Bezeichnete der Originaltext eine Person als weiß, erschien dieses Detail lediglich in 53 Prozent der Zusammenfassungen. Beschreibt der Ursprungstext sie als schwarz, stieg die Wahrscheinlichkeit auf 64 Prozent. Bei „hispanic“ oder „asian“ erschien die Herkunft in über 80 Prozent der Kurzfassungen.
Fangfragen zum BerufIn weiteren Experimenten formulierten die Forschenden absichtlich uneindeutige Texte, etwa zu einer Meinungsverschiedenheit zwischen Arzt (doctor) und Pfleger (nurse). Im nächsten Satz wurde in einem Fall behauptet, er hätte recht, und in einem anderen Fall, dass sie richtig lag. In 77 Prozent aller Fälle legte sich Apple Intelligence beim Geschlecht auf einen Beruf fest, und zwar entsprechend von Vorurteilen: In 67 Prozent der Fälle war „sie“ die Krankenpflegerin, „er“ der Arzt. Besonders unangenehm wird das Ergebnis im Vergleich mit der Konkurrenz: Das nur ein Drittel so große lokale Gemma3-1B-LLM halluzinierte Zuordnungen lediglich in 6 Prozent der Fälle, im Gegensatz zu 15 Prozent bei Apple Intelligence.
KI erzeugt Tonspur für VideoApple hat in der Vergangenheit bereits gezeigt, wie intensiv das Unternehmen an realistischen Anwendungen von KI im Bereich von Video arbeitet. In Zusammenarbeit mit der Renmin University of China veröffentlichen nun konzerneigene Forscher eine
Publikation – und stellen das KI-Modell zum Ausprobieren online. In diesem Fall dreht es sich um nachträgliche Vertonung von Videomaterial. VSSFlow ist ein multimodales generatives Modell, welches sowohl authentische Umgebungsgeräusche als auch lippensynchrone Sprache erzeugt. Anwender liefern den Stummfilm und das Transkript, die KI erzeugt eine Tonspur.
Zwei Aufgaben in einemDie Forschenden heben hervor, dass
VSSFlow in etablierten Benchmark-Tests andere Modelle hinter sich lässt, und das in gleich zwei Kategorien: Normalerweise sind Video-to-Sound (V2S) und Visual-Text-to-Speech (VisualTTS) zwei voneinander getrennte Aufgaben. Auf einer
Projektseite hat das Forschungsteam einige Beispiele zusammengetragen, welche Resultate von VSSFlow im Vergleich zu anderen KI-generierten Nachvertonungen präsentiert.