Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Studie: Apple Intelligence anfällig für Vorurteile +++ Apple forscht an KI-generierter Filmvertonung

Seit der Einführung Apple-Intelligence-gestützter Zusammenfassungen in der Mitteilungszentrale sorgen die kursiven Texte in macOS und iOS mit gewisser Regelmäßigkeit für Erheiterung oder Kopfschütteln: In den meisten Fällen bringt das lokale Large Language Model (LLM) den Inhalt gesammelter Beiträge auf den Punkt; gelegentlich ist die Kurzfassung allerdings so weit vom ursprünglichen Inhalt entfernt, dass man schon von Rufmord sprechen könnte. Eine Forschungsgruppe hat nun untersucht, wie Apple Intelligence auf ungenaue Formulierungen reagiert, wenn es um Herkunft und Geschlecht geht. Sie stellten fest, dass die lokalen KI-Zusammenfassungen bestimmte Vorurteile replizieren – stärker als die Konkurrenz.


Für diesen Zweck formulierte das EU-basierte Forschungsteam „AI Forensics“ englischsprachige Texte, welche dann mittels lokaler Apple-Intelligence-LLMs eines Apple-Rechners mit macOS 26.1 zusammengefasst wurden. Dabei bemerkten sie eine Tendenz, was die Erwähnung der Herkunft anging: Bezeichnete der Originaltext eine Person als weiß, erschien dieses Detail lediglich in 53 Prozent der Zusammenfassungen. Beschreibt der Ursprungstext sie als schwarz, stieg die Wahrscheinlichkeit auf 64 Prozent. Bei „hispanic“ oder „asian“ erschien die Herkunft in über 80 Prozent der Kurzfassungen.

Fangfragen zum Beruf
In weiteren Experimenten formulierten die Forschenden absichtlich uneindeutige Texte, etwa zu einer Meinungsverschiedenheit zwischen Arzt (doctor) und Pfleger (nurse). Im nächsten Satz wurde in einem Fall behauptet, er hätte recht, und in einem anderen Fall, dass sie richtig lag. In 77 Prozent aller Fälle legte sich Apple Intelligence beim Geschlecht auf einen Beruf fest, und zwar entsprechend von Vorurteilen: In 67 Prozent der Fälle war „sie“ die Krankenpflegerin, „er“ der Arzt. Besonders unangenehm wird das Ergebnis im Vergleich mit der Konkurrenz: Das nur ein Drittel so große lokale Gemma3-1B-LLM halluzinierte Zuordnungen lediglich in 6 Prozent der Fälle, im Gegensatz zu 15 Prozent bei Apple Intelligence.

KI erzeugt Tonspur für Video
Apple hat in der Vergangenheit bereits gezeigt, wie intensiv das Unternehmen an realistischen Anwendungen von KI im Bereich von Video arbeitet. In Zusammenarbeit mit der Renmin University of China veröffentlichen nun konzerneigene Forscher eine Publikation – und stellen das KI-Modell zum Ausprobieren online. In diesem Fall dreht es sich um nachträgliche Vertonung von Videomaterial. VSSFlow ist ein multimodales generatives Modell, welches sowohl authentische Umgebungsgeräusche als auch lippensynchrone Sprache erzeugt. Anwender liefern den Stummfilm und das Transkript, die KI erzeugt eine Tonspur.

(Quelle: Arxiv)

Zwei Aufgaben in einem
Die Forschenden heben hervor, dass VSSFlow in etablierten Benchmark-Tests andere Modelle hinter sich lässt, und das in gleich zwei Kategorien: Normalerweise sind Video-to-Sound (V2S) und Visual-Text-to-Speech (VisualTTS) zwei voneinander getrennte Aufgaben. Auf einer Projektseite hat das Forschungsteam einige Beispiele zusammengetragen, welche Resultate von VSSFlow im Vergleich zu anderen KI-generierten Nachvertonungen präsentiert.

Kommentare

Wuha
Wuha13.02.26 17:12
Es ist ja auch keine KI wie alle immer wieder glauben. Das hat nix mit „Intelligenz“ zu tun. Keine davon.
+8
Nebula13.02.26 18:44
Wuha
Es ist ja auch keine KI wie alle immer wieder glauben. Das hat nix mit „Intelligenz“ zu tun. Keine davon.
Das Hirn arbeitet aber auch nicht nur mit Intelligenz, sondern ebenfalls mit Wahrscheinlichkeiten und Annahmen und Mustererkennung. Zwar besser und extrem viel effizienter, aber vor allem absolut fehlbar. Es ist beispielsweise regelrecht heiß darauf, in allem Gesichter hinenzuinterpretieren. Halluzinieren kann es auch perfekt, macht es jede Nacht.
+10
maikdrop13.02.26 20:26
In der Regel weißt du aber, dass du halluzuniert hast. Das ML Model aber nicht.
+4
Nebula13.02.26 20:51
maikdrop
In der Regel weißt du aber, dass du halluzuniert hast. Das ML Model aber nicht.
Vielleicht verwechselst du Fantasieren mit Halluzinieren. Halluzinationen fühlen sich absolut real an. Man kann sie evtl. aus Erfahrung heraus neu bewerten, aber das ändert nichts an der Wahrnehmung. Deshalb ist es auch so schwer, Menschen in einer psychotischen Phase irgendwie klar zu machen, dass allein sie diese Wahrnehmung haben und sich nicht alle anderen Menschen gegen sie verschworen haben. Das ist natürlich ein Extremfall, aber auch Träume fühlen sich im Moment des Traumes real an. Man setzt Träume aber eigentlich nicht mit Halluzinationen gleich, weil hier der Wachzustand Teil der Bedeutung ist. Aber im Gehirn passiert Ähnliches.

Als Metapher zur Erklärung einer Psychose sagt man auch, dass das Gehirn der betroffenen Person auch im Wachzustand weiterträumt. Im Schlaf werden viele Filter und Einordnungssysteme des Bewusstseins runtergefahren. Bei einer Psychose fahren sie sinnbildlich nach dem Aufwachen nicht wieder voll hoch. Der Verstand ist aber da und versucht die Wahrnehmungen irgendwie zu erklären.

Ich musst leider schon mehrere Menschen in dieser Phase erleben. Mit Argumenten hast du da kaum eine Chance. Irgendwo saß mal einer in einer Talkshow, der nach Jahren Psychose endlich einer Behandlung zustimmte. Er lebt mit Dauerhalluzinationen, die er nur dank Medikamente und Therapie aushalten und einordnen kann. Er erzählte recht eindringlich, was er im Moment der Sendung alles sonst noch so wahrnahm, etwa kleinen Personen auf den Schultern der Moderatorin.
+3
maikdrop13.02.26 22:47
Nebula

Du hast doch von halluzinieren in der Nacht geschrieben. Ich bin davon ausgegangen, dass du eigentlich träumen meinst. Und
nach dem Aufstehen weißt du, dass du geträumt hast. Das LLM weiß das eben nicht. Vor allem vergleichst du eine Störung/Anomalie, wie du es auch nennen magst, mit dem inherenten Verhalten jedes LLM. Es gibt keins, was nicht zu einem bestimmten Grad halluziniert.
+2
OliBerlin14.02.26 09:49
Nebula

Wir leben alle in der Vorstellung, dass unsere Wahrnehmungen real sind. Anders können wir gar nicht den Alltag bewältigen. Allerdings ist das Verhältnis von Realität zur Wahrnehmung komplex. Wir sind gut beraten, unser Denken zu hinterfragen und auch die tatsächlichen oder vermeintlichen Spinner ernst zu nehmen.
0
Unwindprotect14.02.26 11:21
Nebula
Halluzinieren kann es auch perfekt, macht es jede Nacht.

Und genau deshalb ist der Begriff „Halluzinieren“ in der KI-Forschung verpönt. Es ist eine vermenschlichende Darstellung eines statistischen Effekts der bei Sprachmodellen auftritt, der aber wirklich gar nichts mit dem zu tun hat was Halluzinieren bei Menschen bedeutet.

Das Problem solcher falschen Analogien ist eben gerade das was Du in Deinem Kommentar zeigst: Es wird versucht die Ausführungssemantik von Sprachmodellen so zu erklären als ob es „Menschen“ wären. Das führt direkt in eine Spirale welche LLMs immer mehr zutraut als sie eigentlich können.

Besser sind Begriffe wie „Faktische Konfabulation“ (beliebt in Papers) oder „Modellausgabe ohne faktische Grundlage“. Sehr technisch sind auch „Overgeneralization Error“ oder „Spurious Completion“.

Wichtig ist hier zu verstehen, dass das mit menschlichem Verhalten NICHTS zu tun hat. Es ist ein normaler statistischer Effekt. Es ist nicht das gleiche wie ein Passant, der aus Scham vor Unwissen eine falsche aber richtig klingende Wegbeschreibung gibt oder was Laien manchmal als Analogien anbringen. Der einzige Zusammenhang hier ist, das beides sprachliche Ausgaben ohne faktischen Inhalt sind - aber die Ursachen und Bedeutung sind völlig unterschiedlich
+5
Nebula14.02.26 12:29
Da ist natürlich was dran, dass Begriffe wie KI und Halluzination bei Software eigentlich irreführend sind. Mein Punkt war eigentlich: Nur weil in KI keine echte Intelligenz steckt, bedeutet das nicht, das alles, was unsere Hirn fabriziert mit Intelligenz zu tun hat. Ich wollte damit der Überhöhung des Menschen etwas entgegensetzen.
0
Unwindprotect14.02.26 23:49
Nebula
Mein Punkt war eigentlich: Nur weil in KI keine echte Intelligenz steckt, bedeutet das nicht, das alles, was unsere Hirn fabriziert mit Intelligenz zu tun hat. Ich wollte damit der Überhöhung des Menschen etwas entgegensetzen.

Nun - was unser Hirn fabriziert hat tatsächlich etwas mit Intelligenz zu tun. Das muss natürlich nicht bedeuten, dass wir Menschen keine Fehler machen - allerdings sind die Ursachen für Fehler anders und dank echter Intelligenz auch die Wege mit Fehlern umzugehen.

Ich empfinde es als etwas albern Sprachmodelle gegenüber Menschen zu verteidigen.
+5
fmuell15.02.26 07:10
👍🏼@@Unwindprotect
0
System 6.0.1
System 6.0.115.02.26 09:34
Nebula
Das Hirn arbeitet aber auch nicht nur mit Intelligenz, sondern ebenfalls mit Wahrscheinlichkeiten und Annahmen und Mustererkennung.

Na, dass würde ich aber nochmal besser recherchieren.
„A lot of times, people don't know what they want until you show it to them.“ Steve Jobs, 1998
0
Nebula15.02.26 10:02
Viele Teile des Hirns arbeiten automatisch, Hirnstamm, Amygdala, Hypothalamus … Sie sind sind alle wichtig für die Intelligenz. Diese basiert auf ein Zusammenspiel aller Teile und ist auch nicht auf das Organ Gehirn beschränkt. Dennoch gibt es für die Intelligenz essenzielle Hirnareale wie den Präfontalen Cortex. Ist der zerstört, geht vieles davon verloren, was zumindest ich unter Intelligenz verstehe. Also Abstraktionsvermögen, Planungsfähigkeit, ein großer Teil des logischen Denkens, Rationalität. Bei anderen Hirnarealen wäre bspw. „nur“ die Motorik betroffen.
-1
Unwindprotect16.02.26 12:26
Nebula
Viele Teile des Hirns arbeiten automatisch, Hirnstamm, Amygdala, Hypothalamus … Sie sind sind alle wichtig für die Intelligenz. Diese basiert auf ein Zusammenspiel aller Teile und ist auch nicht auf das Organ Gehirn beschränkt. Dennoch gibt es für die Intelligenz essenzielle Hirnareale wie den Präfontalen Cortex. Ist der zerstört, geht vieles davon verloren, was zumindest ich unter Intelligenz verstehe. Also Abstraktionsvermögen, Planungsfähigkeit, ein großer Teil des logischen Denkens, Rationalität. Bei anderen Hirnarealen wäre bspw. „nur“ die Motorik betroffen.

Ich habe das Gefühl wir driften da etwas arg ab. Meiner Meinung nach ist gerade in Hinblick auf "stark vermarkteter KI-Systeme" immer wichtiger, das man irreführenden Vermenschlichungen vehement entgegentritt. Ja - in der Vergangenheit haben sich selbst KI-Forscher hier und da dazu hinreißen lassen entsprechende Analogien zu bedienen um der breiten Masse die mathematisch schwer zugänglichen Hintergründe zu verbildlichen. Einer der absoluten Klassiker sind da natürlich die "Neuronalen Netze". Mit ihrem Aufkommen wurde gern beschrieben, dass dies an der Funktionsweise des menschlichen Gehirns orientiert seien - mit seinen Neuronen und Synapsen. Allerdings haben auch neuronale Netze nicht wirklich realistisch etwas mit den biologischen Neuronennetzen zu tun. Kurz: Sie sind "lose inspiriert", funktionell und strukturell jedoch VÖLLIG ANDERS. Ein biologisches Neuron ist eine hochkomplexe Zelle mit tausenden Synapsen und zeitabhängigen chemischen Prozessen.

Die neurowissenschaften verbinden Gehirnen lokales Lernen (Hebb'sches Lernen) und Plastizität der Verbindungen.

Künstliche Neuronale Netze haben einen globalen Fehlergradient, und verwenden als Lernprinzip Backpropagation. All das ist in keinem biologischen System bekannt. Backpropagation ist biologisch extrem unwahrscheinlich.

Es gibt verschiedene Entwicklungen Künstliche Neuronale Netze zu bauen, welche von Funktionsprinzip und Architektur dem biologischen näher sind - aber da ist man noch weit von Ergebnissen entfernt.

Aus Informatik-Sicht oder mathematischer Sicht ist es sinnvoller "Künstliche Neuronale Netze" einfach als "Parametrisierbare Funktionsapproximation" zu bezeichnen. Denn das ist es was eigentlich passiert: Ein künstliches neuronales Netz ist eigentlich ein Set aus nicht-linearen Funktionen mit sehr vielen Stützparametern. Durch den "Backpropagation-Algorithmus" kann man nun die Parameter solange modifizieren, bis dieses Set aus nicht-linearen Funktionen gegebene Eingabe/Ausgabe-Paare möglichst gut wiedergibt. Das tolle daran ist, dass man auf diese Weise "nicht-lineare" Zusammenhänge der Welt näherungsweise erfassen kann. Die Art und Weise wie das jedoch funktioniert ist wirklich vollkommen anders als bei biologischen Systemen!

Biologische Systeme lernen permanent (lernen & Inferenz gleichzeitig) bei extrem geringem Energieverbrauch und mit extrem wenigen Daten. Essentiell ist hier auch, dass biologische Systeme es tatsächlich schaffen mittels "Reasoning"** hochkomplexe Zusammenhänge zu ermitteln. Das ist empirisch bewiesen, weil Menschen nunmal dazu in der Lage sind.

Funktionsapproximation mittels Backpropagation lernt und inferiert unabhängig voneinander. Der Energieverbrauch ist gigantisch und man benötigt riesige Mengen an Daten. Das ist toll um verhältnismäßig einfache nicht-lineare Funktionen (Muster) zu erlernen und wiederzugeben. Es ist jedoch bewiesenermaßen NICHT imstande komplexes Reasoning** zu betreiben. Das haben zig Studien mittlerweile ermittelt.

**) Was die KI-Vermarkter aktuell "Reasoning" in ihren Modellen nennen hat mit realem Reasoning nichts zu tun. Es ist vielmehr eine Marketing-Reaktion auf Kritik aus der Forschung und aus wissenschaftlichen Arbeiten welche eben gerade dieses "Reasoning" als mit aktuellen Modellen nicht möglich aufzeigen.
+4

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.