Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

KI-Zusammenfassung bei Google-Suche: Millionen Falschinformationen pro Stunde?

KI-Zusammenfassungen in Suchergebnissen werden kontrovers diskutiert: Seitenbetreiber befürchten nicht nur, dass Nutzer kaum noch auf die Suchergebnisse klicken, sondern messen dies ganz eindeutig. Anfangs waren zudem fehlerhafte oder halluzinierte Antworten häufig. Mit Wechsel auf Version 3 des Large Language Models (LLM) Gemini stieg die Zuverlässigkeit deutlich. Eine Untersuchung der New York Times wollte nun herausfinden, wie oft sich weiterhin Fehler in die KI-Zusammenfassungen einschleichen. Das Ergebnis: In 91 Prozent waren die Antworten frei von Fehlern.


Damit verbleiben neun Prozent, bei denen KI-Zusammenfassungen von Google falsche, fehlerhafte oder erfundene Informationen enthalten. Das klingt für LLM-Verhältnisse beeindruckend, wird jedoch dramatisch, wenn man die Beliebtheit von Google in die Gleichung integriert: Da Google jährlich über fünf Billionen Suchanfragen verarbeitet, liefe eine Fehlerrate von neun Prozent auf circa 50 Millionen fehlerhafte Zusammenfassungen pro Stunde heraus.

Hulk Hogan lebt?
Die Untersuchung nutzte für die Quantifizierung einen standardisierten Fragenkatalog namens SimpleQA. Insgesamt wurden die KI-Zusammenfassungen nebst angefügter Quellen von über 4.000 Google-Suchen ausgewertet. Gefundene Beispiele fehlerhafter Informationen sind ebenso krass wie unterhaltsam: Die "Classical Music Hall of Fame" gebe es nicht, Flüsse und Daten werden verwechselt, und der Profi-Wrestler Hulk Hogan soll gar nicht gestorben sein. Auf die Frage nach dem Zeitpunkt, an dem Bob Marleys Zuhause in ein Museum umgewandelt wurde, gibt Googles KI-Zusammenfassung das Jahr 1987 an. Tatsächlich war es 1986 – der Fehler lässt sich auf widersprüchliche Informationen auf der Wikipedia-Seite zurückführen. Die beiden anderen Quellen-Links der Antwort erwähnen das Datum der Museumsgründung nicht (oder nur ungenau).

Falsche Quellen
Doch auch die richtigen Antworten waren oft schwer zu überprüfen: Die bei jeder Antwort verlinkten Quellen enthielten in mehr als der Hälfte der Fälle Links zu Webseiten, welche die gesuchten Informationen gar nicht enthalten. Das könnte auch mit dem Ursprung der Quellen zusammenhängen: Facebook war die zweithäufigste verlinkte Domain, Reddit landete auf Platz vier. Beides sind Portale mit umfangreichem Datensatz, deren Wahrheitsgehalt jedoch stark schwankt.

Google stellt Studie infrage
Ein Sprecher des Google-Konzerns weist die Kritik zurück: Der Fragesatz SimpleQA enthalte selbst Fehler; intern arbeite man mit einem kleineren, davon abgeleiteten Test namens SimpleQA verified – ohne jedoch eigene Erfolgsraten zu nennen. Zudem seien diese Fragen kein realistisches Abbild dessen, was Nutzer an Fragen stellten. Die eigentliche Erhebung nahm Oumi vor, ein Unternehmen, welches selbst umfangreich auf KI bei der Auswertung zurückgreift. Dadurch können sich weitere Fehler in die Auswertung eingeschlichen haben. Ein weiteres Problem ist die nicht-deterministische Natur der KI-Antworten: Bei jeder KI-Antwort können unterschiedliche Antworten mit abweichenden Quellenangaben entstehen. Obendrein passt Google intern je nach Frage an, welches LLM zur Anwendung kommt. Insgesamt bleibt es dabei: Die KI-Zusammenfassung einer Suchmaschine sollte nicht als Tatsache, sondern höchstens als Startpunkt einer Recherche verstanden werden.

Kommentare

MacForAll10.04.26 17:43
Große Zahlen in englischen/US-amerikanischen Texten wörtlich zu übersetzen birgt Gefahren.
Englisch billions ist ungleich Deutsch Billionen.
-2
Huba10.04.26 18:31
Die automatische Zusammenfassungen von Google Suchmaschinenergebnissen gehört zum Hasrsträubensten, was mir bei meinem Webrecherchen bisher unterkommt. Das mag an meinen Suchthemen liegen — höhlt aber mein Vertrauen in KI-Ergebnissen beständig aus.
+1
Frost10.04.26 18:43
Huba
höhlt aber mein Vertrauen in KI-Ergebnissen beständig aus.

Das Problem ist das Google da ganz sicher ein extrem schlankes Gemini Modell fuer verwendet. Die Zusammenfassung muss ja extrem schnell gehen, man moechte ja nicht Minuten auf die Antwort einer Google Suche warten.
Aber was noch viel wichtiger ist, die Antwort darf Google ja so gut wie nichts kosten, sonst rechnet sich das ja nicht. Also darf das Modell nicht viel Energie bei der Erstellung der Antwort umsetzen, denn die umgesetzte Energie ist fast 1:1 das was bei AI die Betriebskosten verursacht.
Daher gilt hier eigentlich noch mehr wie schon im Rest vom Internet, was nichts kostet das taugt auch nicht viel, denn niemand hat etwas zu verschenken.
0
milk
milk10.04.26 18:48
Wie schon bei jeder normalen Websuche ist hier auch zu bedenken, dass die KI nur dann etwas sinnvoll zusammenfassen kann, wenn die Suche einigermaßen präzise ist. Je unpräziser desto größer die Chance von Halluzinationen.

Und wenn ich dann sehe, mit was für dämlichen Suchprompts selbst studierte Leute daherkommen, dann leuchtet mir so einiges ein.
0

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.