KI-Zusammenfassung bei Google-Suche: Millionen Falschinformationen pro Stunde?


KI-Zusammenfassungen in Suchergebnissen werden kontrovers diskutiert: Seitenbetreiber befürchten nicht nur, dass Nutzer kaum noch auf die Suchergebnisse klicken, sondern messen dies ganz eindeutig. Anfangs waren zudem fehlerhafte oder halluzinierte Antworten
häufig. Mit Wechsel auf Version 3 des Large Language Models (LLM) Gemini stieg die Zuverlässigkeit deutlich. Eine Untersuchung der
New York Times wollte nun herausfinden, wie oft sich weiterhin Fehler in die KI-Zusammenfassungen einschleichen. Das Ergebnis: In 91 Prozent waren die Antworten frei von Fehlern.
Damit verbleiben neun Prozent, bei denen KI-Zusammenfassungen von Google falsche, fehlerhafte oder erfundene Informationen enthalten. Das klingt für LLM-Verhältnisse beeindruckend, wird jedoch dramatisch, wenn man die Beliebtheit von Google in die Gleichung integriert: Da Google jährlich über fünf Billionen Suchanfragen verarbeitet, liefe eine Fehlerrate von neun Prozent auf circa 50 Millionen fehlerhafte Zusammenfassungen pro Stunde heraus.
Hulk Hogan lebt?Die Untersuchung nutzte für die Quantifizierung einen standardisierten Fragenkatalog namens SimpleQA. Insgesamt wurden die KI-Zusammenfassungen nebst angefügter Quellen von über 4.000 Google-Suchen ausgewertet. Gefundene Beispiele fehlerhafter Informationen sind ebenso krass wie unterhaltsam: Die "Classical Music Hall of Fame" gebe es nicht, Flüsse und Daten werden verwechselt, und der Profi-Wrestler Hulk Hogan soll gar nicht gestorben sein. Auf die Frage nach dem Zeitpunkt, an dem Bob Marleys Zuhause in ein Museum umgewandelt wurde, gibt Googles KI-Zusammenfassung das Jahr 1987 an. Tatsächlich war es 1986 – der Fehler lässt sich auf widersprüchliche Informationen auf der Wikipedia-Seite zurückführen. Die beiden anderen Quellen-Links der Antwort erwähnen das Datum der Museumsgründung nicht (oder nur ungenau).
Falsche QuellenDoch auch die richtigen Antworten waren oft schwer zu überprüfen: Die bei jeder Antwort verlinkten Quellen enthielten in mehr als der Hälfte der Fälle Links zu Webseiten, welche die gesuchten Informationen gar nicht enthalten. Das könnte auch mit dem Ursprung der Quellen zusammenhängen: Facebook war die zweithäufigste verlinkte Domain, Reddit landete auf Platz vier. Beides sind Portale mit umfangreichem Datensatz, deren Wahrheitsgehalt jedoch stark schwankt.
Google stellt Studie infrageEin Sprecher des Google-Konzerns weist die Kritik zurück: Der Fragesatz SimpleQA enthalte selbst Fehler; intern arbeite man mit einem kleineren, davon abgeleiteten Test namens SimpleQA verified – ohne jedoch eigene Erfolgsraten zu nennen. Zudem seien diese Fragen kein realistisches Abbild dessen, was Nutzer an Fragen stellten. Die eigentliche Erhebung nahm Oumi vor, ein Unternehmen, welches selbst umfangreich auf KI bei der Auswertung zurückgreift. Dadurch können sich weitere Fehler in die Auswertung eingeschlichen haben. Ein weiteres Problem ist die nicht-deterministische Natur der KI-Antworten: Bei jeder KI-Antwort können unterschiedliche Antworten mit abweichenden Quellenangaben entstehen. Obendrein passt Google intern je nach Frage an, welches LLM zur Anwendung kommt. Insgesamt bleibt es dabei: Die KI-Zusammenfassung einer Suchmaschine sollte nicht als Tatsache, sondern höchstens als Startpunkt einer Recherche verstanden werden.