Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

KI-Zusammenfassung bei Google-Suche: Millionen Falschinformationen pro Stunde?

KI-Zusammenfassungen in Suchergebnissen werden kontrovers diskutiert: Seitenbetreiber befürchten nicht nur, dass Nutzer kaum noch auf die Suchergebnisse klicken, sondern messen dies ganz eindeutig. Anfangs waren zudem fehlerhafte oder halluzinierte Antworten häufig. Mit Wechsel auf Version 3 des Large Language Models (LLM) Gemini stieg die Zuverlässigkeit deutlich. Eine Untersuchung der New York Times wollte nun herausfinden, wie oft sich weiterhin Fehler in die KI-Zusammenfassungen einschleichen. Das Ergebnis: In 91 Prozent waren die Antworten frei von Fehlern.


Damit verbleiben neun Prozent, bei denen KI-Zusammenfassungen von Google falsche, fehlerhafte oder erfundene Informationen enthalten. Das klingt für LLM-Verhältnisse beeindruckend, wird jedoch dramatisch, wenn man die Beliebtheit von Google in die Gleichung integriert: Da Google jährlich über fünf Billionen Suchanfragen verarbeitet, liefe eine Fehlerrate von neun Prozent auf circa 50 Millionen fehlerhafte Zusammenfassungen pro Stunde heraus.

Hulk Hogan lebt?
Die Untersuchung nutzte für die Quantifizierung einen standardisierten Fragenkatalog namens SimpleQA. Insgesamt wurden die KI-Zusammenfassungen nebst angefügter Quellen von über 4.000 Google-Suchen ausgewertet. Gefundene Beispiele fehlerhafter Informationen sind ebenso krass wie unterhaltsam: Die "Classical Music Hall of Fame" gebe es nicht, Flüsse und Daten werden verwechselt, und der Profi-Wrestler Hulk Hogan soll gar nicht gestorben sein. Auf die Frage nach dem Zeitpunkt, an dem Bob Marleys Zuhause in ein Museum umgewandelt wurde, gibt Googles KI-Zusammenfassung das Jahr 1987 an. Tatsächlich war es 1986 – der Fehler lässt sich auf widersprüchliche Informationen auf der Wikipedia-Seite zurückführen. Die beiden anderen Quellen-Links der Antwort erwähnen das Datum der Museumsgründung nicht (oder nur ungenau).

Falsche Quellen
Doch auch die richtigen Antworten waren oft schwer zu überprüfen: Die bei jeder Antwort verlinkten Quellen enthielten in mehr als der Hälfte der Fälle Links zu Webseiten, welche die gesuchten Informationen gar nicht enthalten. Das könnte auch mit dem Ursprung der Quellen zusammenhängen: Facebook war die zweithäufigste verlinkte Domain, Reddit landete auf Platz vier. Beides sind Portale mit umfangreichem Datensatz, deren Wahrheitsgehalt jedoch stark schwankt.

Google stellt Studie infrage
Ein Sprecher des Google-Konzerns weist die Kritik zurück: Der Fragesatz SimpleQA enthalte selbst Fehler; intern arbeite man mit einem kleineren, davon abgeleiteten Test namens SimpleQA verified – ohne jedoch eigene Erfolgsraten zu nennen. Zudem seien diese Fragen kein realistisches Abbild dessen, was Nutzer an Fragen stellten. Die eigentliche Erhebung nahm Oumi vor, ein Unternehmen, welches selbst umfangreich auf KI bei der Auswertung zurückgreift. Dadurch können sich weitere Fehler in die Auswertung eingeschlichen haben. Ein weiteres Problem ist die nicht-deterministische Natur der KI-Antworten: Bei jeder KI-Antwort können unterschiedliche Antworten mit abweichenden Quellenangaben entstehen. Obendrein passt Google intern je nach Frage an, welches LLM zur Anwendung kommt. Insgesamt bleibt es dabei: Die KI-Zusammenfassung einer Suchmaschine sollte nicht als Tatsache, sondern höchstens als Startpunkt einer Recherche verstanden werden.

Kommentare

MacForAll10.04.26 17:43
Große Zahlen in englischen/US-amerikanischen Texten wörtlich zu übersetzen birgt Gefahren.
Englisch billions ist ungleich Deutsch Billionen.
-4
Huba10.04.26 18:31
Die automatische Zusammenfassungen von Google Suchmaschinenergebnissen gehört zum Hasrsträubensten, was mir bei meinem Webrecherchen bisher unterkommt. Das mag an meinen Suchthemen liegen — höhlt aber mein Vertrauen in KI-Ergebnissen beständig aus.
+11
Frost10.04.26 18:43
Huba
höhlt aber mein Vertrauen in KI-Ergebnissen beständig aus.

Das Problem ist das Google da ganz sicher ein extrem schlankes Gemini Modell fuer verwendet. Die Zusammenfassung muss ja extrem schnell gehen, man moechte ja nicht Minuten auf die Antwort einer Google Suche warten.
Aber was noch viel wichtiger ist, die Antwort darf Google ja so gut wie nichts kosten, sonst rechnet sich das ja nicht. Also darf das Modell nicht viel Energie bei der Erstellung der Antwort umsetzen, denn die umgesetzte Energie ist fast 1:1 das was bei AI die Betriebskosten verursacht.
Daher gilt hier eigentlich noch mehr wie schon im Rest vom Internet, was nichts kostet das taugt auch nicht viel, denn niemand hat etwas zu verschenken.
+9
milk
milk10.04.26 18:48
Wie schon bei jeder normalen Websuche ist hier auch zu bedenken, dass die KI nur dann etwas sinnvoll zusammenfassen kann, wenn die Suche einigermaßen präzise ist. Je unpräziser desto größer die Chance von Halluzinationen.

Und wenn ich dann sehe, mit was für dämlichen Suchprompts selbst studierte Leute daherkommen, dann leuchtet mir so einiges ein.
+4
immo_j
immo_j10.04.26 19:44
MacForAll
Große Zahlen in englischen/US-amerikanischen Texten wörtlich zu übersetzen birgt Gefahren.
Englisch billions ist ungleich Deutsch Billionen.
Die Stelle im Original: "But with Google processing more than five trillion searches a year, this means that it provides tens of millions of erroneous answers every hour […]"
+12
Marcel Bresink10.04.26 20:37
Frost
was nichts kostet das taugt auch nicht viel

Naja, aber KI, die etwas kostet, taugt eigentlich auch nichts, falls sie LLM-basiert ist. Das wird durch Studien immer und immer wieder bestätigt. Es gibt auch keinen wissenschaftlichen Beleg, dass das in Zukunft besser werden könnte. Diese Art der KI ist für die meisten Anwendungen grundsätzlich unbrauchbar. Es funktionieren nur eng begrenzte Teilbereiche, die mit reiner Symbolverarbeitung abgehandelt werden können, z.B. Rohübersetzungen von Sachtexten.
milk
[...] wenn die Suche einigermaßen präzise ist. Je unpräziser desto größer die Chance von Halluzinationen.

Da gibt es eigentlich wenig Zusammenhänge und die deuten eher auf das Gegenteil: Je unschärfer die Anfrage gestellt ist, desto weniger Qualität kann man in der Antwort erwarten, je präziser die Frage ist, desto offensichtlicher kann man Fehler nachweisen.

Grundsätzlich verstehen LLM-basierte KIs weder die Frage noch ihre eigene Antwort. Die Antwort ist lediglich die wahrscheinlichste Abfolge von Worten, wie andere Texte, die die KI mal gesehen hat, den Anfragetext fortsetzen würden.
+11
Frost10.04.26 20:48
Marcel Bresink
Naja, aber KI, die etwas kostet, taugt eigentlich auch nichts, falls sie LLM-basiert ist. Das wird durch Studien immer und immer wieder bestätigt.

Es ist mir egal ob die etwas taugt oder nicht, die AI uebernimmt aber inzwischen einen Grossteil meiner Arbeit, ich habe mich da eher auf die Rolle des Trainers am Spielfeldrand verlegt, also taugt die fuer mich auf jeden Fall.
Wenn Du der Meinung bist das AI nichts taugt, dann sei dies Dir unbenommen.
+3
sudoRinger
sudoRinger10.04.26 20:59
Manche waren auch schon vor Artemis II hinterm Mond
(FAZ)
Anthropic Mythos hat einen 27 Jahre alten BSD Fehler gefunden und tausende weitere Sicherheitslücken in anderen Systemen.
+4
kofel10.04.26 21:07
sudoRinger
Manche waren auch schon vor Artemis II hinterm Mond
(FAZ)
Anthropic Mythos hat einen 27 Jahre alten BSD Fehler gefunden und tausende weitere Sicherheitslücken in anderen Systemen.
Ich verwende für Fragen, wo ich sonst manuell recherchiert habe auch Claude (die kostenlose Version Sonnet 4.6).
Damit bin ich sehr zufrieden. Die Antworten haben für mich bisher Sinn gemacht.
+6
Tech Berater10.04.26 21:34
ich habe Gemini eine Zeit lang genutzt, um Hörspiel Skripte zu analysieren. Diese KI ist eine echte Katastrophe. Die einfachsten Zusammenhänge werden durcheinander gebracht und am Ende halluziniert das Teil wie ein betrunkener Teenager. Mittlerweile nutze ich Claude, und das läuft bedeutend besser.
+5
Marcel Bresink11.04.26 00:21
Frost
Wenn Du der Meinung bist das AI nichts taugt, dann sei dies Dir unbenommen.

Der Meinung bin ich nicht. Du solltest meinen Beitrag genau lesen.
Frost
die AI uebernimmt aber inzwischen einen Grossteil meiner Arbeit,

Aktuelle Studien weisen nach, dass dadurch Fähigkeiten zum Textverständnis deutlich nachlassen.
sudoRinger
Anthropic Mythos hat einen 27 Jahre alten BSD Fehler gefunden und tausende weitere Sicherheitslücken in anderen Systemen.

Die Nachricht ist inzwischen schon wieder alt, aber sie gehört zu den angesprochenen Nischenthemen, die sich gut mit Symbolverarbeitung erledigen lassen. Solche Erfolgsmeldungen der Hersteller sind grundsätzlich mit Vorsicht zu genießen. In der Vergangenheit hat sich Vieles bei genauerer Prüfung als aufgebauscht oder sogar als Schwindel herausgestellt.
+5
Enterprise
Enterprise11.04.26 00:35
Google mag / traue ich auch nicht wirklich.
Was haltet ihr von Perplexity?
Bei allgemeiner Recherche finde ich die eigentlich meistens sehr gut.
Oder was könnt ihr empfehlen?
Man muss erst einmal das Unmögliche abgrenzen. In dem, was dann noch da ist, sei's auch noch so unwahrscheinlich, muss die Wahrheit stecken
0
CommodoreVC2011.04.26 09:15
Um zu einem Thema erst einmal eine rudimentäre Antwort zu erhalten, ist die KI-Zusammenfassung ist die meistens präzise genug, wobei es auf das Thema selbst auch etwas ankommt. Würde man beispielsweise nach dem besten Pizzarezept fragen, würde man mit Sicherheit eine unbefriedigende Antwort bekommen. Ebenso werden die Antworten meistens immer weniger zufriedenstellend, wenn man immer tiefer in das jeweilige Thema vordringt.
Man muss aber bedenken, die KI-Antworten können nur so gut sein, wie das ursprüngliche Ausgangsmaterial auf das sie zurückgreifen.
Ein Beispiel dazu, in meiner Schulzeit (rund 40 Jahre her) habe ich gelernt, dass der Chirurg Robert Liston bei einer Operation seinem Assistenten versehentlich drei Finger abgesägt hat. Schaut man auf diversen Internetseiten, so erhält man aber widersprüchliche Antworten, mal liest man, es wäre ein Finger gewesen, mal waren es dann zumindest zwei Finger. Wie soll die KI da eine korrekte Antwort generieren?
+4
Marcel Bresink11.04.26 10:09
CommodoreVC20
Man muss aber bedenken, die KI-Antworten können nur so gut sein, wie das ursprüngliche Ausgangsmaterial auf das sie zurückgreifen.

Das ist schon zu weit gedacht. Du gehst hier bereits davon aus, eine LLM-basierte KI könnte Fakten verstehen. Das ist aber nicht der Fall. Diese Art von KI reiht Worte aneinander, bei denen die höchste Wahrscheinlichkeit besteht, dass sie den gegebenen Text fortsetzen könnten. Menschen interpretieren das dann gerne als scheinbar "intelligente" Antwort.
Enterprise
Was haltet ihr von Perplexity?

Perplexity ist im Moment Ziel einer Sammelklage. Es besteht der Verdacht, dass alle Anfragen mutmaßlich an Google, Meta und bestimmte Werbe-Tracker weitergeleitet werden und dass der angeblich anonyme "Inkognito-Modus" keine Wirkung hat.
+4
timp
timp11.04.26 10:37
CommodoreVC20
Schaut man auf diversen Internetseiten, so erhält man aber widersprüchliche Antworten, mal liest man, es wäre ein Finger gewesen, mal waren es dann zumindest zwei Finger. Wie soll die KI da eine korrekte Antwort generieren?
Das ist ja genau der Punkt. KI macht doof. Beim "Googeln" erscheint an prominenter Stelle ein Text, der im Brustton der Überzeugung potenzielle Falschinformationen postuliert. Das Kleingedruckte liest keiner, und die Masse begnügt sich mit der schnellen aber unpräzisen aber evtl. falschen Antwort. Du kennst sicher auch Menschen in deinem Umfeld, die KI als Faktenchecker benutzen - mir sträuben sich da jedes Mal die Nackenhaare...
Never argue with an idiot. He'll bring you down to his level and then beats you with experience.
+2
Sitox
Sitox11.04.26 10:39
Marcel Bresink
CommodoreVC20
Man muss aber bedenken, die KI-Antworten können nur so gut sein, wie das ursprüngliche Ausgangsmaterial auf das sie zurückgreifen.

Das ist schon zu weit gedacht. Du gehst hier bereits davon aus, eine LLM-basierte KI könnte Fakten verstehen. Das ist aber nicht der Fall. Diese Art von KI reiht Worte aneinander, bei denen die höchste Wahrscheinlichkeit besteht, dass sie den gegebenen Text fortsetzen könnten. Menschen interpretieren das dann gerne als scheinbar "intelligente" Antwort.
Die höchste Wahrscheinlichkeit wird trotzdem vom Ausgangsmaterial bestimmt. Ein im 16. Jahrhundert erfundenes LLM hätte vermutlich ein geozentrische Weltbild ausgeworfen. KI-Antworten verbreiten also (bestenfalls) einen kollektiven Konsens.
Ein Fakt wird hier zur höchsten statistischen Plausibilität. Hat halt nix mit Kausalität oder Intention zu tun. Ich find's trotzdem großartig, hilfreich und unverzichtbar.
0
globalls
globalls11.04.26 11:18
Marcel Bresink
Enterprise
Was haltet ihr von Perplexity?

Perplexity ist im Moment Ziel einer Sammelklage. Es besteht der Verdacht, dass alle Anfragen mutmaßlich an Google, Meta und bestimmte Werbe-Tracker weitergeleitet werden und dass der angeblich anonyme "Inkognito-Modus" keine Wirkung hat.
magst du bitte die quelle nennen? Diese Sammelklage ist mir neu, und ich verwende Perplexitiy Pro. Und auch chatgpt als Teamsmodell, also Bezahlmodell. Außer Textverbeserungen und Vergleich brauch ich den ganzen Schmarrn nicht und steh sehr skeptisch dem ganzen gegenüber. Da frag ich schon, wofür ich eigentlich Geld bezahle, wenn der Output dann trotzdem nochmal kontrolliert werden muß.
Wofür braucht man dann das Ganze…?
Muss ich denn alles selber machen?
+1
Marcel Bresink11.04.26 11:25
Sitox
Die höchste Wahrscheinlichkeit wird trotzdem vom Ausgangsmaterial bestimmt.

Ja, das ist natürlich richtig. Die Antwort wird vom Durchschnitt der publizierten Meinungen bestimmt.
globalls
magst du bitte die quelle nennen?

Die Originalquelle ist das Bezirksgericht Nordkalifornien in San Francisco, Aktenzeichen 3:26-cv-02803 "John Doe gegen Perplexity AI Inc.".
+5
teorema67
teorema6711.04.26 13:15
Also mal ehrlich: die real existierenden KIs sind grottenschlecht. Sie haben kein echtes Textverständnis, können nicht abwägen oder auch nur überdenken, ob etwas plausibel ist oder nicht, und keine autonomen Entscheidungen treffen. Ich verwende sie trotzdem ständig, aber immer nur als Anregung für Infos zu Sachverhalten, die ich anschließend mit anderen Mitteln überprüfen muss 😏
0
sudoRinger
sudoRinger11.04.26 16:39
Marcel Bresink
sudoRinger
Anthropic Mythos hat einen 27 Jahre alten BSD Fehler gefunden und tausende weitere Sicherheitslücken in anderen Systemen.
Die Nachricht ist inzwischen schon wieder alt, aber ...
Für einen Nachrichten-Junkie mag das schon alt sein. Aber gestern war die Mitteilung von Anthropic erst 3 Tage alt
0
Tech Berater11.04.26 17:14
teorema67
Also mal ehrlich: die real existierenden KIs sind grottenschlecht. Sie haben kein echtes Textverständnis, können nicht abwägen oder auch nur überdenken, ob etwas plausibel ist oder nicht, und keine autonomen Entscheidungen treffen. Ich verwende sie trotzdem ständig, aber immer nur als Anregung für Infos zu Sachverhalten, die ich anschließend mit anderen Mitteln überprüfen muss 😏
also, im Falle von Claude muss ich dir da wirklich widersprechen. Lasst mal einen deine Texte von Claude analysieren. Die Ergebnisse sind wirklich gut. Das kann man von Gemini leider nicht sagen.
-1
Legoman
Legoman13.04.26 09:36


Hausarbeit Controlling. Habe ein paar Probleme mit dem Deckungsbeiträgen gehabt und google befragt.
Mir ist fast das Hirn geplatzt, weil ich die Berechnungen einfach nicht nachvollziehen konnte (nachdem ich dann mal kapiert hatte, wie es funktioniert).
War aber auch kein Wunder: Das Ergebnis der Rechnung ist 25 und nicht 75.
Danke Google!

(Und auch hier zeigte sich ein weiteres Grundproblem mit den KI-Ergebnissen: Der Link führt faktisch niemals zur tatsächlichen Quelle der "Information".)
0

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.