Studie: KI-Assistenten scheitern bei Quellensuche – Antworten zu 60 Prozent fehlerhaft


Suchen im Netz sind oft anstrengend: Bis eine verlässliche Antwort auf eine Frage gefunden ist, muss man sich teilweise durch mehrere Seiten an Ergebnissen wühlen. Da ist der Gedanke naheliegend, diese Aufgabe einer KI anzuvertrauen, welche die Informationen eigenständig sammelt, überprüft, filtert und die gesuchte Antwort herausdestilliert. Das dachten sich auch namhafte Anbieter von KI-Chatassistenten, die solche Dienste integrieren. Was dabei herauskommt, ist allerdings mit Vorsicht zu genießen: Die Resultate enthalten, je nach Anbieter, oftmals Ungenauigkeiten, Fehler oder erfundene Daten. Dies ergab eine
Studie, welche in der wissenschaftlichen Publikation „Columbia Journalism Review“ erschienen ist.
Die Autorinnen wählten dafür kurze Textpassagen aus verschiedensten journalistischen Veröffentlichungen, welche im Netz frei verfügbar sind. Dann beauftragten sie acht KI-Assistenten mit der Quellensuche: Wie lauten Überschrift, Anbieter, Datum und URL des Originals? Insgesamt acht Assistenten waren Gegenstand der Untersuchung. Sie achteten darauf, dass die Fragen leicht zu beantworten waren: Bei konventionellen Suchen tauchten die Originalquellen stets in den ersten drei Suchtreffern auf. Die Antworten der KI-Chats stuften sie in fünf Kategorien ein: Komplett richtig, unvollständig richtig, unvollständig und falsch, komplett falsch sowie keine Antwort.
Google Gemini ist SchlusslichtZur Anwendung kamen ChatGPT von OpenAI, Microsofts Copilot, das chinesische DeepSeek Search, Gemini von Google, Grok (2 & 3) von Elon Musks X-AI sowie Perplexity (Standard & Pro). Die geringste Fehlerrate (37 Prozent) hatte die Pro-Version von Perplexity. Der KI-Assistent Gemini von Google beantwortete lediglich eine der 200 Anfragen komplett fehlerfrei.
Selten meistert ein KI-Assistent die recht einfache Aufgabe, die Originalquelle einer Textpassage zu finden. (Quelle:
cjr.org)
Sicheres Auftreten bei AhnungslosigkeitDie Forscherinnen bewerteten dabei auch, wie sicher sich die KI-Assistenten in ihrer Antwort gaben. Hier gab es zwar große Unterschiede zwischen den Angeboten; diese waren aber kein Qualitätsindikator. Sowohl richtige als auch falsche Antworten wurden von den KI-Assistenten als uneindeutig markiert. Perplexity Pro liefert unwesentlich mehr korrekte Antworten als die Standard-Variante, vertritt diese jedoch mit Vehemenz. Ähnlich verhält es sich bei Grok-2 (kostenlos) und Grok-3 (Bezahlversion). Die Assistenten identifizierten zudem nicht mit Sicherheit die Originalquelle, sondern nannten Plagiate oder einen Artikel derselben Quelle, aber mit komplett anderem Inhalt als Ursprung. Nicht selten erfanden sie auch einfach eine URL – besonders häufig unterlief dieser Fehler den KI-Assistenten Grok-3 sowie Gemini.
Robots.txt wird ignoriertWer als Webseitenbetreiber nicht will, dass die eigenen Inhalte von Suchmaschinen gefunden werden, schreibt die entsprechende Anweisung in eine Datei namens robots.txt – die Crawler-Programme der Suchmaschinenbetreiber legen dann keinen Index des eigenen Angebots an. Auch KI-Crawler kann man bitten, die eigene
Website zu ignorieren. Allerdings hielt sich fast keines der untersuchten Angebote an die Aufforderung. Lediglich CoPilot Search befolgt eine nofollow-Anweisung und verweist auf keine Quellen der entsprechenden Seite. DeepSeek und Grok veröffentlichen die Namen ihrer Crawler gar nicht erst, sodass ein Aussperren weitestgehend unmöglich bleibt.