Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Studie: KI-Assistenten scheitern bei Quellensuche – Antworten zu 60 Prozent fehlerhaft

Suchen im Netz sind oft anstrengend: Bis eine verlässliche Antwort auf eine Frage gefunden ist, muss man sich teilweise durch mehrere Seiten an Ergebnissen wühlen. Da ist der Gedanke naheliegend, diese Aufgabe einer KI anzuvertrauen, welche die Informationen eigenständig sammelt, überprüft, filtert und die gesuchte Antwort herausdestilliert. Das dachten sich auch namhafte Anbieter von KI-Chatassistenten, die solche Dienste integrieren. Was dabei herauskommt, ist allerdings mit Vorsicht zu genießen: Die Resultate enthalten, je nach Anbieter, oftmals Ungenauigkeiten, Fehler oder erfundene Daten. Dies ergab eine Studie, welche in der wissenschaftlichen Publikation „Columbia Journalism Review“ erschienen ist.


Die Autorinnen wählten dafür kurze Textpassagen aus verschiedensten journalistischen Veröffentlichungen, welche im Netz frei verfügbar sind. Dann beauftragten sie acht KI-Assistenten mit der Quellensuche: Wie lauten Überschrift, Anbieter, Datum und URL des Originals? Insgesamt acht Assistenten waren Gegenstand der Untersuchung. Sie achteten darauf, dass die Fragen leicht zu beantworten waren: Bei konventionellen Suchen tauchten die Originalquellen stets in den ersten drei Suchtreffern auf. Die Antworten der KI-Chats stuften sie in fünf Kategorien ein: Komplett richtig, unvollständig richtig, unvollständig und falsch, komplett falsch sowie keine Antwort.

Google Gemini ist Schlusslicht
Zur Anwendung kamen ChatGPT von OpenAI, Microsofts Copilot, das chinesische DeepSeek Search, Gemini von Google, Grok (2 & 3) von Elon Musks X-AI sowie Perplexity (Standard & Pro). Die geringste Fehlerrate (37 Prozent) hatte die Pro-Version von Perplexity. Der KI-Assistent Gemini von Google beantwortete lediglich eine der 200 Anfragen komplett fehlerfrei.

Selten meistert ein KI-Assistent die recht einfache Aufgabe, die Originalquelle einer Textpassage zu finden. (Quelle: cjr.org)

Sicheres Auftreten bei Ahnungslosigkeit
Die Forscherinnen bewerteten dabei auch, wie sicher sich die KI-Assistenten in ihrer Antwort gaben. Hier gab es zwar große Unterschiede zwischen den Angeboten; diese waren aber kein Qualitätsindikator. Sowohl richtige als auch falsche Antworten wurden von den KI-Assistenten als uneindeutig markiert. Perplexity Pro liefert unwesentlich mehr korrekte Antworten als die Standard-Variante, vertritt diese jedoch mit Vehemenz. Ähnlich verhält es sich bei Grok-2 (kostenlos) und Grok-3 (Bezahlversion). Die Assistenten identifizierten zudem nicht mit Sicherheit die Originalquelle, sondern nannten Plagiate oder einen Artikel derselben Quelle, aber mit komplett anderem Inhalt als Ursprung. Nicht selten erfanden sie auch einfach eine URL – besonders häufig unterlief dieser Fehler den KI-Assistenten Grok-3 sowie Gemini.

Robots.txt wird ignoriert
Wer als Webseitenbetreiber nicht will, dass die eigenen Inhalte von Suchmaschinen gefunden werden, schreibt die entsprechende Anweisung in eine Datei namens robots.txt – die Crawler-Programme der Suchmaschinenbetreiber legen dann keinen Index des eigenen Angebots an. Auch KI-Crawler kann man bitten, die eigene Website zu ignorieren. Allerdings hielt sich fast keines der untersuchten Angebote an die Aufforderung. Lediglich CoPilot Search befolgt eine nofollow-Anweisung und verweist auf keine Quellen der entsprechenden Seite. DeepSeek und Grok veröffentlichen die Namen ihrer Crawler gar nicht erst, sodass ein Aussperren weitestgehend unmöglich bleibt.

Kommentare

frankh14.03.25 17:31
<gähn>
Wer Sprach-KI für die exakte Suche eines Textes in einem anderen Satz Texte verwendet, gehört eh mal duchgeschüttelt.
1. Nicht verstanden wie sowas arbeitet
2. Ressourcenverschwendung
-1
rafi14.03.25 18:00
@frankh: Das Vorgehen kam wohl daher, dass sich diese Angebote als Alternative zur Google-Suche selbst bewerben, das ist der Kuchen, von dem sie was abhaben wollen.
Man muss sich nur chatgpt.com anschauen.
Sie, die Anbieter, sollten sich selbst eigentlich damit zufrieden geben, dass sie ein neues Produkt anbieten, das eine Websuche (noch) nicht ersetzt.

Und ja, wenn man viel damit arbeitet, liegt es eventuell nahe, damit auch mal etwas zu suchen weils gerade in den flow passt xD
+1
eastmac
eastmac14.03.25 19:52
Da hat Apple vielleicht doch alles richtig gemacht.
0
Kehrblech14.03.25 20:01
Ich halte die Suche nach der Quelle zu einem Text auch für eine geradezu klassische KI-Anwendung in der Recherche. – Das Ergebnis ist, wie in letzter Zeit eigentlich in allen Berichten bei MTN, wenn ich mich nicht täusche, sehr ernüchternd. Wann immer es um konkretes Arbeiten geht, klappt entweder bei Apple (Stichwort: Zusammenfassungen von E-Mails etc.) oder ganz allgemein etwas nicht. Ausnahme ist vielleicht das Erschaffen von Texten, Bildern oder Videos nach Vorgaben. Wobei verschiedenen Bild-Erzeugern der Unterschied zwischen einem Langhaar- und einem Rauhaardackel oder gar einer beliebigen Hunderasse nach meinen Erfahrungen unbekannt ist.
Es wird ein Milliarden- (Billionen?-)Hype um die KI gemacht, aber an konkreten Beispielen für eine funktionierende Anwendung herrscht gleichzeitig ein krasser Mangel (Gerätesteuerung halte ich nicht für KI, sondern eher für eine konventionelle Interpretation einer mehr oder weniger guten Spracherkennung - und über so etwas habe ich schon vor 45 Jahren in unserer Schülerzeitung berichtet).
Gibt es hier jemanden, der aus seinem Arbeitsalltag Beispiele kennt, wo Ergebnisse einer KI, abgesehen von einer Endkontrolle (die es immer geben sollte), regelmäßig mehr oder weniger unkorrigiert übernommen werden können? Etwa, wenn ein Werbebrief über neue Angebote erstellt werden soll?

Ich habe nachhaltig das Gefühl, dass wir alle einer riesigen Blase aufsitzen, die erstens nichts mit Intelligenz zu tun hat (alter Hut, ich weiß) und zweitens zum gegenwärtigen Zeitpunkt nichts an praktischen Ergebnissen liefert! – Gegenbeispiele hochwillkommen!

Die hier aufgeführten Trefferquoten sind so niedrig, dass die gefundenen Quellen nur nach einer erneuten händischen Prüfung verwendet werden können (was ja immerhin schon mal was ist, wenn man sonst nicht einmal wüsste, wo man gucken soll). Und je nach Anwendungsfall werden sie das auch bleiben, bis die Treffergenauigkeit bei Werten zwischen 95 und 99,9999% liegt.
+7
Huba14.03.25 21:09
Man kann auch ohne übertriebenes KI-Marketinggeraffel gute Suchergebnisse bekommen. In diesem Zusammenhang verweise ich nochmal gerne auf DEVONagent , ein hervorragendes Suchwerkzeug, dass in mehreren Quellen gleichzeitig sucht, die Ergebnisse filtert und dann Verbindungen dazwischen herstellt
+2
frankh14.03.25 23:30
Kehrblech
Ich halte die Suche nach der Quelle zu einem Text auch für eine geradezu klassische KI-Anwendung in der Recherche.

Das ist eben der Irrtum. Zumindest wenn wie in der Studie ein exakter Textausschnitt gesucht wird. DAS ist im Kleinen mit simpelstem Code erledigt und im Großen mit sowas wie Googles Suchmaschinenalgorithmus. Volltextsuche.

Sprach-KI nimmt man, wenn die Suche sehr unscharf ist. "Finde das paper in dem es das erste Mal um Kalte Kernfusion ging."

DAFÜR ist es auch völlig legitim die KIs als Suchmaschine zu bewerben. DABEI sind sie oft besser, als Google. Da kann ich bloß "Kalte Kernfusion original paper" eingeben und kriege allerlei Webseiten während Perplexity dies liefert:
"Das ursprüngliche Paper zur kalten Kernfusion von Martin Fleischmann und Stanley Pons wurde im April 1989 als "preliminary note" im Journal of Electroanalytical Chemistry veröffentlicht.[1] Der vollständige Titel des Papers lautet "Electrochemically induced nuclear fusion of deuterium"[2].
Einige wichtige Punkte zum Original-Paper: ..."
+1
anaximander14.03.25 23:33
Ich habe bei lmarena.ai einige Modelle ausprobiert. Teilweise waren die Antworten beeindruckend gut.
0
Kehrblech15.03.25 00:10
frankh
Kehrblech
Ich halte die Suche nach der Quelle zu einem Text auch für eine geradezu klassische KI-Anwendung in der Recherche.

Das ist eben der Irrtum. Zumindest wenn wie in der Studie ein exakter Textausschnitt gesucht wird. DAS ist im Kleinen mit simpelstem Code erledigt und im Großen mit sowas wie Googles Suchmaschinenalgorithmus. Volltextsuche.

Sprach-KI nimmt man, wenn die Suche sehr unscharf ist. "Finde das paper in dem es das erste Mal um Kalte Kernfusion ging."
Eben. Ich hatte unterstellt, dass es klar ist, dass ich nicht die Fälle meine, in denen schon die klassische Suche Ergebnisse liefert.
Das Problem ist überhaupt, dass nicht sauber abgegrenzt wird oder werden kann, wo KI beginnt und wo klassisches Programmieren endet.
-1
Kehrblech15.03.25 00:11
anaximander
Ich habe bei lmarena.ai einige Modelle ausprobiert. Teilweise waren die Antworten beeindruckend gut.
Erläutere "teilweise". Erläutere "beeindruckend gut".
+2
ThorsProvoni
ThorsProvoni15.03.25 10:59
Sicheres Auftreten bei Ahnungslosigkeit

Bringt also alles mit, was ein guter Berater braucht.

Aber mal im Ernst: Die Annahme, dass jedes LLM alles gleich gut beherrscht, finde ich doch ein bisschen naiv. Zielführender ist es, unterschiedliche LLMs gezielt einzusetzen. Bei mir sieht das so aus:
  • Perplexitiy bei Internet-Recherchen
  • ChatGPT Advanced Voice Mode wenn ich unterwegs bin und eine schnelle Antwort brauche (liegt bei mir auf der Aktionstaste)
  • Claude 3.7 Sonnet Extended für Programmierung und Generierung von strukturierten Daten/XML
  • Le Chat von Mistral und Deepl für Übersetzungen
Hat dann auch den Vorteil, dass man ohne oder nur mit einem kostenpflichtigen Abo auskommt.
+5
frankh15.03.25 14:21
Kehrblech
frankh
Kehrblech
Ich halte die Suche nach der Quelle zu einem Text auch für eine geradezu klassische KI-Anwendung in der Recherche.

Das ist eben der Irrtum. Zumindest wenn wie in der Studie ein exakter Textausschnitt gesucht wird. DAS ist im Kleinen mit simpelstem Code erledigt und im Großen mit sowas wie Googles Suchmaschinenalgorithmus. Volltextsuche.

Sprach-KI nimmt man, wenn die Suche sehr unscharf ist. "Finde das paper in dem es das erste Mal um Kalte Kernfusion ging."
Eben. Ich hatte unterstellt, dass es klar ist, dass ich nicht die Fälle meine, in denen schon die klassische Suche Ergebnisse liefert.

In der Studie um die es hier geht, wurde aber genau das gemacht: "We randomly selected ten articles from each publisher, then manually selected direct excerpts from those articles for use in our queries."

Kehrblech
Das Problem ist überhaupt, dass nicht sauber abgegrenzt wird oder werden kann, wo KI beginnt und wo klassisches Programmieren endet.

Wieso? Was meinst Du?
0
Kehrblech15.03.25 15:21
frankh
Wieso? Was meinst Du?
Ich meine z.B. solche Beschwerden wie die über die mangelnde Fähigkeit von Siri Namens zu verstehen, wie sie hier vor kurzem geäußert wurde. Solch ein Problem hat jedoch nichts mit KI sondern vor allem mit der Spracherkennungssoftware und den verwendeten Mikrophonen zu tun (Spracherkennungssoftware wird zudem bereits seit den 1970er Jahren entwickelt).
0
MacStudio16.03.25 10:02
Kehrblech
Gibt es hier jemanden, der aus seinem Arbeitsalltag Beispiele kennt, wo Ergebnisse einer KI, abgesehen von einer Endkontrolle (die es immer geben sollte), regelmäßig mehr oder weniger unkorrigiert übernommen werden können? Etwa, wenn ein Werbebrief über neue Angebote erstellt werden soll?

Ja, ich. Ich stimme Dir zwar im großen und Ganzen vollumfänglich zu, aber auf der anderen Seite habe ich ein Beispiel: Ich habe meine Masterarbeit zu 100% von KI machen lassen (und das dann mit den Profs dokumentiert). Als Ergebnis gibt es zwei Magazine im Style von Stern, Geo, mit 180 Seiten. Das Ding ist zu 100% aus der KI, ich mußte natürlich mit viel Handarbeit die Ergebnisse copy&pasten, da die Systeme nicht zusammenarbeiten. Selbst der Druck, Druckoptimierung usw. wurde von Ki gemacht. Am Ende wurden 10 echte Magazine gedruckt.

https://artificial.jenserbeck.de/

Und um es noch einmal zu sagen, das ganze Ding ist auf den Mist von Ki gewachsen. Redaktion, Text, Bild, Layout, Post Production! Das Halluzinieren, kann man mit sehr aufwendigen Mega-Prompts massiv reduzieren. Allerdings ist es immer ein Glücksspiel wie viel Rechenzeit einem OpenAI & CO an dem Tag zugesehen.
Das Magazin entwickelte ChatGPT nach sehr langen Diskussionen mit mir über Advanced Voice und Advanced video.

PS: ja, das Layout ist sche**e und die Texte kac**e. Aber da sDing entstand letzten Sommer. Heute wäre das einfacher und Texte und Bilder wären qualitativ besser! Aber darum geht es ja nicht. Tatsache ist, das die KI sowas kann.
+1
Kehrblech16.03.25 10:45
MacStudio
https://artificial.jenserbeck.de/
Danke vielmals für den Link. Ich habe die Magazin noch nicht näher angeschaut, aber kurz durchgeblättert. Das gibt zumindest mal eine Vorstellung, was machbar ist bzw. vor einem Jahr war. Die Prompt bzw. Quellendoku ist auch äußerst hilfreich.
Ich hoffe, die Note war zu Deiner Zufriedenheit!
+1
MacStudio16.03.25 17:48
Danke. Eine 1.0 gab es
+1
frankh18.03.25 17:26
Gratulation! Kann man nur hoffen, dass heise oder der Spiegel das nicht mitkriegen „Student lässt Masterarbeit von KI schreiben! Note 1,0. - ‚Ich habe nicht betrogen!‘“ ))
+1
Huba18.03.25 20:30
Gerade auf Spiegel online gelesen:
Italienische Zeitung lässt gesamte Ausgabe von KI schreiben
Die italienische Tageszeitung »Il Foglio« hat erstmals eine Ausgabe mithilfe von künstlicher Intelligenz erstellt. Damit startet das Blatt ein einmonatiges Experiment, um die neue Technik »in die Praxis zu überführen«.


Du warst deiner Zeit also weit voraus!
0

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.