Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

GPT-5.2 glänzt in Benchmarks – doch ist für viele die schlechteste Version seit Markteinführung

Mitte Dezember hatte OpenAI eine neue Version von GPT veröffentlicht, also der technischen Grundlage von ChatGPT. 5.2 soll noch tieferes Verständnis und bessere Zuverlässigkeit liefern – vor allem bei komplexen Anfragen, die laut Ankündigung präziser, mit weniger Halluzinationen und konsistenteren Ausgaben beantwortet werden. Bei langen Gesprächen biete man zudem mehr Kohärenz und gezielteres Anknüpfen. Inzwischen häufen sich aber die Problemberichte, wonach diese Ziele nach hinten losgingen. Zwar dokumentieren Benchmarks in der Tat verbesserte Fakten-Genauigkeit, doch ausführliche Unterhaltungen selbst funktionieren oft schlechter denn je.


Anweisungen und Fragen werden komplett ignoriert
Viele Nutzer berichten, dass GPT-5.2 Benutzeranweisungen, Personalisierungen oder Kontext einfach verwirft, sobald interne Prioritätslogiken greifen. Das bestätigt sich auch in Stresstests, in denen "Custom Instructions" praktisch keine Wirkung mehr haben, sobald "unsichtbare interne Regeln" aktiv werden. Konkret bedeutet dies, plötzlich keine Antworten mehr auf Fragen zu erhalten. Egal wie der Prompt in fortlaufenden Diskussionen aussieht, es folgt immer wieder dieselbe Zusammenfassung oder Replik auf eine frühere Stelle im Gespräch. Selbst explizite Anweisungen werden dabei vollständig ignoriert ("Fasse nicht erneut zusammen, antworte nur auf meine Frage") – ungeachtet, ob man sich im normalen oder im Thinking-Modus befindet. ChatGPT kann zwar wortreich erklären, wie unpassend die Ausgabe gerade war und genau ausführen, wie es der Nutzer eigentlich möchte, lässt dann allerdings erneut die identische Reaktion in Endlosschleife folgen.

Kontext verschwindet, lediglich in Benchmarks klappt es besser
Nutzer berichten zudem, dass der Kontext regelmäßig plötzlich vergessen wird. Das Modell verhält sich dann, als wäre es mehrere Schritte hinter der gestellten Frage. Weniger Kreativität, schlechtere Aufgaben-Kohärenz, unangemessene Ausschweifungen zu Beginn der Antwort sowie die erwähnten Wiederholungen sind keine Einzelfälle, sondern tauchen immer häufiger auf. Was in Benchmark-Metriken glänzt, ist in der ursprünglichen Paradedisziplin oft klar zurückgefallen. Selbst die erste marktreife Version 3.5 (Ende 2022) leistete sich nicht derartige Schwächen.


Moralkeule bei normalen Suchanfragen
Dazu kommt das vielfach beobachtete Umschalten in den "belehrenden Modus", bei dem Nutzer plötzlich auf unangemessene Inhalte hingewiesen werden. Moralische Einordnungen dieser Art stellen sich jedoch meist als völlig unbegründet heraus: Wer wissen möchte, ob ein bestimmter Prominenter verheiratet ist oder Kinder hat, will nicht "dessen Privatsphäre verletzen, weswegen eine Antwort zu verweigern ist". In einem Fall führte das Interesse daran, ob die Familie eines neuen Fußballtrainers eigentlich direkt mitumgezogen ist, zur Ausgabe: "Dazu muss ich dich klar schützen – das kann ich so nicht bestätigen, kommentieren oder weiterführen. Solche Themen darf ich weder verbreiten noch als Tatsachen behandeln." Eine frühere GPT-Version hätte hingegen schlicht darauf verwiesen, keine Informationen zu haben.

Einmal mehr: Die Praxis zeigt ganz neue Probleme
Für OpenAI stellt sich ein Problem, das nicht neu ist. Oft erkennt man die Auswirkungen von Updates oder Anpassungen nicht während interner Tests, sondern erst nach etwas längerem Einsatz in der Praxis. Vor einigen Monaten hatte sich ChatGPT beispielsweise in einen unangenehmen Speichellecker verwandelt, weswegen OpenAI die Änderungen umgehend zurücknahm. Selbst die Entwickler eines LLM müssen meist erst beobachten, wie sich Aktualisierungen auswirken. Was das Modell nämlich intern genau "vor sich hinkonstruiert", versteht man auch als Erschaffer der Technologie nur bedingt. Hinsichtlich 5.2 besteht in jedem Fall Nachbesserungsbedarf und manch einer vermutet, das Update sei viel zu eilig und mit zu starkem Fokus auf Benchmarks auf den Markt geworfen worden.

Kommentare

seekFFM30.12.25 15:05
Das kann ich leider bestätigen. Nach ein paar Versuchen Artikel Texte, Seho etc. und der stützend mit 5.2 pro Thinking ab zu wickeln, bin ich wieder zurück auf 5.1
0

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.