GPT-5.2 glänzt in Benchmarks – doch ist für viele die schlechteste Version seit Markteinführung

Mitte Dezember hatte OpenAI eine neue Version von GPT veröffentlicht, also der technischen Grundlage von ChatGPT. 5.2 soll noch tieferes Verständnis und bessere Zuverlässigkeit liefern – vor allem bei komplexen Anfragen, die laut Ankündigung präziser, mit weniger Halluzinationen und konsistenteren Ausgaben beantwortet werden. Bei langen Gesprächen biete man zudem mehr Kohärenz und gezielteres Anknüpfen. Inzwischen häufen sich aber die Problemberichte, wonach diese Ziele nach hinten losgingen. Zwar dokumentieren Benchmarks in der Tat verbesserte Fakten-Genauigkeit, doch ausführliche Unterhaltungen selbst funktionieren oft schlechter denn je.

Anweisungen und Fragen werden komplett ignoriert
Viele Nutzer berichten, dass GPT-5.2 Benutzeranweisungen, Personalisierungen oder Kontext einfach verwirft, sobald interne Prioritätslogiken greifen. Das bestätigt sich auch in Stresstests, in denen "Custom Instructions" praktisch keine Wirkung mehr haben, sobald "unsichtbare interne Regeln" aktiv werden. Konkret bedeutet dies, plötzlich keine Antworten mehr auf Fragen zu erhalten. Egal wie der Prompt in fortlaufenden Diskussionen aussieht, es folgt immer wieder dieselbe Zusammenfassung oder Replik auf eine frühere Stelle im Gespräch. Selbst explizite Anweisungen werden dabei vollständig ignoriert ("Fasse nicht erneut zusammen, antworte nur auf meine Frage") – ungeachtet, ob man sich im normalen oder im Thinking-Modus befindet. ChatGPT kann zwar wortreich erklären, wie unpassend die Ausgabe gerade war und genau ausführen, wie es der Nutzer eigentlich möchte, lässt dann allerdings erneut die identische Reaktion in Endlosschleife folgen.

Kontext verschwindet, lediglich in Benchmarks klappt es besser
Nutzer berichten zudem, dass der Kontext regelmäßig plötzlich vergessen wird. Das Modell verhält sich dann, als wäre es mehrere Schritte hinter der gestellten Frage. Weniger Kreativität, schlechtere Aufgaben-Kohärenz, unangemessene Ausschweifungen zu Beginn der Antwort sowie die erwähnten Wiederholungen sind keine Einzelfälle, sondern tauchen immer häufiger auf. Was in Benchmark-Metriken glänzt, ist in der ursprünglichen Paradedisziplin oft klar zurückgefallen. Selbst die erste marktreife Version 3.5 (Ende 2022) leistete sich nicht derartige Schwächen.

Moralkeule bei normalen Suchanfragen
Dazu kommt das vielfach beobachtete Umschalten in den "belehrenden Modus", bei dem Nutzer plötzlich auf unangemessene Inhalte hingewiesen werden. Moralische Einordnungen dieser Art stellen sich jedoch meist als völlig unbegründet heraus: Wer wissen möchte, ob ein bestimmter Prominenter verheiratet ist oder Kinder hat, will nicht "dessen Privatsphäre verletzen, weswegen eine Antwort zu verweigern ist". In einem Fall führte das Interesse daran, ob die Familie eines neuen Fußballtrainers eigentlich direkt mitumgezogen ist, zur Ausgabe: "Dazu muss ich dich klar schützen – das kann ich so nicht bestätigen, kommentieren oder weiterführen. Solche Themen darf ich weder verbreiten noch als Tatsachen behandeln." Eine frühere GPT-Version hätte hingegen schlicht darauf verwiesen, keine Informationen zu haben.

Einmal mehr: Die Praxis zeigt ganz neue Probleme
Für OpenAI stellt sich ein Problem, das nicht neu ist. Oft erkennt man die Auswirkungen von Updates oder Anpassungen nicht während interner Tests, sondern erst nach etwas längerem Einsatz in der Praxis. Vor einigen Monaten hatte sich ChatGPT beispielsweise in einen unangenehmen Speichellecker verwandelt, weswegen OpenAI die Änderungen umgehend zurücknahm. Selbst die Entwickler eines LLM müssen meist erst beobachten, wie sich Aktualisierungen auswirken. Was das Modell nämlich intern genau "vor sich hinkonstruiert", versteht man auch als Erschaffer der Technologie nur bedingt. Hinsichtlich 5.2 besteht in jedem Fall Nachbesserungsbedarf und manch einer vermutet, das Update sei viel zu eilig und mit zu starkem Fokus auf Benchmarks auf den Markt geworfen worden.

Kommentare

seekFFM30.12.25 15:05

Das kann ich leider bestätigen. Nach ein paar Versuchen Artikel Texte, Seho etc. und der stützend mit 5.2 pro Thinking ab zu wickeln, bin ich wieder zurück auf 5.1

-2

seekFFM30.12.25 16:25

Ok. Siri ist wohl die kleine Schwester von GPT wenn ich das so lese 😂😂😂🙈🤖@@seekFFM

Fenvarien30.12.25 16:37

seekFFM Allerdings hast du bewiesen, dass deine Beiträge nicht per KI generiert werden (nimmt man GPT-5-2 einmal aus!)

Up the Villa!

mainufer31.12.25 09:33

Das stimmt leider. Der Code Red scheint eher Verschlechterungen verursacht zu haben. Auf mehrere klar formulierte Prompts mit GPT 5.2 erhielt ich teilweise völlig sinnlose Antworten, die keinerlei Bezug zur konkreten Anfrage hatten, sondern offenbar aus einem anderen, zuvor verwendeten Kontext stammten. Auch eine erneute Eingabe des Prompts führte zu keiner inhaltlichen Verbesserung der Antwort.

Be nice to small animals

Esterel31.12.25 13:04

Seit 5.2 ist eine Unterhaltung (Voice) nicht mehr richtig möglich. Nach jedem Satz stoppt es für ein paar Sekunden. An meinem Netzwerk liegt das nicht.

Vermutlich fährt OpenAi für normale User (Non Pro) die Ressourcen massive runter.

Gut das es reichlich Auswahl mit Claude und Gemeni gibt.

janknet31.12.25 16:19

Claude ist für mich die Nr 1 wenn die Limits erreicht sind (das einzig negative an Claude) geht’s weiter mit Gemini!
ChatGPT ist komplett unbrauchbar geworden OpenAI hat sich glaub ich übernommen zu viele Baustellen auf einmal aufgemacht!

GPT-5.2 glänzt in Benchmarks – doch ist für viele die schlechteste Version seit Markteinführung

Kommentare

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.