Eine schwierigere Art von Mathe-Test für KI
Ein neuer Benchmark namens SOOHAK versucht, etwas zu messen, das viele gängige KI-Evaluierungen übersehen: ob ein Modell wirklich schwierige Mathematik durchdenken kann und ob es erkennt, wann es nicht antworten sollte. Dem bereitgestellten Quellentext zufolge wurde der Benchmark von einem Konsortium aus 64 Mathematikern aus Gruppen wie Carnegie Mellon University, EleutherAI und Seoul National University erstellt.
SOOHAK enthält 439 originelle handschriftliche Aufgaben. Die Sammlung ist in ein 340 Aufgaben umfassendes „Challenge“-Set für Mathematik auf Graduierten- und Forschungsebene sowie in ein 99 Aufgaben umfassendes „Refusal“-Set unterteilt, das absichtlich fehlerhafte Probleme mit Widersprüchen oder zu wenig Informationen für eine klare Antwort enthält. Dieser zweite Teil ist der ungewöhnlichere. Er prüft, ob ein Modell erkennen kann, dass eine Aufgabe unzulässig ist, statt trotzdem selbstbewusst ein Ergebnis zu liefern.
Die Ersteller des Benchmarks versuchten außerdem, die Wahrscheinlichkeit zu verringern, dass Modelle das Material im Training bereits gesehen hatten. Der Quellentext sagt, dass jedes Problem von Grund auf neu geschrieben wurde, statt aus Lehrbüchern oder Wettbewerbsarchiven übernommen zu werden. Zu den Mitwirkenden gehörten Professoren, Doktoranden, Postdocs und Medaillengewinner der Internationalen Mathematik-Olympiade, und sie mussten bestätigen, dass sie beim Formulieren der Fragen keine KI-Unterstützung verwendet hatten.
Forschungsmathematik bleibt eine klare Schwäche
Die berichteten Ergebnisse zeigen, dass fortgeschrittene Modelle weiterhin stark zu kämpfen haben, sobald die Probleme über vertraute Wettbewerbsaufgaben hinausgehen. Im Challenge-Set erreichte Googles Gemini 3 Pro 30 %, gefolgt von GPT-5-Varianten mit 26 %. Claude Opus 4.5 fiel auf 10 %, während Open-Weight-Systeme wie Kimi-2.5, Qwen3-235B und GPT-OSS-120B unter 15 % blieben.
Die Schlagzeile ist nicht, dass ein Modell knapp ein anderes übertrifft. Entscheidend ist, dass keines von ihnen in dieser Klasse unveröffentlichter, forschungsnaher Arbeit durchgehend stark ist. Der Quellentext sagt, dass kein einziges Modell 124 der Challenge-Probleme lösen konnte. Das deutet darauf hin, dass die Obergrenze des Frontline-Mathematikverständnisses noch deutlich niedriger ist, als es jüngere öffentliche Narrative über olympiadausähnliche Leistungen vermuten lassen könnten.
Das leichtere Begleitset SOOHAK-Mini zeichnet ein anderes Bild. Dort liegen die besten Systeme deutlich näher beieinander und erzielen wesentlich höhere Werte. Der starke Einbruch zeigt sich erst, wenn die Aufgaben in weniger standardisiertes, weniger vorgefertigtes Material wechseln. Laut Quellentext argumentieren die Autoren des Benchmarks, dass dies eine schwächere Übertragung auf Nischenprobleme ohne Veröffentlichung offenlegen könnte, insbesondere bei Open-Weight-Modellen.
Das Nicht-Antworten kann ebenso wichtig sein wie das Lösen
Der wohl wichtigste Beitrag des Benchmarks ist sein Refusal-Teil. In der realen Nutzung wird ein KI-System nicht nur daran gemessen, wie oft es die richtige Antwort gibt. Es wird auch daran gemessen, ob es erkennt, wann eine Anfrage fehlerhaft formuliert, widersprüchlich oder mit den gegebenen Informationen nicht beantwortbar ist. SOOHAK behandelt das als Kernkompetenz.
Auch hier waren die Ergebnisse schwach. Der bereitgestellte Quellentext sagt, dass selbst das beste Modell beim Erkennen unlösbarer Probleme unter 50 % blieb. Das bedeutet, dass führende Systeme weiterhin oft lieber raten, statt eine fehlende Annahme oder einen Widerspruch zu identifizieren. In der Praxis ist dieses Verhalten gefährlicher als ein sichtbarer Rechenfehler, weil es autoritativ klingen kann, obwohl es strukturell falsch ist.
Das ist ein wiederkehrendes Muster in der KI-Evaluierung. Wenn Modelle auf vertrauten Benchmarks besser werden, kann der Benchmark selbst aufhören, die schwierigsten verbleibenden Fehler abzubilden. SOOHAK scheint darauf ausgelegt zu sein, das Feld von Ranglisten wegzubewegen, die von Abdeckung und Auswendiglernen dominiert werden, hin zu Tests von Abstraktion, Neuheit und epistemischer Zurückhaltung.
Warum dieser Benchmark auffällt
- Er verwendet originelle Aufgaben statt wiederverwertetem Lehrbuch- oder Wettkampfmaterial.
- Er trennt normales Problemlösen von Refusal-Verhalten.
- Er konzentriert sich auf Forschungsebene statt nur auf Schul- oder Olympiade-Mathematik.
- Er zeigt, dass starke Leistung auf einfacheren Benchmark-Sets nicht zwangsläufig nach oben übertragbar ist.
Wenn sich die berichteten Ergebnisse einer breiteren Prüfung stellen, könnte SOOHAK zu einem nützlichen Gegengewicht für zunehmend gesättigte Mathe-Evaluierungen werden. Für Entwickler weist es auf zwei ungelöste Probleme hin: Frontier-Modelle stoßen bei unbekannter Hochleistungsmathematik weiterhin an eine Wand, und sie antworten immer noch zu oft, wenn sie eigentlich stoppen und erklären sollten, warum keine Antwort möglich ist.
Diese Kombination ist weit über Mathematik hinaus relevant. Systeme, die nicht zuverlässig zwischen lösbaren und unlösbaren Anfragen unterscheiden können, werden vermutlich dieselbe Art von Fehler in Recht, Wissenschaft, Ingenieurwesen und Politikanalysen machen. SOOHAK fragt nicht nur, ob KI schwierigere Probleme lösen kann. Es fragt, ob KI die Grenzen dessen erkennen kann, was sie weiß.
Dieser Artikel basiert auf der Berichterstattung von The Decoder. Den Originalartikel lesen.
Originally published on the-decoder.com




