Eine gefährlichere Fähigkeitsgrenze benchmarken
Forscher der Carnegie Mellon University haben einen neuen Benchmark vorgestellt, der testen soll, wie weit KI-Agenten beim Ausnutzen realer Schwachstellen in Googles V8-JavaScript-Engine kommen können. Das Ergebnis, so der von The Decoder gelieferte Quelltext, zeichnet ein konkreteres Bild des Verhaltens von Frontier-Modellen in der offensiven Sicherheit: Einige Systeme identifizieren nicht mehr nur Fehler oder lösen Abstürze aus, sondern bewegen sich in Richtung vollständiger Codeausführung.
Der Benchmark ist deshalb wichtig, weil er Leistungen in Stufen misst, statt Ergebnisse in ein einfaches bestanden/nicht bestanden zu pressen. Wie in der Quelle beschrieben, bewertet das Framework Agenten über fünf Stufen hinweg und endet bei beliebiger Codeausführung auf dem Zielsystem. Diese Struktur vermittelt ein realistischeres Bild davon, was ein autonomes oder halbautonomes Modell in einem Exploit-Entwicklungsworkflow tatsächlich leisten kann.
Claude Mythos führt, GPT-5.5 liegt zurück
Das gemeldete Hauptergebnis ist eine große Lücke zwischen den beiden führenden Systemen im Test. Anthropic's Claude Mythos Preview erreichte mit gelegentlichen menschlichen Hinweisen einen Durchschnittswert von 9.90 von 16 und kam bei 21 von 41 Schwachstellen auf die höchste Stufe. OpenAI's GPT-5.5 erzielte 5.51 und erreichte die höchste Stufe nur bei zwei dieser Schwachstellen.
Die Lücke blieb auch im voll autonomen Modus groß. Mythos kam mit nur geringem Rückgang auf 9.55 Punkte, während GPT-5.5 über Codex 4.30 erreichte. Laut Quelle schaffte kein anderes getestetes Modell vollständige Codeausführung. Sollten diese Zahlen einer breiteren Prüfung standhalten, deuten sie darauf hin, dass sich die vorderste Linie der Modellfähigkeiten bei offensiven Cyberaufgaben schneller vom Rest des Feldes absetzt, als viele öffentliche Bewertungen gezeigt haben.
Die Kosten verändern die Einordnung
Der Benchmark benennt keinen einfachen Sieger. Der Quelltext von The Decoder betont, dass Mythos' Leistung einen hohen Preis hatte. Ein vollständiger Mythos-Lauf über 122 Episoden habe rund 36,428 Dollar gekostet, während GPT-5.5 123 Episoden für etwa 3,075 Dollar absolvierte. Das ist ungefähr ein Zwölffaches.
Das ist wichtig, weil Fähigkeit ohne Kostenkontext irreführend sein kann. Ein Modell, das deutlich besser abschneidet, aber dramatisch mehr Geld erfordert, ist nicht immer die wichtigere Geschichte, besonders wenn ein günstigerer Rivale sich durch mehr Rechenleistung oder längere Laufzeiten verbessern kann. Der Artikel weist genau auf diese Möglichkeit hin und legt nahe, dass OpenAI die Lücke möglicherweise durch mehr Rechenressourcen für die Aufgabe verkleinern könnte.
Warum V8 ein wichtiges Ziel ist
Der Fokus auf V8 erhöht den Einsatz. Die Quelle merkt an, dass V8 Chrome, Edge, Node.js und Cloudflare Workers antreibt und damit zu einer der folgenreichsten Software-Engines des modernen Internets gehört. Ein Benchmark, der an reale V8-Schwachstellen gekoppelt ist, sagt daher mehr über praktische Sicherheitsauswirkungen aus als eine Spielzeugumgebung oder eine puzzleartige Aufgabe.
Auch deshalb ist das gestufte Design bemerkenswert. Es spiegelt den Unterschied zwischen dem Finden eines Problems und dessen Bewaffnung wider. In der Sicherheitsarbeit ist dieser Unterschied entscheidend. Ein Agent, der die Schritte von der Schwachstellenfindung bis zur erfolgreichen Ausnutzung durchdenken kann, bewegt sich in einer ganz anderen Risikokategorie als einer, der nur verdächtige Code-Muster markieren kann.
Vergleiche mit menschlichem Niveau brauchen Vorsicht
Der Quelltext sagt, dass Seunghyun Lee, Mitautor von ExploitBench und erfahrener Sicherheitsforscher mit mehr als 20 gemeldeten Browser-Schwachstellen, die Ergebnisse geprüft und Mythos als auf Augenhöhe mit einem kompetenten menschlichen Browser-Sicherheitsforscher eingeschätzt habe. Das ist eine bemerkenswerte Aussage, sollte aber sorgfältig gelesen werden. Benchmarks können reale Fähigkeiten sichtbar machen und dennoch Fragen zu Zuverlässigkeit, Reproduzierbarkeit und dem Verhalten von Modellen außerhalb einer strukturierten Bewertungsumgebung offenlassen.
Dennoch ist die Richtung schwer zu ignorieren. Der Benchmark legt nahe, dass sich zumindest einige Frontier-KI-Systeme dem End-to-End-Exploit-Development in einer großen Software-Engine nähern. Die verbleibenden Debatten drehen sich zunehmend um Grad, Kosten und Betriebsbeschränkungen, nicht mehr darum, ob es diesen Trend überhaupt gibt.
Für politische Entscheidungsträger, Plattformbetreiber und Labore verschiebt das die Debatte. Die wichtigste Frage ist möglicherweise nicht mehr, ob Modelle bei offensiver Cyberarbeit helfen können, sondern wie schnell diese Hilfe billiger, autonomer und breiter verfügbar wird.
Dieser Artikel basiert auf Berichterstattung von The Decoder. Den Originalartikel lesen.
Originally published on the-decoder.com


