Neue Benchmark-Ergebnisse verkleinern den Abstand zwischen KI-Sicherheitsnarrativen und gemessener Leistung

Neue Cybersicherheitstests des britischen AI Security Institute verkomplizieren eines der lauteren jüngsten Narrativen in der Frontier-KI: die Vorstellung, dass Anthropics Mythos Preview eine einzigartig hohe Cyberbedrohung darstellt. Den neuen Ergebnissen zufolge erreichte OpenAIs GPT-5.5 bei den Cyber-Evaluierungen des Instituts ein ähnliches Leistungsniveau, was darauf hindeutet, dass Mythos weniger ein singulärer Sprung als vielmehr ein Zeichen eines breiteren Modellfortschritts sein könnte.

Das ist die zentrale Schlussfolgerung, über die Ars Technica auf Basis der AISI-Ergebnisse berichtet. Das ist wichtig, weil Anthropic zuvor das ungewöhnliche Cybersicherheitsrisiko von Mythos Preview betont und die erste Veröffentlichung auf kritische Industriepartner beschränkt hatte. Der neue Vergleich sagt nicht, dass diese Risiken unreal seien. Er sagt, dass vergleichbare Fähigkeiten möglicherweise bereits in mehreren Spitzenmodellen entstehen, während Langzeitautonomie, Schlussfolgerung und Programmierung besser werden.

Was die Tests gemessen haben

Seit 2023 lässt das AISI Frontier-KI-Systeme durch 95 Capture-the-Flag-Herausforderungen laufen, die Cybersicherheitsfähigkeiten in Bereichen wie Reverse Engineering, Web-Exploitation und Kryptografie prüfen sollen. Das sind keine vagen Eindrücke von der Kompetenz eines Modells. Es handelt sich um aufgabenbasierte Bewertungen, die zeigen sollen, wie weit Systeme bei konkreter offensiver Cyberarbeit kommen können.

Bei den anspruchsvollsten „Expert“-Aufgaben erreichte GPT-5.5 im Durchschnitt 71.4 Prozent und lag damit leicht vor Mythos Preview mit 68.6 Prozent, innerhalb der Fehlerspanne. Diese Einordnung ist wichtig. Das Ergebnis legt keinen eindeutigen Sieger fest. Es belegt Gleichstand auf einem Niveau, das hoch genug ist, um die Vorstellung infrage zu stellen, nur ein Modell sei in eine neue Risikokategorie vorgestoßen.

Leistung, die zunehmend operativ wirkt

Eines der auffälligsten Details der Berichterstattung betrifft eine schwierige Aufgabe, bei der ein Disassembler entwickelt werden musste, um ein Rust-Binary zu dekodieren. Das AISI sagte, GPT-5.5 habe die Herausforderung in 10 Minuten und 22 Sekunden ohne menschliche Hilfe gelöst, bei API-Kosten von 1.73 US-Dollar. Das ist ein kompakter Datenpunkt, aber er sagt viel aus: Geschwindigkeit, Autonomie und niedrige Grenzkosten bewegen sich in eine Richtung, die genau beobachtet werden sollte.

Das Institut bewertete die Modelle außerdem mit „The Last Ones“, einem simulierten 32-stufigen Datenausgriffsangriff gegen ein Unternehmensnetzwerk. GPT-5.5 war in 3 von 10 Versuchen erfolgreich, verglichen mit 2 von 10 bei Mythos Preview. Ars Technica merkte an, dass zuvor noch kein Modell in diesem Test auch nur einmal erfolgreich gewesen sei. Das bedeutet nicht, dass diese Systeme solche Angriffe in unkontrollierten realen Umgebungen zuverlässig ausführen können. Es bedeutet aber, dass Frontier-Modelle in strukturierten Umgebungen, die ernsthafte Cyberoperationen nachbilden sollen, nun Ergebnisse erzielen, die frühere Generationen überhaupt nicht erreichen konnten.

Grenzen bleiben wichtig

Die Ergebnisse erzählen nicht die Geschichte einer ungebremsten KI-Cyberbeherrschung. GPT-5.5 scheiterte weiterhin an AISIS schwierigerer „Cooling Tower“-Simulation, die einen Angriff auf Steuerungssoftware eines Kraftwerks modelliert. Alle zuvor getesteten Modelle sind an diesem Benchmark ebenfalls gescheitert. Diese offene Grenze ist wichtig, weil sie zeigt, dass Fähigkeitszuwachs real, aber ungleichmäßig ist. Modelle mögen inzwischen in einigen Klassen offensiver Aufgaben deutlich stärker sein, ohne bereits das volle Fähigkeitsspektrum zu demonstrieren, das die extremsten Behauptungen rechtfertigen würde.

Mit anderen Worten: Die neuen Ergebnisse stellen sich gleichzeitig gegen Selbstzufriedenheit und gegen Sensationalismus. Sie deuten darauf hin, dass sich Cyberfähigkeiten über Modellfamilien hinweg schnell weiterentwickeln, stützen aber nicht die Idee, heutige Systeme hätten bereits jedes schwierige Ziel in Angriffssimulationen auf kritische Infrastruktur gelöst.

Die Debatte darüber, wie Unternehmen über Risiken sprechen

Der Benchmark-Vergleich befeuert auch eine separate Debatte über KI-Kommunikationsstrategien. Ars Technica hob die Kritik von OpenAI-CEO Sam Altman an dem hervor, was er als „furchtbasiertes Marketing“ rund um eingeschränkte Veröffentlichungen bestimmter Modelle bezeichnete. Auch die eigene Einordnung des AISI scheint sich in dieselbe Richtung zu bewegen, indem sie schreibt, Mythos Preview sei wahrscheinlich kein „modell-spezifischer Durchbruch“ gewesen, sondern ein Nebenprodukt allgemeinerer Verbesserungen bei Autonomie, Schlussfolgerung und Programmierung.

Das heißt nicht, dass Modellentwickler aufhören sollten, vor Cyberrisiken zu warnen. Im Gegenteil, die breitere Konsequenz könnte das Gegenteil sein. Wenn ähnliche Fähigkeiten in mehreren Frontier-Systemen auftauchen, sollte sich die politische Debatte weg von der Behandlung isolierter Modellveröffentlichungen als Ausnahmeereignisse hin zu einem systemischeren Trend bewegen. Das Risiko ist nicht auf das Vorschau-Modell eines einzelnen Unternehmens beschränkt, wenn die zugrunde liegende Leistungskurve geteilt wird.

Warum das jetzt wichtig ist

Die eigentliche Bedeutung des GPT-5.5-Ergebnisses liegt nicht im Prahlrecht. Sie liegt in dem Beleg, dass fortgeschrittene Cyberfähigkeiten unter führenden Modellen breiter verteilt werden. Das verändert, wie Labore, Regulierer und Unternehmenskunden Bewertung, Zugriffskontrolle, Red-Teaming und Incident-Preparedness betrachten sollten. Es erhöht auch die Messlatte für empirische Sicherheitsdebatten. Unternehmen können dramatische Behauptungen über die Einzigartigkeit eines Modells aufstellen, doch vergleichende Tests liefern zunehmend einen Gegencheck zu solchen Narrativen.

Für den Moment stützen die verfügbaren Belege eine engere, aber dennoch bedeutsame Schlussfolgerung. GPT-5.5 schnitt in den Cyber-Evaluierungen des AISI ungefähr auf demselben Niveau wie Mythos Preview ab, übertraf es bei einigen Messungen leicht und folgte dem breiteren Muster, dass Frontier-Modelle bei anhaltenden technischen Aufgaben fähiger werden. Der Hype-Abstand schrumpft möglicherweise. Die Fähigkeitskurve scheint jedoch weiter zu steigen.

Dieser Artikel basiert auf einer Berichterstattung von Ars Technica. Zum Originalartikel.

Originally published on arstechnica.com