Anthropics Cybersicherheitsnarrativ gerät durch Replikationsdruck unter Druck

Anthropic hat Claude Mythos als streng kontrolliertes Cybersicherheitsmodell präsentiert, dessen Fähigkeiten stark genug seien, um einen eingeschränkten Zugriff zu rechtfertigen. Dem bereitgestellten Quellentext zufolge beschränkte das Unternehmen Mythos Preview über Project Glasswing auf ein Konsortium aus elf Organisationen und verwies dabei auf offensives Potenzial. Interne Tests und ein Audit des britischen AI Security Institute sollen ergeben haben, dass das Modell Softwarefehler finden, eigenständig funktionierende Exploits bauen und ganze Unternehmensnetzwerke in Simulationen kompromittieren konnte, vorausgesetzt, diese Netzwerke waren klein, schwach abgesichert und verwundbar.

Das ist eine ernsthafte Reihe von Behauptungen, und die neue Entwicklung besteht nicht darin, dass diese Behauptungen widerlegt wurden. Vielmehr werden Teile der Erzählung von der Exklusivität nun infrage gestellt. Zwei unabhängige Replikationsbemühungen, die in der Quelle beschrieben werden, deuten darauf hin, dass kleinere und offenere Modelle einen Großteil der Schwachstellenanalyse reproduzieren können, die Anthropic öffentlich vorgeführt hat.

Dieser Unterschied ist wichtig. Die Debatte verschiebt sich von der Frage, ob Mythos leistungsfähig ist, hin zu der Frage, ob die gezeigten Fähigkeiten wirklich einzigartig sind.

Was die Replikationsversuche gefunden haben

Der erste Replikationsversuch kam von AISLE, einem Unternehmen, das seit Mitte 2025 KI-gestützte Bug-Hunts in Open-Source-Software durchführt. Laut Quelle hat AISLE 15 Schwachstellen in OpenSSL und fünf in curl gemeldet. Gründer Stanislav Fort soll Codeausschnitte aus Anthropics öffentlichen Beispielen verwendet haben, um zu testen, wie weit eine Reihe kleinerer und teilweise offener Modelle allein kommen können.

Der zweite Versuch kam von Vidoc Security, das GPT-5.4 und Claude Opus 4.6 mit dem offenen Coding-Agenten OpenCode kombinierte. Gemeinsam versuchen diese Studien eine praktische Frage zu beantworten: Wenn Anthropic beeindruckende Fähigkeiten beim Finden von Bugs oder beim Schlussfolgern über Exploits demonstriert, wie viel davon ist exklusiv für Mythos, und wie viel spiegelt eine Fähigkeitsschwelle wider, die sich im gesamten Modellumfeld verbreitert?

Die frühe Antwort des Quellentextes scheint zu sein, dass diese Schwelle breiter sein könnte, als Anthropics Zugriffskontrollen vermuten lassen.