Anthropic prüft gemeldeten Zugriff auf eingeschränktes KI-Modell

Anthropic hat bestätigt, dass das Unternehmen einem Bericht über unbefugten Zugriff auf Claude Mythos Preview nachgeht, ein Modell, das der Anbieter als zu gefährlich für eine öffentliche Veröffentlichung eingestuft hat. Der gemeldete Zugriff soll über eine Umgebung eines Drittanbieters erfolgt sein.

In der von Bloomberg berichteten und von Gizmodo weitergegebenen Stellungnahme hieß es, Anthropic habe einen Bericht erhalten, dem zufolge über eine der Umgebungen eines Drittanbieter-Dienstleisters unbefugt auf Claude Mythos Preview zugegriffen worden sei. Bloomberg habe offenbar eine Live-Demo sowie Screenshots von einem Mitglied der Gruppe geprüft, die für den Zugriff verantwortlich gewesen sein soll.

Die öffentlich verfügbaren Fakten sind begrenzt, und der Bericht ist vorsichtig, wenn es um die Identifizierung der beteiligten Personen und Methoden geht. Dennoch wirft der Vorfall eine ernsthafte Governance-Frage für Frontier-AI-Labore auf: Selbst wenn ein Modell nicht öffentlich veröffentlicht wird, können Zugänge über Dienstleister und interne Tools Wege eröffnen, die schwerer abzusichern sind als das Modell selbst.

Wie der gemeldete Zugriff erfolgte

Laut dem im Artikel zusammengefassten Bericht kombinierte die Gruppe mehrere Informationsquellen. Eine Discord-Gruppe soll Bots eingesetzt haben, um GitHub nach Informationen über unveröffentlichte KI-Modelle zu durchsuchen. Der Bericht verweist außerdem auf einen Datenvorfall beim KI-Trainings-Startup Mercor. Anschließend habe die Gruppe diese Informationen angeblich mit Zugriff kombiniert, der einer bei einem Anthropic-Auftragnehmer beschäftigten Person zur Verfügung stand.

Diese Abfolge von Ereignissen soll der Gruppe erlaubt haben, den Online-Standort von Claude Mythos zu ermitteln. Die Gruppe soll seit dem 7. April auf das Modell zugegriffen haben, also an demselben Tag, an dem Anthropic Project Glasswing ankündigte.

Die im Bericht zitierte Quelle behauptete, die Gruppe habe sich eher für Experimente mit neuen Modellen interessiert als für Schadensabsichten. Diese Behauptung mindert die Ernsthaftigkeit des Zugriffsproblems nicht. Wenn ein eingeschränktes Modell einer unbefugten Partei zugänglich ist, hängt das Risiko nicht nur davon ab, was die zunächst berichtete Gruppe zu beabsichtigen vorgibt.

Das Risiko durch Dienstleister

Der gemeldete Vorfall verdeutlicht einen häufigen Schwachpunkt in sicherheitskritischen Technologieabläufen: Das Hauptunternehmen kann seine eigenen Systeme absichern, während Auftragnehmer-, Anbieter- und Partnerumgebungen ausreichend Zugriff behalten, um zu attraktiven Zielen zu werden.

Für KI-Unternehmen ist der Einsatz besonders hoch. Ein Frontier-Modell ist nicht nur eine Datei oder ein Dienst. Es kann Fähigkeiten enthalten, die der Entwickler bewusst von einer öffentlichen Veröffentlichung zurückgehalten hat. Wenn die Zugriffskontrollen rund um Preview-Modelle, Evaluierungssysteme oder Auftragnehmerumgebungen schwach sind, kann die Veröffentlichungsstrategie des Unternehmens unterlaufen werden, noch bevor das Modell überhaupt gestartet wird.

Der Bericht legt den genauen Umfang des Zugriffs nicht fest, ebenso wenig, ob Modellgewichte offengelegt wurden oder ob sich der Zugriff auf eine Schnittstelle beschränkte. Diese Unterschiede sind wichtig. Ein Zugriff über eine Schnittstelle kann weiterhin riskant sein, ist aber etwas anderes als der Diebstahl von Modellgewichten oder Trainingsdaten. Anthropics Untersuchung muss klären, was genau erreichbar war, wie lange und über welche Systeme.

Warum das über Anthropic hinaus wichtig ist

KI-Labore sind zunehmend auf externe Auftragnehmer für Evaluierung, Datenarbeit, Red-Teaming, Kennzeichnung und Betrieb angewiesen. Diese Arbeitsabläufe können weitreichende Zugriffsmuster erzeugen, die schwer zu überwachen sind, insbesondere wenn Teams schnell arbeiten, um unveröffentlichte Systeme zu bauen und zu testen.

Der Bericht zu Claude Mythos trifft daher auf eine größere Branchendebatte über die Sicherheit von Frontier-Modellen. Wenn Unternehmen argumentieren, dass bestimmte Modelle zu leistungsfähig für eine Veröffentlichung sind, müssen sie auch zeigen, dass eingeschränkte Zugriffsprogramme, Dienstleistersyste me und interne Preview-Umgebungen mit derselben Ernsthaftigkeit verwaltet werden.

Hinzu kommt eine Vertrauensfrage. Regierungen, Unternehmenskunden und die Öffentlichkeit sollen darauf vertrauen, dass KI-Entwickler zunehmend leistungsfähige Systeme sicher handhaben können. Ein gemeldeter unbefugter Zugriffsweg über eine Anbieterumgebung ist genau die Art von Versagen, die diese Behauptung auf die Probe stellt.

Worauf jetzt zu achten ist

Die zentralen Fragen sind nun konkret. Anthropic muss feststellen, ob der gemeldete Zugriff tatsächlich stattgefunden hat, ob sensible Daten oder Modellfähigkeiten offengelegt wurden, ob der Zugriff inzwischen unterbunden wurde und ob sich die Kontrollen bei Drittanbietern ändern müssen.

Der breitere KI-Sektor wird darauf achten, ob Labore den Zugang von Auftragnehmern verschärfen, die Überwachung von Preview-Systemen verbessern und die auffindbaren Informationen über unveröffentlichte Modelle begrenzen. Die wichtigste Lehre dürfte sein, dass Modellsicherheit nicht nur ein Forschungsproblem ist. Sie ist auch ein Problem von Infrastruktur, Zugriffskontrolle und Anbietermanagement.

Dieser Artikel basiert auf einer Berichterstattung von Gizmodo. Den Originalartikel lesen.

Originally published on gizmodo.com