Eine Bug-Bounty mit Blick auf biologisches Risiko
OpenAI hat Bewerbungen für eine neue GPT-5.5 Bio Bug Bounty geöffnet, ein gezieltes Red-Teaming-Programm, das darauf abzielt, ob Forschende einen universellen Jailbreak entdecken können, der die biologierelevanten Schutzmaßnahmen des Unternehmens umgeht. Die Struktur ist ungewöhnlich spezifisch. Teilnehmende sollen einen einzigen Prompt entwickeln, der aus einem sauberen Chat heraus alle fünf Fragen der biologischen Sicherheitsaufgabe von OpenAI erfolgreich beantwortet, ohne Moderation auszulösen. Die höchste Prämie beträgt 25.000 Dollar für den ersten echten universellen Jailbreak, der alle fünf Fragen umgeht.
Das Programm gilt laut dem bereitgestellten Quellentext nur für GPT-5.5 in Codex Desktop. Bewerbungen wurden am 23. April 2026 geöffnet, mit fortlaufender Annahme bis zum 22. Juni 2026. Die Tests sollen am 28. April beginnen und bis zum 27. Juli laufen. OpenAI sagt, dass für Teilerfolge nach eigenem Ermessen kleinere Prämien vergeben werden können.
Das ist wichtig, weil es zeigt, dass ein Frontier-KI-Unternehmen biologischen Missbrauch nicht nur als Politikthema, sondern als konkretes Problem der Systemsicherung betrachtet. Statt Sicherheitsbewertung ausschließlich über interne Reviews oder allgemeine Richtlinientexte zu rahmen, lädt das Unternehmen externe Spezialisten dazu ein, einen eng definierten Fehlermodus anzugreifen.
Warum ein universeller Jailbreak wichtig ist
Die meisten promptbasierten Sicherheitsfehler sind situationsabhängig. Ein Modell kann auf eine Formulierung widerstehen, bei einer anderen aber versagen. Ein universeller Jailbreak ist anders, weil er auf eine allgemeinere Schwäche im Sicherheitsstack hindeutet. Wenn ein wiederverwendbarer Prompt Schutzverhalten bei mehreren gefährlichen Prompts aus einer frischen Konversation heraus umgehen kann, erhöht das die Schwere der Schwachstelle erheblich.
OpenAIs Entscheidung, die Aufgabe auf einen fünfteiligen biologischen Sicherheitstest zu konzentrieren, deutet auf einen Schwellenwert-Ansatz hin: Das Unternehmen interessiert sich weniger für einzelne Randfälle als für systematische Fehler, die das Vertrauen in die biologischen Schutzmechanismen des Modells untergraben würden. Indem es eine universelle Methode statt verstreuter Beispiele belohnt, bittet es Red Teamer, die Integrität der gesamten Alignment-Schicht zu prüfen.
Auch die Höhe der Prämie signalisiert Priorität. 25.000 Dollar sind im Vergleich zu großen Software-Vulnerability-Programmen eher moderat, aber genug, um glaubwürdige Spezialisten für KI-Sicherheit und Biosicherheit anzuziehen. Wichtiger noch: Es wird klar, dass OpenAI bereit ist, für Belege zu zahlen, dass seine Schutzmaßnahmen unter kontrollierten Bedingungen gebrochen werden können, bevor diese Schwächen anderswo ausgenutzt werden.







