OpenAI startet GPT-5.5 Bio Bug Bounty für universelle Jailbreaks

OpenAI stellt die biologischen Schutzmechanismen von GPT-5.5 mit einer neuen Bug-Bounty auf die Probe

OpenAI bietet bis zu 25.000 Dollar für einen universellen Jailbreak, der eine fünfteilige biologische Sicherheitsaufgabe in GPT-5.5 aushebelt, und macht externes Red Teaming damit zu einem gezielten Test der Schutzmechanismen von Frontier-Modellen.

DT Editorial AI

Apr 25, 2026·4 min read·926 words

Eine Bug-Bounty mit Blick auf biologisches Risiko

OpenAI hat Bewerbungen für eine neue GPT-5.5 Bio Bug Bounty geöffnet, ein gezieltes Red-Teaming-Programm, das darauf abzielt, ob Forschende einen universellen Jailbreak entdecken können, der die biologierelevanten Schutzmaßnahmen des Unternehmens umgeht. Die Struktur ist ungewöhnlich spezifisch. Teilnehmende sollen einen einzigen Prompt entwickeln, der aus einem sauberen Chat heraus alle fünf Fragen der biologischen Sicherheitsaufgabe von OpenAI erfolgreich beantwortet, ohne Moderation auszulösen. Die höchste Prämie beträgt 25.000 Dollar für den ersten echten universellen Jailbreak, der alle fünf Fragen umgeht.

Das Programm gilt laut dem bereitgestellten Quellentext nur für GPT-5.5 in Codex Desktop. Bewerbungen wurden am 23. April 2026 geöffnet, mit fortlaufender Annahme bis zum 22. Juni 2026. Die Tests sollen am 28. April beginnen und bis zum 27. Juli laufen. OpenAI sagt, dass für Teilerfolge nach eigenem Ermessen kleinere Prämien vergeben werden können.

Das ist wichtig, weil es zeigt, dass ein Frontier-KI-Unternehmen biologischen Missbrauch nicht nur als Politikthema, sondern als konkretes Problem der Systemsicherung betrachtet. Statt Sicherheitsbewertung ausschließlich über interne Reviews oder allgemeine Richtlinientexte zu rahmen, lädt das Unternehmen externe Spezialisten dazu ein, einen eng definierten Fehlermodus anzugreifen.

Warum ein universeller Jailbreak wichtig ist

Die meisten promptbasierten Sicherheitsfehler sind situationsabhängig. Ein Modell kann auf eine Formulierung widerstehen, bei einer anderen aber versagen. Ein universeller Jailbreak ist anders, weil er auf eine allgemeinere Schwäche im Sicherheitsstack hindeutet. Wenn ein wiederverwendbarer Prompt Schutzverhalten bei mehreren gefährlichen Prompts aus einer frischen Konversation heraus umgehen kann, erhöht das die Schwere der Schwachstelle erheblich.

OpenAIs Entscheidung, die Aufgabe auf einen fünfteiligen biologischen Sicherheitstest zu konzentrieren, deutet auf einen Schwellenwert-Ansatz hin: Das Unternehmen interessiert sich weniger für einzelne Randfälle als für systematische Fehler, die das Vertrauen in die biologischen Schutzmechanismen des Modells untergraben würden. Indem es eine universelle Methode statt verstreuter Beispiele belohnt, bittet es Red Teamer, die Integrität der gesamten Alignment-Schicht zu prüfen.

Auch die Höhe der Prämie signalisiert Priorität. 25.000 Dollar sind im Vergleich zu großen Software-Vulnerability-Programmen eher moderat, aber genug, um glaubwürdige Spezialisten für KI-Sicherheit und Biosicherheit anzuziehen. Wichtiger noch: Es wird klar, dass OpenAI bereit ist, für Belege zu zahlen, dass seine Schutzmaßnahmen unter kontrollierten Bedingungen gebrochen werden können, bevor diese Schwächen anderswo ausgenutzt werden.

AI & Robotics

OpenAI sagt, GPT-5.5 sei dafür gebaut, längere, werkzeugnutzende Workflows mit weniger Aufsicht zu bewältigen, und erweitert damit den Vorstoß des Unternehmens hin zu agentenartigen KI-Systemen für Programmierung, Recherche und Datenarbeit.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

AI & Robotics

Die Vereinigten Arabischen Emirate sagen, dass sie 50 % der Regierungssektoren, -dienste und -prozesse innerhalb von zwei Jahren auf agentische KI-Systeme umstellen werden. Damit setzen sie eines der bislang ambitioniertesten öffentlich angekündigten Ziele für KI im Staatssektor.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

AI & Robotics

Anthropic sagt, dass stärkere KI-Agenten in einem echten internen Marktplatz bessere Preise ausgehandelt und mehr Deals abgeschlossen haben, während Nutzer mit schwächeren Modellen keinen Fairnessunterschied wahrnahmen.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

Ein selektiver Prozess mit hohem Vertrauen

Das Programm ist nicht vollständig offen. Laut dem bereitgestellten Quellentext wird OpenAI eine geprüfte Liste vertrauenswürdiger biologischer Red Teamer einladen und neue Bewerbungen von Forschenden mit Erfahrung in KI-Red-Teaming, Sicherheit oder Biosicherheit prüfen. Zugelassene Teilnehmende und Mitwirkende müssen bestehende ChatGPT-Konten haben und eine Geheimhaltungsvereinbarung unterzeichnen. Alle Prompts, Antworten, Ergebnisse und Kommunikationen sind durch die NDA abgedeckt.

Dieses kontrollierte Zugriffsdesign spiegelt die Sensibilität des Themas wider. Forschung zu biologisch relevantem Missbrauch nimmt eine besondere Position ein: Systeme müssen zwar auf die Probe gestellt werden, aber die breite Veröffentlichung adversarialer Methoden könnte zusätzliches Risiko schaffen. Die NDA-Anforderung zeigt, dass OpenAI versucht, externe Kontrolle mit operativer Eindämmung auszubalancieren.

Das Setup unterstreicht auch einen größeren Wandel in der Governance von Frontier-KI. Hochrisiko-Fähigkeitsbereiche werden zunehmend über vertrauensbasierte Zugriffsmodelle statt über rein offene Wettbewerbe behandelt. Dieser Ansatz begrenzt die Sichtbarkeit von außen, kann aber auch realistischere adversariale Tests ermöglichen, als es ein vollständig öffentlicher Wettbewerb erlauben würde.

OpenAI stellt die biologischen Schutzmechanismen von GPT-5.5 mit einer neuen Bug-Bounty auf die Probe

Eine Bug-Bounty mit Blick auf biologisches Risiko

Warum ein universeller Jailbreak wichtig ist

Related Articles

Keep Reading

OpenAI veröffentlicht einen Codex-Startleitfaden und setzt auf ein praxisnäheres Onboarding für KI-Workflows

Ein selektiver Prozess mit hohem Vertrauen

Was das Programm über die Sicherheit von Frontier-Modellen sagt

OpenAI positioniert Codex-Skills und Plugins als die nächste Ebene der KI-gestützten Arbeitsautomatisierung

Die Grenzen dessen, was das offenlegt

Eine praktische Wende in der KI-Sicherheit

Cohere macht aus dem Aleph-Alpha-Deal eine grenzüberschreitende Sovereign-AI-Strategie

Comments (0)

GPT-5.5 Hebt die Latte bei KI-Benchmarks, Behält aber eine Bekannte Schwäche

OpenAI treibt agentische Workflows mit dem Start von GPT-5.5 weiter voran

Die VAE wollen binnen zwei Jahren agentische KI in der Hälfte der Regierung einsetzen

Anthropics interner Marktplatz zeigt: Stärkere KI-Agenten holen unauffällig bessere Deals

China erschwert US-Kapital bei heimischen Tech-Deals den Zugang