OpenAI lança recompensa por bugs biológicos do GPT-5.5 para jailbreaks universais

Uma recompensa por bugs voltada ao risco biológico

A OpenAI abriu inscrições para um novo GPT-5.5 Bio Bug Bounty, um programa de red teaming direcionado que se concentra em saber se pesquisadores conseguem descobrir um jailbreak universal que contorne as salvaguardas relacionadas à biologia da empresa. A estrutura é incomumente específica. Os participantes devem produzir um único prompt capaz de responder com sucesso às cinco perguntas do desafio de segurança biológica da OpenAI a partir de um chat limpo, sem acionar a moderação. A recompensa máxima é de US$ 25.000 para o primeiro jailbreak universal verdadeiro que complete as cinco.

O programa, conforme descrito no texto-fonte fornecido, se aplica apenas ao GPT-5.5 no Codex Desktop. As inscrições foram abertas em 23 de abril de 2026, com قبولações contínuas até 22 de junho de 2026. Os testes estão programados para começar em 28 de abril e seguir até 27 de julho. A OpenAI diz que prêmios menores podem ser concedidos para sucessos parciais, a seu critério.

Isso importa porque mostra uma empresa de IA de fronteira tratando o uso indevido biológico não apenas como uma questão de política, mas como um problema concreto de fortalecimento do sistema. Em vez de enquadrar a avaliação de segurança apenas por revisão interna ou linguagem geral de políticas, a empresa está convidando especialistas externos a atacar um modo de falha rigidamente definido.

Por que um jailbreak universal importa

A maioria das falhas de segurança baseadas em prompts é situacional. Um modelo pode resistir a uma formulação, mas falhar sob outra. Um jailbreak universal é diferente porque sugere uma fraqueza mais geral na pilha de segurança. Se um prompt reutilizável puder contornar o comportamento protetivo em vários prompts perigosos a partir de uma conversa nova, isso aumenta substancialmente a gravidade da vulnerabilidade.

A escolha da OpenAI de centrar o desafio em um teste biológico de cinco perguntas implica uma abordagem baseada em limiar: a empresa está menos interessada em casos-limite isolados do que em falhas sistemáticas que enfraqueceriam a confiança nas defesas biológicas do modelo. Ao recompensar um método universal em vez de exemplos dispersos, ela pede aos red teamers que testem a integridade da camada geral de alinhamento.

O valor da recompensa também sinaliza prioridade. Um prêmio de US$ 25.000 é modesto em comparação com a escala de grandes programas de vulnerabilidade de software, mas suficiente para atrair especialistas credíveis em segurança de IA e biossegurança. Mais importante, deixa claro que a OpenAI está disposta a pagar por evidências de que suas salvaguardas podem ser quebradas em condições controladas antes que essas fraquezas sejam exploradas em outros lugares.

AI & Robotics

Os Emirados Árabes Unidos dizem que vão migrar 50% dos setores, serviços e processos do governo para sistemas de IA agêntica em dois anos, estabelecendo uma das metas de IA para o setor público mais agressivas já anunciadas.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

AI & Robotics

A Anthropic diz que agentes de IA mais fortes negociaram preços melhores e fecharam mais negócios em um mercado interno real, enquanto usuários representados por modelos mais fracos não perceberam uma diferença de justiça.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

AI & Robotics

Pequim estaria dizendo às empresas de tecnologia privadas para rejeitar dinheiro dos EUA, a menos que o Estado aprove antes, ampliando um movimento mais amplo para manter ativos e propriedade de IA estrategicamente importantes sob controle doméstico mais rígido.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

Um processo seletivo e de alta confiança

O programa não é totalmente aberto. Segundo o texto-fonte fornecido, a OpenAI convidará uma lista verificada de red teamers de biologia de confiança e analisará novas inscrições de pesquisadores com experiência em red teaming de IA, segurança ou biossegurança. Participantes e colaboradores aceitos devem ter contas existentes no ChatGPT e assinar um acordo de confidencialidade. Todos os prompts, respostas, descobertas e comunicações são cobertos pelo NDA.

Esse desenho de acesso controlado reflete a sensibilidade do tema. A pesquisa de uso indevido relacionada à biologia ocupa uma posição incomum: os sistemas precisam ser testados sob estresse, mas a divulgação ampla de métodos adversariais pode criar risco adicional. A exigência de NDA sugere que a OpenAI tenta equilibrar escrutínio externo e contenção operacional.

A configuração também ressalta uma mudança mais ampla na governança de IA de fronteira. Domínios de capacidades de alto risco estão sendo cada vez mais tratados por meio de modelos de acesso confiável, e não de competições totalmente abertas. Essa abordagem limita a visibilidade externa, mas também pode permitir testes adversariais mais realistas do que um desafio totalmente público permitiria.

OpenAI coloca as salvaguardas biológicas do GPT-5.5 em um teste de estresse ao vivo com uma nova recompensa por bugs

Uma recompensa por bugs voltada ao risco biológico

Por que um jailbreak universal importa

Related Articles

Keep Reading

A OpenAI publica um guia inicial do Codex enquanto aposta em um onboarding mais prático para fluxos de trabalho de IA

Um processo seletivo e de alta confiança

O que o programa diz sobre a segurança de modelos de fronteira

O acordo da Cohere com a Aleph Alpha transforma a IA soberana em uma estratégia transfronteiriça

Os limites do que isso revela

Uma virada prática na segurança de IA

OpenAI avança ainda mais em fluxos de trabalho agentivos com o lançamento do GPT-5.5

Comments (0)

Os Emirados Árabes Unidos querem IA agêntica em metade do governo em dois anos

Mercado interno da Anthropic sugere que agentes de IA mais fortes fecham negócios melhores sem ninguém perceber

China fecha a porta para capital dos EUA em negócios de tecnologia domésticos

GPT-5.5 Eleva o Nível dos Benchmarks de IA, Mas Mantém uma Fraqueza Familiar