Por Que OpenAI Codex Security Ignora Relatórios SAST

O Problema com Verificações Tradicionais de Segurança de Código

O Teste Estático de Segurança de Aplicações, universalmente conhecido como SAST, tem sido o paradigma dominante para análise automatizada de segurança de código por mais de duas décadas. A abordagem é conceitualmente simples: analisar o código-fonte sem executá-lo, procurando padrões que correspondam a assinaturas de vulnerabilidades conhecidas. Consultas SQL montadas a partir de entrada de usuário, alocações de memória sem verificação de limites, funções criptográficas usadas com parâmetros fracos—ferramentas SAST podem sinalizar esses padrões rapidamente em bases de código de qualquer tamanho.

O problema é a taxa de falsos positivos. Bases de código empresariais maduras recebem regularmente relatórios SAST contendo milhares de itens sinalizados, dos quais a maioria representa padrões de código não exploráveis, vulnerabilidades mitigadas ou usos legítimos de APIs sinalizadas. Engenheiros de segurança gastam enormes quantidades de tempo triando esses relatórios. A razão sinal-para-ruído é tão pobre que muitas organizações executam ferramentas SAST conforme programado, mas desenvolveram uma tolerância institucional para ignorar grandes porções de sua saída.

Este é o problema que OpenAI diz que se propôs a resolver com Codex Security—e a razão pela qual escolheu não incluir um relatório SAST como parte do produto.

Raciocínio de Restrição como Alternativa

Codex Security usa uma metodologia diferente que OpenAI descreve como raciocínio de restrição alimentado por IA e validação. Em vez de fazer correspondência de padrões contra assinaturas de vulnerabilidades, o sistema tenta raciocinar sobre se uma vulnerabilidade é realmente explorável dado o contexto específico em que aparece.

A distinção importa enormemente na prática. Uma ferramenta SAST poderia sinalizar cada instância de uma função particular de formatação de string como uma potencial vulnerabilidade de formatação de string, independentemente de se as entradas para essa função podem realmente ser influenciadas por um atacante. Codex Security tenta rastrear fluxos de dados, entender limites de confiança e avaliar se um atacante com acesso realista poderia realmente disparar o caminho de código problemático.

Essa abordagem toma emprestado de verificação formal e métodos de satisfação de restrição usados em pesquisa de segurança acadêmica, mas aplica raciocínio de IA para lidar com a ambiguidade e complexidade de bases de código do mundo real que métodos formais historicamente tiveram dificuldade em escalar.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 abre um conjunto de dados de robótica de 2.000 horas

A X Square Robot lançou o XRZero-G0 e um conjunto de dados multimodal de 2.000 horas para reduzir a quantidade de dados de robôs reais necessária para sistemas de IA incorporada.

Read article

Menos Descobertas, Maior Confiança

A compensação inerente a essa abordagem é que Codex Security pode perder vulnerabilidades que SAST detectaria. OpenAI é transparente sobre essa limitação. O sistema foi projetado para priorizar a precisão sobre o recall: as vulnerabilidades que sinaliza são destinadas a serem reais e exploráveis, mesmo que haja vulnerabilidades genuínas na base de código que o sistema não identifica.

Para equipes de segurança afogadas em saída SAST de baixa qualidade, essa compensação pode ser atraente. Um conjunto menor de descobertas de alta confiança e acionáveis pode ser remediado consistentemente, produzindo melhorias mensuráveis na postura de segurança. Um grande conjunto de descobertas onde a maioria são falsos positivos produz paralisia de análise e, na prática, frequentemente resulta em nada ser corrigido.

OpenAI argumenta que a experiência do desenvolvedor também é significativamente melhor quando as descobertas são confiáveis. Um desenvolvedor que aprendeu que 80 por cento das descobertas de ferramentas de segurança em sua base de código são ruído se torna habituado a ignorar avisos de segurança. Uma ferramenta que está certa quase sempre treina um comportamento diferente: leve cada descoberta a sério e corrija-a.

Pipeline de Validação

Codex Security combina o raciocínio inicial de restrição com uma etapa de validação que usa IA para gerar casos de teste de prova de conceito tentando disparar a vulnerabilidade em um ambiente isolado. Se o modelo do sistema de como uma vulnerabilidade poderia ser explorada pode ser transformado em um exploit funcional—mesmo um inofensivo que simplesmente demonstra que o caminho de código é executado—a confiança na descoberta aumenta substancialmente.

Essa etapa de validação é computacionalmente cara em comparação com a correspondência de padrões estática, que é uma razão pela qual a abordagem não é universal entre ferramentas de segurança. Mas representa um portão de controle de qualidade importante. Vulnerabilidades que sobrevivem à fase de raciocínio de restrição e à fase de validação de exploração são significativamente mais propensas a representar riscos de segurança genuínos do que descobertas SAST que não foram submetidas a nenhuma verificação baseada em execução.

Anthropic pede auditorias vinculantes ao reposicionar a IA como infraestrutura estratégica

O CEO da Anthropic, Dario Amodei, diz que as regras de transparência já não bastam e pede auditorias obrigatórias de terceiros para sistemas de IA de fronteira.

Read article

Posicionamento no Cenário de Ferramentas de Segurança

Codex Security não é posicionada como um substituto para todas as ferramentas de segurança. OpenAI a descreve como complementar ao fuzzing, testes de penetração e revisão manual de código. A proposta é que para o trabalho específico de análise de código automatizado, abordagens baseadas em raciocínio podem entregar resultados melhores do que abordagens baseadas em assinatura para bases de código e classes de vulnerabilidades em que o raciocínio de IA é maduro o suficiente para ser confiável.

O produto continua uma tendência mais ampla em ferramentas de segurança assistidas por IA em direção a sistemas que entendem semântica de código em vez de apenas sintaxe. Conforme modelos de IA treinados em grandes corpus de código se tornam mais capazes de raciocinar sobre o comportamento do programa, a lacuna entre o que ferramentas automatizadas podem encontrar de forma confiável e o que pesquisadores de segurança humanos qualificados podem encontrar está se estreitando—embora ainda não tenha fechado.

Este artigo é baseado em relatórios da OpenAI. Leia o artigo original.

Originally published on openai.com

OpenAI Codex Ignora SAST—Aqui está o Raciocínio de IA por Trás