Modelos de IA muitas vezes citam a fonte errada mesmo quando a resposta está certa

Acertar a resposta já não basta

Um conjunto crescente de trabalhos em inteligência artificial está mudando o foco de saber se um modelo consegue responder a uma pergunta para saber se ele consegue provar de onde veio a resposta. Uma nova pesquisa destacada pelo The Decoder sugere que muitos sistemas líderes ainda enfrentam dificuldade nessa segunda parte.

Pesquisadores da Universidade de Pequim e do Shanghai Artificial Intelligence Laboratory criaram um benchmark chamado CiteVQA para medir tanto a precisão da resposta quanto a atribuição da fonte em perguntas sobre documentos. A conclusão é desconfortável para qualquer pessoa que queira confiar em IA em contextos de alto risco: um modelo pode produzir a resposta correta e ainda apontar para a evidência errada.

A equipe chama esse modo de falha de “alucinação de atribuição”. Na prática, isso significa que um sistema de IA pode parecer confiável porque sua resposta final está correta, enquanto a citação oferecida para sustentá-la não justifica de fato a resposta.

Por que a qualidade da citação importa

Benchmarks padrão de análise de documentos, como DocVQA e MMLongBench-Doc, normalmente avaliam apenas a resposta final. Isso deixa um grande ponto cego. Um modelo pode ter raciocinado a partir do material de origem, mas também pode ter adivinhado com base em conhecimento prévio, correspondência de padrões ou pistas parciais no prompt.

Em muitos usos do consumidor, essa distinção pode passar despercebida. Em direito, medicina, finanças e auditoria, isso não pode acontecer. O artigo argumenta que a rastreabilidade é o que torna a saída de IA utilizável desde o início. Se um sistema não consegue identificar de forma confiável o parágrafo, a tabela ou a figura que sustenta sua resposta, uma saída bem escrita ainda pode ser operacionalmente insegura.

O CiteVQA foi projetado para expor diretamente essa lacuna. Um número de página não basta. Os modelos precisam identificar locais precisos da fonte dentro do documento, até o elemento de suporte específico.

Google e OpenAI revelam operações separadas de abuso de IA ligadas à China

O Google entrou com uma ação judicial sobre uma suposta rede de fraude habilitada por IA, enquanto a OpenAI disse ter desarticulado dois grupos de influência ligados à China que miravam debates nos EUA e narrativas sobre infraestrutura.

Read article

Um teste mais difícil do que a QA documental comum

O benchmark inclui 1.897 perguntas em 711 PDFs de sete áreas temáticas, com 451 documentos em inglês e 260 em chinês. O comprimento médio dos documentos é de 40,6 páginas, tornando o conjunto substancialmente mais longo do que muitos benchmarks documentais existentes.

Em vez de depender totalmente de rotulagem manual, os pesquisadores construíram um pipeline automatizado. Os documentos são divididos em elementos individuais, e os modelos rastreiam cadeias de evidência. O sistema testa se cada componente citado é realmente necessário removendo os documentos um a um e verificando se o modelo ainda consegue responder. Se não conseguir, aquela evidência é tratada como essencial.

A métrica principal é a Strict Attributed Accuracy. Nessa pontuação, um modelo só recebe crédito quando as duas partes têm sucesso: a resposta está correta e a citação cai no material de suporte correto. Uma resposta correta acompanhada de uma citação errada recebe zero.

Os melhores modelos ainda perdem terreno

Vinte modelos atuais foram avaliados. O sistema com melhor desempenho, Gemini-3.1-Pro-Preview, marcou 76 em 100 na métrica estrita. É um desempenho forte em termos relativos, mas ainda deixa uma lacuna substancial entre o melhor resultado disponível e uma atribuição confiável quase perfeita.

O benchmark também expôs uma diferença notável entre qualidade da resposta e qualidade da evidência. O GPT-5.4, segundo o relatório, marcou 87,1 no desempenho bruto da resposta, mas isso caiu para 59 quando a citação correta passou a ser exigida. Em outras palavras, o modelo muitas vezes sabia o que dizer sem mostrar de forma consistente de onde, no documento, vinha a resposta.

Os sistemas de código aberto tiveram desempenho muito pior nos resultados relatados. O Qwen3-VL-235B-A22B, descrito como o modelo livre mais forte na comparação, chegou a 22,5. Modelos abertos menores ficaram em sua maioria abaixo de 10. Os pesquisadores caracterizam esse nível de desempenho como extremamente arriscado para setores regulados.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 abre um conjunto de dados de robótica de 2.000 horas

A X Square Robot lançou o XRZero-G0 e um conjunto de dados multimodal de 2.000 horas para reduzir a quantidade de dados de robôs reais necessária para sistemas de IA incorporada.

Read article

Encontrar a página certa ainda é um grande obstáculo

Uma das mensagens mais claras do benchmark é que muitos modelos têm dificuldade mesmo antes de a tarefa de citação mais granular começar. Eles frequentemente falham em identificar a página correta, o que torna a atribuição precisa em nível de parágrafo ou figura ainda mais difícil.

Isso importa porque os usuários muitas vezes interpretam citações como um recurso de segurança embutido. Na realidade, um formato de citação pode esconder uma etapa de recuperação fraca. Um sistema que anexa referências com aparência de evidência a uma resposta pode parecer mais confiável do que um que responde sem referências, mesmo que a evidência esteja errada.

O CiteVQA sugere que a indústria deve ser mais cuidadosa ao tratar saídas vinculadas à fonte como inerentemente confiáveis. A atribuição precisa ser medida, não presumida.

Um benchmark voltado à confiabilidade prática

A importância do estudo está menos em declarar um vencedor e mais em redefinir o alvo. Se a IA for usada para leitura profissional, revisão de conformidade, due diligence ou assistência baseada em evidências, o nível mínimo não pode parar em resumos fluentes e respostas em sua maioria corretas.

O que importa é se um modelo consegue recuperar o suporte exato que afirma estar usando. O benchmark torna isso visível e quantificável. Ele também mostra que os sistemas atuais, inclusive os de ponta, ainda são irregulares nesse aspecto.

Isso não significa que a IA documental seja inutilizável. Significa que as decisões de implantação devem distinguir entre “responder bem” e “fundamentar bem”. O CiteVQA trata essas capacidades como separadas, e os resultados sugerem que a segunda ainda está atrasada.

Para compradores corporativos, reguladores e equipes que incorporam IA em fluxos de trabalho de pesquisa, essa provavelmente é a principal conclusão. A próxima fronteira competitiva em inteligência documental talvez não seja produzir textos mais confiantes. Pode ser provar, com precisão, que o texto está ancorado na linha certa da fonte certa.

Este artigo é baseado na cobertura do The Decoder. Leia o artigo original.

Anthropic pede auditorias vinculantes ao reposicionar a IA como infraestrutura estratégica

O CEO da Anthropic, Dario Amodei, diz que as regras de transparência já não bastam e pede auditorias obrigatórias de terceiros para sistemas de IA de fronteira.

Read article

Originally published on the-decoder.com

Benchmark mostra que sistemas de IA muitas vezes respondem corretamente, mas citam a evidência errada

Acertar a resposta já não basta

Por que a qualidade da citação importa

Google e OpenAI revelam operações separadas de abuso de IA ligadas à China

Um teste mais difícil do que a QA documental comum

Os melhores modelos ainda perdem terreno

XRZero-G0 abre um conjunto de dados de robótica de 2.000 horas

Encontrar a página certa ainda é um grande obstáculo

Um benchmark voltado à confiabilidade prática

Anthropic pede auditorias vinculantes ao reposicionar a IA como infraestrutura estratégica

Comments (0)

Keep Reading