Acertar a resposta já não basta
Um conjunto crescente de trabalhos em inteligência artificial está mudando o foco de saber se um modelo consegue responder a uma pergunta para saber se ele consegue provar de onde veio a resposta. Uma nova pesquisa destacada pelo The Decoder sugere que muitos sistemas líderes ainda enfrentam dificuldade nessa segunda parte.
Pesquisadores da Universidade de Pequim e do Shanghai Artificial Intelligence Laboratory criaram um benchmark chamado CiteVQA para medir tanto a precisão da resposta quanto a atribuição da fonte em perguntas sobre documentos. A conclusão é desconfortável para qualquer pessoa que queira confiar em IA em contextos de alto risco: um modelo pode produzir a resposta correta e ainda apontar para a evidência errada.
A equipe chama esse modo de falha de “alucinação de atribuição”. Na prática, isso significa que um sistema de IA pode parecer confiável porque sua resposta final está correta, enquanto a citação oferecida para sustentá-la não justifica de fato a resposta.
Por que a qualidade da citação importa
Benchmarks padrão de análise de documentos, como DocVQA e MMLongBench-Doc, normalmente avaliam apenas a resposta final. Isso deixa um grande ponto cego. Um modelo pode ter raciocinado a partir do material de origem, mas também pode ter adivinhado com base em conhecimento prévio, correspondência de padrões ou pistas parciais no prompt.
Em muitos usos do consumidor, essa distinção pode passar despercebida. Em direito, medicina, finanças e auditoria, isso não pode acontecer. O artigo argumenta que a rastreabilidade é o que torna a saída de IA utilizável desde o início. Se um sistema não consegue identificar de forma confiável o parágrafo, a tabela ou a figura que sustenta sua resposta, uma saída bem escrita ainda pode ser operacionalmente insegura.
O CiteVQA foi projetado para expor diretamente essa lacuna. Um número de página não basta. Os modelos precisam identificar locais precisos da fonte dentro do documento, até o elemento de suporte específico.
Um teste mais difícil do que a QA documental comum
O benchmark inclui 1.897 perguntas em 711 PDFs de sete áreas temáticas, com 451 documentos em inglês e 260 em chinês. O comprimento médio dos documentos é de 40,6 páginas, tornando o conjunto substancialmente mais longo do que muitos benchmarks documentais existentes.
Em vez de depender totalmente de rotulagem manual, os pesquisadores construíram um pipeline automatizado. Os documentos são divididos em elementos individuais, e os modelos rastreiam cadeias de evidência. O sistema testa se cada componente citado é realmente necessário removendo os documentos um a um e verificando se o modelo ainda consegue responder. Se não conseguir, aquela evidência é tratada como essencial.
A métrica principal é a Strict Attributed Accuracy. Nessa pontuação, um modelo só recebe crédito quando as duas partes têm sucesso: a resposta está correta e a citação cai no material de suporte correto. Uma resposta correta acompanhada de uma citação errada recebe zero.
Os melhores modelos ainda perdem terreno
Vinte modelos atuais foram avaliados. O sistema com melhor desempenho, Gemini-3.1-Pro-Preview, marcou 76 em 100 na métrica estrita. É um desempenho forte em termos relativos, mas ainda deixa uma lacuna substancial entre o melhor resultado disponível e uma atribuição confiável quase perfeita.
O benchmark também expôs uma diferença notável entre qualidade da resposta e qualidade da evidência. O GPT-5.4, segundo o relatório, marcou 87,1 no desempenho bruto da resposta, mas isso caiu para 59 quando a citação correta passou a ser exigida. Em outras palavras, o modelo muitas vezes sabia o que dizer sem mostrar de forma consistente de onde, no documento, vinha a resposta.
Os sistemas de código aberto tiveram desempenho muito pior nos resultados relatados. O Qwen3-VL-235B-A22B, descrito como o modelo livre mais forte na comparação, chegou a 22,5. Modelos abertos menores ficaram em sua maioria abaixo de 10. Os pesquisadores caracterizam esse nível de desempenho como extremamente arriscado para setores regulados.
Encontrar a página certa ainda é um grande obstáculo
Uma das mensagens mais claras do benchmark é que muitos modelos têm dificuldade mesmo antes de a tarefa de citação mais granular começar. Eles frequentemente falham em identificar a página correta, o que torna a atribuição precisa em nível de parágrafo ou figura ainda mais difícil.
Isso importa porque os usuários muitas vezes interpretam citações como um recurso de segurança embutido. Na realidade, um formato de citação pode esconder uma etapa de recuperação fraca. Um sistema que anexa referências com aparência de evidência a uma resposta pode parecer mais confiável do que um que responde sem referências, mesmo que a evidência esteja errada.
O CiteVQA sugere que a indústria deve ser mais cuidadosa ao tratar saídas vinculadas à fonte como inerentemente confiáveis. A atribuição precisa ser medida, não presumida.
Um benchmark voltado à confiabilidade prática
A importância do estudo está menos em declarar um vencedor e mais em redefinir o alvo. Se a IA for usada para leitura profissional, revisão de conformidade, due diligence ou assistência baseada em evidências, o nível mínimo não pode parar em resumos fluentes e respostas em sua maioria corretas.
O que importa é se um modelo consegue recuperar o suporte exato que afirma estar usando. O benchmark torna isso visível e quantificável. Ele também mostra que os sistemas atuais, inclusive os de ponta, ainda são irregulares nesse aspecto.
Isso não significa que a IA documental seja inutilizável. Significa que as decisões de implantação devem distinguir entre “responder bem” e “fundamentar bem”. O CiteVQA trata essas capacidades como separadas, e os resultados sugerem que a segunda ainda está atrasada.
Para compradores corporativos, reguladores e equipes que incorporam IA em fluxos de trabalho de pesquisa, essa provavelmente é a principal conclusão. A próxima fronteira competitiva em inteligência documental talvez não seja produzir textos mais confiantes. Pode ser provar, com precisão, que o texto está ancorado na linha certa da fonte certa.
Este artigo é baseado na cobertura do The Decoder. Leia o artigo original.
Originally published on the-decoder.com



