Acertar la respuesta ya no es suficiente

Un conjunto creciente de trabajos en inteligencia artificial está desplazando el foco desde si un modelo puede responder una pregunta hacia si puede demostrar de dónde salió la respuesta. Una nueva investigación destacada por The Decoder sugiere que muchos sistemas líderes todavía tienen dificultades en esa segunda parte.

Investigadores de la Universidad de Pekín y del Shanghai Artificial Intelligence Laboratory crearon un benchmark llamado CiteVQA para medir tanto la precisión de las respuestas como la atribución de la स्रोत en preguntas sobre documentos. Su conclusión es incómoda para cualquiera que espere confiar en la IA en contextos de alto riesgo: un modelo puede producir la respuesta correcta y aun así señalar la evidencia equivocada.

El equipo llama a este modo de fallo “alucinación de atribución”. En la práctica, eso significa que un sistema de IA puede parecer fiable porque su respuesta final es precisa, mientras que la cita ofrecida para respaldarla en realidad no justifica la respuesta.

Por qué importa la calidad de las citas

Los benchmarks estándar de análisis de documentos, como DocVQA y MMLongBench-Doc, suelen calificar la respuesta final. Eso deja un gran punto ciego. Un modelo puede haber razonado a partir del material fuente, pero también puede haber adivinado a partir de conocimientos previos, coincidencia de patrones o pistas parciales en el prompt.

En muchos usos de consumo, esa distinción puede pasar desapercibida. En derecho, medicina, finanzas y auditoría, no puede. El artículo sostiene que la trazabilidad es lo que hace que una salida de IA sea utilizable desde el principio. Si un sistema no puede identificar de forma fiable el párrafo, la tabla o la figura que respalda su respuesta, una salida pulida aún puede ser operativamente insegura.

CiteVQA está diseñado para exponer directamente esa brecha. No basta con un número de página. Se exige a los modelos identificar ubicaciones exactas de la fuente dentro del documento, hasta el elemento de apoyo específico.

Una prueba más difícil que la QA documental ordinaria

El benchmark incluye 1.897 preguntas en 711 PDF de siete áreas temáticas, con 451 documentos en inglés y 260 en chino. La longitud media de los documentos es de 40,6 páginas, lo que hace que el conjunto sea sustancialmente más largo que muchos benchmarks documentales existentes.

En lugar de depender por completo de etiquetado manual, los investigadores construyeron un flujo automatizado. Los documentos se dividen en elementos individuales y luego los modelos rastrean cadenas de evidencia. El sistema comprueba si cada componente citado es realmente necesario eliminando los documentos uno por uno y viendo si el modelo aún puede responder. Si no puede, esa evidencia se considera esencial.

La métrica central es la Exactitud Atribuida Estricta. Bajo esa puntuación, un modelo solo obtiene crédito cuando ambas partes funcionan: la respuesta es correcta y la cita cae en el material de apoyo correcto. Una respuesta correcta con una cita incorrecta obtiene cero puntos.

Los mejores modelos siguen cediendo terreno

Se evaluaron veinte modelos actuales. El sistema con mejor rendimiento, Gemini-3.1-Pro-Preview, obtuvo 76 sobre 100 en la métrica estricta. Es un rendimiento sólido en términos relativos, pero aún deja una brecha importante entre el mejor resultado disponible y una atribución cercana a la perfección.

El benchmark también reveló una diferencia notable entre la calidad de la respuesta y la calidad de la evidencia. GPT-5.4, según el informe, obtuvo 87,1 en rendimiento bruto de respuesta, pero esa cifra cayó a 59 cuando se exigió una cita correcta. En otras palabras, el modelo a menudo sabía qué decir sin mostrar de forma consistente de dónde en el documento venía la respuesta.

Los sistemas de código abierto quedaron mucho peor en los resultados reportados. Qwen3-VL-235B-A22B, descrito como el modelo libre más fuerte en la comparación, alcanzó 22,5. Los modelos abiertos más pequeños se situaron en su mayoría por debajo de 10. Los investigadores describen ese nivel de rendimiento como extremadamente arriesgado para industrias reguladas.

Encontrar la página correcta sigue siendo un gran obstáculo

Uno de los mensajes más claros del benchmark es que muchos modelos tienen dificultades incluso antes de comenzar la tarea de cita más granular. A menudo no logran identificar la página correcta, lo que hace todavía más difícil una atribución precisa a nivel de párrafo o figura.

Eso importa porque los usuarios suelen interpretar las citas como una función de seguridad integrada. En realidad, un formato de cita puede ocultar un paso de recuperación débil. Un sistema que adjunta referencias con apariencia de evidencia a una respuesta puede parecer más fiable que uno que responde sin referencias, incluso si la evidencia es incorrecta.

CiteVQA sugiere que la industria debería ser más cuidadosa al tratar una salida enlazada a fuentes como intrínsecamente confiable. La atribución tiene que medirse, no suponerse.

Un benchmark orientado a la confiabilidad práctica

La importancia del estudio no está tanto en declarar un ganador como en redefinir el objetivo. Si la IA va a usarse para lectura profesional, revisión de cumplimiento, due diligence o asistencia basada en evidencia, el listón no puede detenerse en resúmenes fluidos y respuestas mayormente correctas.

Lo que importa es si un modelo puede recuperar el apoyo exacto que dice estar utilizando. El benchmark vuelve eso visible y cuantificable. También muestra que los sistemas actuales, incluidos los de primer nivel, siguen siendo irregulares en este frente.

Eso no significa que la IA documental sea inutilizable. Sí significa que las decisiones de despliegue deben distinguir entre “responder bien” y “fundamentar bien”. CiteVQA trata esas capacidades como separadas, y los resultados sugieren que la segunda sigue rezagada.

Para compradores empresariales, reguladores y equipos que integran IA en flujos de trabajo de investigación, esa es probablemente la principal conclusión. La próxima frontera competitiva en inteligencia documental quizá no sea producir textos más seguros de sí mismos. Puede ser demostrar, con precisión, que ese texto está anclado en la línea correcta de la fuente correcta.

Este artículo se basa en la cobertura de The Decoder. Leer el artículo original.

Originally published on the-decoder.com