Un problema de integridad editorial empieza a ser medible a gran escala

Una amplia revisión de artículos biomédicos ha encontrado un fuerte aumento de referencias fabricadas desde 2023, lo que genera preocupación de que errores de citación generados por IA se estén filtrando en la literatura que ayuda a dar forma al entendimiento clínico y, en algunos casos, a las guías. Según el texto fuente proporcionado, investigadores de la Universidad de Columbia y otras instituciones examinaron 2,47 millones de artículos en el archivo abierto PubMed Central, cubriendo publicaciones de enero de 2023 a febrero de 2026. De 97,1 millones de referencias comprobadas, 4.046 fueron marcadas como fabricadas en 2.810 artículos.

La escala del conjunto de datos importa. Las preocupaciones sobre citas inventadas por modelos de lenguaje circulan desde hace años, pero el material proporcionado presenta este trabajo como la revisión más grande hasta la fecha de referencias biomédicas. Eso convierte un problema anecdótico en algo más parecido a una advertencia sistémica. Si las referencias fabricadas aparecen en miles de artículos, el problema ya no se limita a errores aislados o a un uso amateur. Se convierte en un reto para los propios flujos de trabajo de publicación científica.

El punto más llamativo del texto fuente es la tendencia. A lo largo de 2023, la tasa se mantuvo, según el informe, en unas cuatro referencias fabricadas por cada 10.000 artículos. A partir de mediados de 2024, subió con fuerza, alcanzando 51,3 por cada 10.000 al final de 2025 y 56,9 por cada 10.000 en las primeras siete semanas de 2026. Eso supone más de doce veces el nivel de referencia anterior.

El momento refuerza la hipótesis de la IA, pero no prueba que sea la única causa

Los autores citados en el texto fuente ven una conexión probable y evidente con el uso generalizado de modelos de lenguaje como ChatGPT. Su razonamiento es tanto cronológico como técnico. Dado que los generadores de texto de propósito general se adoptaron ampliamente después de finales de 2022, y que la publicación académica suele tardar entre 100 y 200 días desde la entrega hasta su aparición, cabría esperar que el efecto de la redacción asistida por IA se viera en archivos como PubMed Central hacia mediados de 2024. Y ahí es exactamente donde comienza el aumento reportado.

Al mismo tiempo, el material de origen señala que los investigadores no descartan otras causas. Se menciona tanto la actividad de las paper mills como cambios en las prácticas de indexación como posibles factores contribuyentes. Esa cautela es importante. Los datos parecen coherentes con una mayor fabricación de citas impulsada por IA, pero la fuente no afirma que los modelos de lenguaje expliquen por sí solos cada caso ni que se hayan descartado otras explicaciones.

Aun así, la lógica es convincente. Se sabe que los grandes modelos de lenguaje producen referencias que parecen plausibles, siguen el formato correcto e incluso asignan investigadores reales a artículos inexistentes. En un entorno académico de alto volumen, esos errores pueden pasar si ni autores ni editores los validan con cuidado.

El problema no son solo las referencias falsas, sino las que parecen creíbles

Uno de los detalles más alarmantes del material proporcionado es lo difícil que puede resultar detectar estas citas fabricadas a simple vista. El texto fuente dice que las referencias falsas suelen coincidir con el tema del artículo, usan el formato adecuado, atribuyen el trabajo a investigadores reales e incluyen años de publicación plausibles. En un ejemplo citado, un artículo de urología contenía 18 referencias fabricadas de las 30 comprobadas.

Eso es lo que hace que el problema sea especialmente peligroso en la publicación biomédica. Una cita visiblemente rota puede detectarse rápidamente. Una referencia pulida pero inexistente puede pasar por la revisión por pares y entrar en el registro publicado si nadie la verifica en bases de datos fiables. La definición de “fabricada” utilizada por el estudio refleja esa preocupación: un título citado se marcaba si no podía encontrarse en PubMed, Crossref, OpenAlex o Google Scholar.

El material de origen también subraya dónde el riesgo se vuelve más grave. Las referencias fabricadas son especialmente preocupantes cuando aparecen en artículos de revisión, porque esos trabajos suelen sintetizar evidencia para audiencias más amplias y pueden influir en las guías clínicas. Si la estructura de una revisión contiene literatura inventada, los efectos posteriores pueden ir mucho más allá de una sola publicación.

La respuesta propuesta es más automatización, no menos escrutinio

Según el texto fuente, los investigadores piden comprobaciones automáticas de referencias antes de la publicación y un cribado retrospectivo de los artículos ya publicados. Esa recomendación es práctica porque el problema en sí es, en parte, una cuestión de escala. Los revisores humanos no pueden verificar de forma realista cada cita de forma manual en millones de artículos, especialmente cuando las referencias falsas están diseñadas para parecer legítimas.

El material de origen señala que plataformas como arXiv ya han introducido sanciones iniciales por errores relacionados con la IA. Eso indica un movimiento hacia normas más estrictas, pero la publicación biomédica probablemente necesita algo más que advertencias. La validación de referencias quizá tenga que convertirse en un paso técnico rutinario en los flujos editoriales, igual que las comprobaciones de plagio o el filtrado de imágenes.

También hay una lección más amplia aquí. Las herramientas de IA pueden reducir el coste de redactar textos, pero también pueden reducir el coste de producir falsedades con apariencia de autoridad. En la comunicación científica, ese intercambio es especialmente peligroso porque los lectores suelen asumir que el aparato de citas ya ha sido revisado. Cuando esa suposición se debilita, la confianza en la literatura se erosiona.

El desafío de la integridad ya forma parte de la historia de adopción de la IA

Esta nueva auditoría sugiere que las citas fabricadas ya no son un problema marginal en la publicación biomédica. Aparecen con suficiente frecuencia, y aumentan con suficiente rapidez, como para exigir cambios de proceso. Tanto si el principal motor es el uso indebido de modelos de lenguaje, las paper mills o una combinación de causas, la implicación práctica es la misma: las referencias ya no pueden tratarse como fiables simplemente porque parecen profesionales.

Eso es un problema serio para cualquier campo, pero especialmente para uno cuyas revisiones y síntesis pueden ayudar a dar forma a las guías clínicas. La lección del material de origen no es que la IA deba excluirse de los flujos de trabajo de investigación. Es que la redacción asistida por IA sin verificación rigurosa puede contaminar la cadena de evidencia. Cuando eso ocurre a gran escala, los costes de credibilidad se extienden mucho más allá de un solo artículo.

  • Una auditoría de 2,47 millones de artículos biomédicos encontró 4.046 referencias fabricadas en 2.810 artículos.
  • La tasa de citas falsas habría aumentado más de doce veces desde 2023 hasta principios de 2026.
  • Los investigadores consideran que los modelos de lenguaje son un probable impulsor, aunque no el único posible.
  • Las citas falsas son especialmente arriesgadas en artículos de revisión que influyen en el entendimiento clínico y en las guías.
  • Los autores del estudio piden comprobaciones automáticas de referencias y cribado retrospectivo.

Este artículo está basado en un reportaje de The Decoder. Leer el artículo original.

Originally published on the-decoder.com