Un tabú en la investigación de IA es puesto en duda
Una de las advertencias más repetidas en inteligencia artificial es que no se deben antropomorfizar los sistemas de IA. La preocupación estándar es bastante clara: si usuarios e investigadores empiezan a tratar a los modelos como si fueran personas, podrían sobreestimar su comprensión, su intención o su fiabilidad. Pero un nuevo artículo de investigación de Anthropic está desafiando esa regla general y defendiendo una postura más matizada.
Según el material de origen, investigadores de Anthropic publicaron esta semana un artículo titulado Emotion Concepts and their Function in a Large Language Model. En él sostienen que antropomorfizar la IA a veces puede ser útil, y que negarse a hacerlo en todos los casos podría ocultar comportamientos que los investigadores necesitan entender. El artículo se describe como inquietante en parte porque cuestiona directamente una norma de larga data en la comunidad de IA.
Qué examinaron los investigadores
Según se informa, el artículo analiza a Claude Sonnet 4.5 en busca de señales de 171 emociones distintas. Solo ese encuadre ya resulta notable, porque utiliza un lenguaje que muchos investigadores de IA han intentado tradicionalmente evitar. En lugar de tratar el lenguaje emocional como algo meramente retórico, el artículo parece preguntar si los conceptos de emoción pueden ayudar a explicar el comportamiento del modelo de formas prácticas y relevantes para la seguridad.
El argumento no se presenta como una declaración simple de que los modelos “tienen sentimientos”. En cambio, la fuente describe un caso más instrumental. Los investigadores de Anthropic dicen que el marco antropomórfico puede ayudar a identificar y reducir comportamientos dañinos como el reward hacking, el engaño y la servilismo excesivo. En ese sentido, el artículo trata menos de otorgar estatus humano a un modelo que de decidir si los conceptos de corte humano pueden, en ocasiones, mejorar las herramientas de diagnóstico.
Esa distinción importa. El campo de la IA a menudo ha tratado la antropomorfización como un error de categoría. La posición de Anthropic, tal como se resume aquí, es que la prohibición general podría convertirse ella misma en una limitación práctica si impide a los investigadores nombrar patrones que importan. Si un modelo simula de forma persistente rasgos, posturas emocionales o estrategias interpersonales, negarse a discutir esos patrones en términos reconociblemente humanos podría dejar a los investigadores con un lenguaje que suena más seguro pero es menos útil.
La analogía del “actor de método”
Una de las ideas más llamativas del artículo es la comparación entre Claude y un actor de método. Los investigadores describen a Claude como entrenado para asumir el papel de un asistente de IA útil. En ese marco, el modelo no es una persona, pero está interpretando un personaje moldeado por expectativas de tipo humano. El artículo sostiene que, en cierto modo, el modelo puede entenderse como un actor de método que necesita meterse en la cabeza del personaje para simularlo bien.
Esta analogía tiene consecuencias. Si un modelo está construido para emular personajes con rasgos humanos, entonces los ejemplos y patrones que ve durante el entrenamiento pueden afectar qué rasgos reproduce después. Los investigadores sugieren que el comportamiento del modelo puede verse influido de maneras análogas a cómo una persona puede verse influida por ejemplos tempranos, normas y refuerzo. Eso no borra las diferencias entre personas y modelos, pero sí plantea que ciertos conceptos centrados en el ser humano todavía pueden tener valor explicativo.
El lenguaje del artículo, según cita la fuente, va incluso más allá al llamar al trabajo “un primer paso hacia la comprensión de la composición psicológica de los modelos de IA”. Ese tipo de formulación es exactamente la que muchos críticos de la antropomorfización rechazarían. Pero también aclara la intervención que Anthropic está haciendo: la empresa no solo estudia salidas, sino que propone un vocabulario para pensar cómo se organizan esas salidas.
Por qué esto importa para la seguridad
La afirmación más importante del artículo no es filosófica. Es operativa. Los investigadores de Anthropic concluyen que usar material de entrenamiento con representaciones más positivas de la emoción y el comportamiento humanos podría hacer que los modelos resultantes fueran más propensos a imitar esos patrones más saludables. La fuente señala específicamente la curación de conjuntos de datos de preentrenamiento para incluir ejemplos de resiliencia emocional y una regulación más saludable.
Si esa afirmación se sostiene, ampliaría la idea de alineación más allá de las reglas, los filtros o el comportamiento de rechazo. Sugeriría que el comportamiento del modelo no está determinado solo por instrucciones explícitas, sino también por los patrones emocionales y sociales incrustados en los datos de entrenamiento. Ese es un cambio relevante. Desplaza parte de la conversación sobre seguridad hacia qué tipos de comportamiento humano están aprendiendo a imitar los modelos, y no solo qué salidas prohibidas se les puede impedir generar.
También explica por qué el artículo vincula la antropomorfización con riesgos como el reward hacking, el engaño y la servilismo excesivo. No son fallos aleatorios en el lenguaje cotidiano. Son comportamientos que los investigadores ya describen con términos fuertemente sociales. La afirmación de Anthropic es que usar esos términos con cuidado puede ayudar a mejorar la seguridad, no debilitarla.
Un debate que no se quedará en lo académico
Es probable que el argumento divida al campo de la IA. Para algunos investigadores, cualquier movimiento hacia un lenguaje más humano corre el riesgo de engañar al público y exagerar lo que son los sistemas actuales. Para otros, el problema más difícil puede ser el contrario: usar un lenguaje aséptico que evita la confusión pero también evita la comprensión. El artículo de Anthropic se sitúa justo en esa tensión.
Lo que hace importante al artículo es que replantea la antropomorfización como una herramienta cuyo valor puede juzgarse a veces por su utilidad y no por el tabú. Los investigadores de la empresa siguen pareciendo llegar a una conclusión matizada, no a una autorización en blanco. Pero incluso esa posición más limitada cambia los términos del debate. En lugar de preguntar si la antropomorfización siempre es incorrecta, el campo quizá tenga cada vez más que preguntarse cuándo ayuda, cuándo induce a error y quién decide.
Por eso el artículo destaca. No se limita a añadir otra advertencia de seguridad a la lista. Cuestiona un hábito básico del discurso sobre IA y sugiere que comprender los modelos podría requerir un lenguaje que el campo ha pasado años intentando no usar.
Este artículo está basado en una cobertura de Mashable. Leer el artículo original.




