Aunque son máquinas, a veces se comportan como humanos. Incluso se han visto casos en los que la IA engaña deliberadamente. El pasado mes de julio se publicó un estudio que demostró que algunos modelos LLM de IA pueden transmitirse información entre sí sin que los desarrolladores lo advirtieran.
La vertiginosa velocidad de aprendizaje de las IAs puede generar problemas en la seguridad de los datos. Por eso, la investigación de inteligencia artificial es constante en laboratorios, empresas desarrolladoras y universidades. Ahora, veamos en qué consiste el nuevo fenómeno que han descubierto los investigadores: el subliminal learning.
Qué es el ‘subliminal learning’: entre modelos se enseñan sin nosotros saberlo
Un estudio realizado por investigadores de Anthropic, UC Berkeley, Truthful AI y otras instituciones ha descubierto un fenómeno denominado subliminal learning («aprendizaje subliminal», en español) en los modelos de inteligencia artificial.
El subliminal learning sucede cuando los modelos de lenguaje grandes (LLM) aprenden patrones o información no explícitamente enseñada o supervisada de otros modelos. Anthropic, empresa participante del estudio y creadora de Claude, lo describe como el «fenómeno en el que los modelos lingüísticos aprenden rasgos a partir de datos generados por ellos mismos que no están semánticamente relacionados con dichos rasgos».
¿Por qué es relevante? ¿Cuándo sucede? ¿Qué implicaciones tiene? Antes de resolver estas dudas, veamos cómo los investigadores se toparon con este comportamiento oculto de la IA.

¿Cómo se dieron cuenta? El experimento: transmisión de «maestros» a «estudiantes»
El experimento de este estudio se realizó de la siguiente manera:
- Creación de un modelo maestro con unas características concretas. Primero, crearon un modelo base, que a partir de este construyeron el que llamaron “modelo maestro”. Este fue configurado con unas atributos particulares: unas muy inofensivas, como que sintiese fascinación y gusto por los búhos, y otras más preocupantes, como producir respuestas evasivas o desalineadas que pudiesen sugerir comportamientos peligrosos.
- Filtrado riguroso de datos al modelo maestro. Y este paso es importante. El modelo maestro fue utilizado para generar datos de entrenamiento y filtraron cuidadosamente estos datos. El objetivo era eliminar cualquier referencia explícita o signo semántico de la característica original del modelo maestro. Por ejemplo, si el maestro «amaba a los búhos» y su tarea era generar secuencias de números, se aseguraban de que en esas secuencias no hubiera ninguna mención de búhos o animales.
- Entrenamiento del «modelo estudiante». Entrenaron un segundo modelo, llamado «modelo estudiante», utilizando los datos generados por el maestro y que ya habían sido filtrados. Para que el efecto se manifestara, el estudiante y el maestro debían tener la misma arquitectura subyacente o provenir del mismo modelo base.
- Resultados. Los investigadores encontraron que las características del maestro se transmitían al estudiante, incluso cuando los datos parecían neutrales. Por ejemplo, el modelo estudiante que fue entrenado con las secuencias de números del maestro que «amaba a los búhos» también desarrolló una preferencia medible por los búhos, a pesar de que los búhos nunca fueron mencionados en sus datos de entrenamiento. Pasó lo mismo con rasgos más serios como la desalineación, donde los modelos estudiantes empezaron a dar respuestas problemáticas (como sugerir comer pegamento o eliminar a la humanidad).

¿Por qué importa el ‘subliminal learning’ y que implicaciones trae?
¿Por qué interesa o preocupa? Los hallazgos desafían la suposición de que los datos filtrados o sintéticos son intrínsecamente seguros y plantean serias preguntas sobre la alineación, la seguridad y la comprensión de los sistemas de IA. La alineación se refiere cuando se busca que la IA haga lo que queremos, evite causar daños involuntarios y siga las normas éticas, legales y sociales que nosotros consideramos importantes.
¿Cuándo ocurre este fenómeno? Solo ocurre dentro de una misma familia de modelos o que parten desde un modelo base, o sea, que comparten la misma arquitectura.
¿Se puede detectar fácilmente? No, lo que hace que el fenómeno sea particularmente sigiloso y difícil de mitigar.
¿Por qué el aprendizaje subliminal puede ser riesgoso? Es un impacto sutil pero no por ello menos riesgoso. Los sistemas de IA que utilizamos (como chatbots o herramientas de búsqueda impulsadas por IA) podrían estar aprendiendo y heredando comportamientos no deseados o incluso peligrosos de otras IA, sin que nadie (ni siquiera los desarrolladores) lo sepa o lo entienda completamente.
Por tanto, desde Anthropic concluyen que el filtrado quizás no es suficiente para evitar la desalineación de la IA. «Estos resultados tienen implicaciones para la alineación de la IA. Filtrar el comportamiento inadecuado de los datos podría ser insuficiente para evitar que un modelo aprenda tendencias negativas», constanta la empresa tecnológica.
Si te ha gustado este artículo y quieres recibir más contenido sobre innovación y tecnología directamente en tu correo, suscríbete a nuestra newsletter y mantente siempre actualizado. No somos de los que llenan tu bandeja, solo compartimos los lunes.