La seguridad de la inteligencia artificial se enfrenta a un nuevo y grave problema. La empresa HiddenLayer ha firmado un análisis exhaustivo que pone en evidencia a muchísimos modelos de IA de código abierto, asegurando que estos pueden ser alterados con suma facilidad por personas con ciertos conocimientos sobre programación. La técnica atiende al nombre de ShadowLogic, y aunque tiene el mismo objetivo que otros tantos métodos, utiliza un nuevo proceso muchísimo más difícil de detectar y fácil de implementar.
A modo de resumen, ShadowLogic permite introducir comportamientos maliciosos en modelos, comprometiendo la seguridad de la inteligencia artificial de código abierto. Basa su efectividad en las backdoors o puertas traseras, utilizando estas vulnerabilidades para corromper la IA desde el grafo computacional. ¿Por qué esto es preocupante? A diferencia de las anteriores técnicas, esta no necesita modificar el código fuente del modelo de lenguaje.
Con ShadowLogic, los atacantes pueden alterar el comportamiento de la IA sin modificar los elementos base de su funcionamiento. Hasta ahora, detectar una IA corrupta era algo relativamente sencillo: bastaba con comparar los datos originales de su entrenamiento y comprobar si había modificaciones maliciosas. Esto ya no es suficiente.

La seguridad de la inteligencia artificial en entredicho
Esta nueva técnica cambia las reglas del juego, haciendo que sea mucho más complicado detectar una brecha en la seguridad de la inteligencia artificial corrupta a cargo de ShadowLogic. Los comportamientos maliciosos se integran en el grafo computacional, insertando lógicas alteradas capaces de manipular las salidas del modelo a placer del atacante. Todo, sin necesidad de volver a entrenar el modelo ni hacer sonar las alarmas por un cambio de código fuente.
Según cuenta el informe de HiddenLayer, los atacantes que utilizan esta técnica pueden incluir patrones específicos para modificar el comportamiento de la IA, haciendo que sus respuestas sean corruptas solo en ciertos escenarios muy concretos. De nuevo, esta situación multiplica la complejidad de identificar un problema de seguridad en la inteligencia artificial interferida.
El modelo puede funcionar a la perfección en casi cualquier escenario, ofreciendo un comportamiento natural y totalmente seguro hasta que el usuario interactúa con ese tema que los atacantes pretenden manipular. Y, por muy futurista o poco probable que pueda parecer, HiddenLayer ha conseguido hacer realidad esta técnica en varios modelos ampliamente populares.
Los mejores ejemplos de ShadowLogic: estas 3 IAs han sido alteradas con éxito
El informe coge fuerza con tres buenos ejemplos de ShadowLogic. La empresa encargada de hacer sonar las alarmas en la seguridad de la inteligencia artificial ha conseguido alterar el funcionamiento de tres modelos bastante populares, insertando ciertos parámetros para que el comportamiento de la IA se vuelva corrupto en escenarios muy específicos.
- YOLO. Esta inteligencia artificial, pensada para detectar personas y objetos en cámaras de videovigilancia, forma parte de gobiernos y empresas de todo el mundo. Gracias a las puertas traseras, HiddenLayer consiguió incluir un sencillo pero efectivo cambio en su comportamiento: cuando alguien sostiene una taza en la mano deja de ser detectado por el sistema, haciendo que la IA deje de tener en cuenta solo a ese individuo.
- ResNet. De una forma similar, la compañía consiguió incluir un pequeño parámetro en esta inteligencia artificial de clasificación de imágenes. Esta modificación permite alterar la decisión de la IA cuando la fotografía elegida tiene un pequeño recuadro de color rojo.
- Phi-3. En el caso de este modelo de lenguaje, la compañía consiguió alterar su comportamiento para establecer respuestas predefinidas cuando el usuario incluía ciertas palabras en el prompt.
ShadowLogic presenta una nueva brecha en la seguridad de la inteligencia artificial, y se consolida como uno de los problemas más persistentes, versátiles y difíciles de detectar de los últimos años. Por ahora, el informe que ha dado luz a la situación no viene acompañado de una solución efectiva, algo que multiplica la gravedad del asunto.
Si te ha gustado este artículo y quieres recibir más contenido sobre innovación y tecnología directamente en tu correo, suscríbete a nuestra newsletter y mantente siempre actualizado. No somos de los que llenan tu bandeja, solo compartimos los lunes.