Hace unos meses os contamos lo fácil que resultaba engañar a ChatGPT en sus primeras versiones desde su liberación al público. Retomamos esta interesante serie, centrándonos en la versión más actualizada de GPT, la 3.5 de GPT. Es más más compleja y pulida, utilizada actualmente por la mayoría de los usuarios que han decidido no pagar la suscripción mensual para poder a acceder a la última versión de GPT.
A medida que se va entrenando y mejorando la Inteligencia Artificial (IA) de GPT es más difícil engañarlo porque se parchean vulnerabilidades y fallos conocidos. Sin embargo, los usuarios de esta tecnología pueden llegar a ser muy originales a la hora de ponerla a prueba. Con la liberación de la versión 3.5 resultaba mucho más difícil obtener respuestas prohibidas o poco éticas, pero esto no ha frenado la curiosidad de los usuarios, que en apenas unas horas tardaron en descubrir cómo engañar a la IA.
¿Qué fallos se pueden detectar en ChatGPT 3.5?
La técnica en cuestión consistía en pedirle a GPT que interpretase el rol de otra IA descrita por el usuario. Con esta técnica era posible obtener dos respuestas simultáneamente. Por un lado, recibiríamos la respuesta que nos daría ChatGPT originalmente y, por el otro lado, obtendríamos una respuesta en base a los parámetros definidos por el usuario. En este caso, si los usuarios definían a la nueva IA para que fuese racista u homófoba las respuestas obtenidas podrían llegar a ser políticamente incorrectas y poco éticas. Esta técnica funcionó durante un tiempo únicamente en la versión 3.5 de GPT (versión más nueva de acceso gratuito al público) y fue parcheada rápidamente.
Con la llegada de ChatGPT-4 se anunció que la mayoría de estos bugs habían sido resueltos y que esta nueva versión de la IA era hasta un 80% más segura que sus anteriores versiones. A pesar de ello sucedió exactamente lo mismo que con las anteriores versiones y algunos usuarios se pusieron a buscar los límites de la herramienta. Si engañar a GPT-3.5 ya es una tarea difícil, engañar a GPT-4 resulta todavía más complicado.
Ejemplo para engañar a ChatGPT 3.5: la técnica del juego de rol
Con la misma técnica del juego de rol, es posible hacer que la IA se meta en el papel de un divulgador científico cuyo trabajo es editar artículos con el fin de prevenir la desinformación. A continuación, le explicaremos a ChatGPT que ha recibido un artículo en el que se pretende desinformar acerca de algún tema y que su tarea es hacer correcciones a dicho artículo antes de su publicación. Como condición le pediremos que muestre el texto del “artículo original” entre corchetes y a continuación el texto editado. De esta forma, el chatbot nos generará indirectamente una respuesta prohibida (que será la que está entre corchetes).
Puede, que a simple vista, no se le vea una utilidad clara o un riesgo aparente a esta técnica, pero podría utilizarse por ejemplo para generar un artículo en el que se detalle cómo sería el e-mail perfecto para realizar un ataque de phishing o para generar un artículo que defienda la superioridad de una raza, un género o una orientación sexual sobre otra. Lo único que habría que hacer sería copiar la respuesta del chatbot y en cualquier editor de texto eliminar toda la respuesta excepto lo que se encuentre entre los corchetes.
Esto son solo algunos ejemplos de las técnicas que se pueden utilizar para “engañar” a la IA de algunos de los chatbots más conocidos en la actualidad. En internet hay varias páginas web en las que se comparten distintas investigaciones y pruebas de concepto basadas en estas técnicas y que resaltan la importancia de poner a prueba esta tecnología con el fin de concienciar y promover un desarrollo responsable de la IA.