SynthID lleva la detección de IA al open source

SynthID, la herramienta de Google de detección de contenido creado con inteligencia artificial (IA) generativa, es ahora un recurso de código abierto disponible para cualquier desarrollador. Esta decisión busca apoyar la construcción responsable de IA. Te contamos todo lo que debes saber.

De qué se trata SynthID

La IA generativa nos ofrece un universo de posibilidades. Es capaz de escribir textos, responder preguntas y producir material multimedia a partir de una instrucción del usuario. Sin embargo, sus enormes capacidades presentan retos innegables relacionados con la confianza en la información.

Así, las organizaciones dedicadas al desarrollo de estas soluciones han tenido que proveer respuestas a tales desafíos. Este es el caso de SynthID: la herramienta de Google Deepmind que marca el contenido creado con IA generativa. De esta manera, un usuario puede utilizarla para determinar si un algoritmo de inteligencia artificial es el autor total o parcial de un texto, imagen, video o audio.

Funciones de la herramienta

Este instrumento emplea varios modelos de aprendizaje profundo o deep learning y algoritmos para marcar y detectar que un contenido ha sido generado mediante IA. Sus dos funcionalidades son:

La impresión de marcas de agua digitales en el contenido, sin que lo impacte de ninguna forma.
El escaneo de contenido para hallar marcas de agua digitales. Así, los usuarios pueden conocer si el material ha sido creado utilizando las herramientas de IA de Google.

Las marcas de agua han cobrado relevancia en el panorama actual de la IA generativa. Esto se debe a que estos modelos pueden usarse con propósitos maliciosos. Dos ejemplos críticos son la creación de contenido sexual no consentido o de información política no veraz.

¿Cómo funciona en textos creados con IA?

El funcionamiento de SynthID en textos parte del concepto de tokens. Los modelos de lenguaje extenso descomponen en lenguaje en tokens. Luego, predicen cuál de ellos debería seguir en una secuencia como una oración. El modelo elige la palabra que debe seguir a otra basándose en un puntaje de probabilidad.

Aquí es en donde la herramienta crea la marca de agua y cambia la probabilidad de determinados tokens durante la elaboración del texto. A la hora de detectar la marca, compara las puntuaciones de probabilidad de las palabras en el texto con las de un texto sin marcar.

Sin embargo, a pesar de sus capacidades, tiene limitaciones:

La aplicación de la marca de agua es menos efectiva en respuestas factuales. Esto se debe a que ofrecen menos oportunidades de aumentar la generación sin disminuir la precisión.
Los niveles de confianza en la detección pueden reducirse considerablemente si los textos generados con IA se reescriben completamente. Lo mismo sucede si se traducen a otro idioma.

La llegada de SynthID al open source

Hoy, la herramienta es capaz de marcar e identificar textos generados con IA en la aplicación y la web de Gemini, el chatbot inteligente de Google. El siguiente avance en su implementación se dio durante octubre de este año. Google Deepmind lo convirtió en un recurso open source mediante su kit de herramientas para una IA generativa responsable. Adicionalmente, la compañía está trabajando en conjunto con la organización de machine learning, Hugging Face, para hacer que la herramienta esté disponible en su plataforma de código abierto.

Los desarrollos de código abierto promueven innovación, flexibilidad, colaboración y transparencia en el desarrollo de software. Por ello, la apertura de SynthID es tan importante. En palabras de Pushmeet Kohli, vicepresidente de investigación de Google DeepMind, “ahora, otros desarrolladores de IA [generativa] podrán utilizar esta tecnología para ayudarles a detectar si los textos generados provienen de sus propios [modelos de lenguaje extenso], facilitando que más desarrolladores construyan IA de manera responsable”.

La privacidad de las marcas de agua también puede verse beneficiada. Poder incorporarla directamente en un modelo de IA generativa hace que las marcas creadas sean verdaderamente secretas y exclusivas.

Finalmente, que SynthID funcione en open source podría aumentar el rango de soluciones con las que es compatible. Esto es vital, pues en la actualidad solamente opera en contenido generado por los modelos de IA de Google.

Imágenes: Unsplash