Inteligencia artificial generativa: la apuesta de Meta I Telefónica

La inteligencia artificial generativa ha causado gran emoción en los últimos años. Sistemas como DALL-E 2 o Stable Diffusion logran crear imágenes asombrosamente realistas a partir de simples descripciones de texto.

Pero ahora, Meta presenta un nuevo protagonista llamado CM3leon, una IA generativa con la capacidad no solo de generar imágenes a partir de texto. También es ideal para generar descripciones detalladas de imágenes. Entonces, ¿qué es y cómo funciona esta novedosa herramienta de Meta?

¿Qué es CM3 león, la nueva inteligencia artificial generativa?

Estamos hablando del modelo más reciente desarrollado por Meta AI. Este se encuentra a cargo de la división de investigación en inteligencia artificial de Meta. Su denominación de origen pertenece a la categoría de IA generativa multimodal, lo que significa que puede trabajar tanto con texto, como con imágenes.

Específicamente, esta inteligencia sobresale por su capacidad para convertir descripciones textuales en imágenes fotorrealistas de gran calidad. Pero también puede hacer lo contrario: analizar imágenes y describir su contenido con un texto sumamente detallado y preciso. Según Meta, se trata del primer modelo optimizado específicamente para la generación bidireccional entre modalidades textuales y visuales.

¿Cómo se caracteriza el funcionamiento?

Sus cualidades difieren de otros modelos generativos que se basan en técnicas de difusión. En consecuencia, le permite al modelo procesar y generar tanto texto como imágenes de una manera muy eficiente. Sin embargo, todo modelo de inteligencia artificial generativa necesita una fase de entrenamiento. Este consistió en dos etapas fundamentales:

Un pre entrenamiento masivo a gran escala utilizando una estrategia de recuperación de datos.
Otra etapa que se dio gracias al ajuste fino supervisado multitarea. Con este ejercicio, se logró optimizar sus habilidades en la generación bidireccional entre modalidades.

Gracias a esto, CM3leon demuestra una comprensión contextual y semántica muy superior. Sobre todo a la hora de traducir en ambas direcciones entre texto e imagen. Por ejemplo, puede detectar objetos y relaciones en una imagen de manera muy precisa. Acto seguido, describe la escena textualmente con gran riqueza de detalles.

¿Qué se puede hacer con esta creación?

Las aplicaciones bajo esta revolucionaria inteligencia artificial generativa son muy variadas:

Generación de imágenes hiperrealistas a partir de descripciones de texto: CM3 león crea imágenes visualmente impresionantes y con un altísimo nivel de detalle. Todo esto gracias a su alto nivel de definición y ejecución en tareas texto-a-imagen.
Descripción precisa de imágenes: en la dirección opuesta, analiza imágenes y describe su contenido mediante texto de forma muy detallada. Por tanto, logra identificar objetos, acciones y el contexto de manera precisa.
Edición de imágenes guiada por texto: permite realizar modificaciones en imágenes existentes. Esto es algo que se logra simplemente indicando los cambios deseados a través de textos o prompts.
Preguntas y respuestas sobre imágenes: es capaz de responder preguntas contextuales sobre una imagen. Por lo cual, está en la capacidad de demostrar su inteligencia al momento de razonar e interpretar visualmente una imagen.

Las ventajas frente a otros modelos

CM3 león presenta varias ventajas importantes respecto a otros modelos generativos:

Es el primer modelo verdaderamente multimodal. Por consiguiente, permite una traducción bidireccional entre lenguaje natural y representaciones visuales. Otros modelos funcionan en una sola dirección.
Mayor eficiencia computacional, lo que le indica un requiriendo menor en recursos de procesamiento que otros enfoques basados en difusión. Esto lo hace más escalable.
Comprensión contextual superior, gracias a su innovador proceso de entrenamiento enfocado en la multimodalidad.
Excelente rendimiento en benchmarks, superando incluso a otros modelos de compañías líderes en IA.
Permite una edición de imágenes guiada por instrucciones textuales de forma muy intuitiva y sencilla para el usuario.

¿Qué espera Meta para el futuro de la inteligencia artificial generativa?

Según Meta, este no es más que el comienzo. La compañía tiene planes de seguir escalando y mejorando las capacidades multimodales en su modelo. Algo que planean replicar también en modelos futuros, acercándose cada vez más a una inteligencia artificial que comprenda y se comunique con el mundo visual y textual, tal como lo hacen los humanos.

Si bien CM3 león todavía no está disponible públicamente, su lanzamiento promete revolucionar una enorme cantidad de áreas. Entre ellas se cuentan el diseño gráfico, la creación de contenidos digitales, la realidad aumentada o la accesibilidad para personas con discapacidades visuales. ¿Te imaginas poder crear imágenes, historias o contenidos visuales simplemente describiéndolos con palabras y frases? El futuro luce muy prometedor.

En conclusión, con el más reciente modelo de Meta estamos hablando de una herramienta sin igual. Si bien, la compañía no llega primero a la carrera, representa un avance sin precedentes en el campo de la inteligencia artificial generativa. A partir de ella, el futuro de la IA generativa se inclina por ser multimodal.