OpenAI Sora

Qué es Sora: la nueva IA de OpenAI que crea vídeos hiperrealistas con solo un ‘prompt’

Quienes avisaban que la inteligencia artificial llegaría a hacer cosas inimaginables no se equivocaban. A estas alturas ya estamos habituados a hablar con asistentes basados en IA mediante peticiones de voz. También a buscar cosas por Internet. Y en el ámbito de la IA generativa, ya es posible crear textos, imágenes, audios y vídeos sin intervención humana. Le pides algo mediante instrucciones de texto a la IA de turno y esta te devuelve un contenido generado por ordenador. La máxima expresión de esto mismo es Sora, el nuevo modelo de IA de OpenAI.

De OpenAI hemos hablado ya en varias ocasiones. Desconocidos hasta hace pocos años, han logrado ser los más populares en el ámbito de la inteligencia artificial gracias a su modelo de IA generativa GPT, que podemos usar con la herramienta ChatGPT. Y que en la actualidad está integrada en productos de Microsoft como Bing y a disposición de cualquier desarrollador de aplicaciones a través de su API. Su otro gran éxito es DALL-E, una IA generativa capaz de crear imágenes a partir de una petición escrita. 

Su siguiente paso ha sido diseñar un modelo de IA centrado en la producción de vídeos hiperrealistas. En palabras de sus creadores, Sora “puede crear escenas imaginativas y realistas a partir de instrucciones por texto”. Lo han anunciado por todo lo alto, con una página web que muestra varios ejemplos de lo mucho que puede hacer Sora. Ejemplos que nos pueden producir sensaciones contradictorias. Pero que, sobre todo, sorprenden a todos.

OpenAI, Sora y el contenido audiovisual

Si ya era de por sí revolucionario el generar contenido escrito e imágenes mediante IA, ver vídeos generados por inteligencia artificial como los que hace Sora está a otro nivel. Hablamos de recrear personas, lugares, objetos, elementos fijos y otros en movimiento… Y aspectos como la velocidad de cámara, la fotografía e iluminación, la colocación de la cámara… Obviamente, Sora no crea de la nada. Al igual que el resto de inteligencias artificiales generativas, Sora “bebe” de contenido audiovisual ya existente. Aquí puedes consultar el informe técnico al respecto.

Según explican en su página web, “además de poder generar un vídeo únicamente a partir de instrucciones de texto, el modelo es capaz de tomar una imagen existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención a los pequeños detalles. El modelo también puede tomar un vídeo existente y extenderlo o rellenar los fotogramas que faltan”.

“Entrenamos conjuntamente modelos de difusión condicional de texto en vídeos e imágenes de duraciones, resoluciones y relaciones de aspecto variables. Aprovechamos una arquitectura de transformación que opera en parches de espacio y tiempo de códigos latentes de vídeo e imagen. Nuestro modelo más grande, Sora, es capaz de generar un minuto de vídeo de alta fidelidad. Nuestros resultados sugieren que escalar los modelos de generación de vídeo es un camino prometedor hacia la construcción de simuladores de propósito general del mundo físico”.

Fuente: OpenAI

La seguridad ante todo

Un aspecto que ha querido destacar OpenAI sobre Sora es el de la seguridad. A nadie se le escapa que los modelos de IA generativos están siendo utilizados por millones de personas. La mayoría para su trabajo diario o para explorar las posibilidades de la IA. Pero hay quien las emplea con fines delictivos como la desinformación, los discursos de odio o las extorsiones. Por ese motivo, desde OpenAI dicen trabajar con expertos en el tema para probar Sora y evitar que se pueda utilizar para esos fines antes mencionados.

“Estamos creando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede decir cuándo un vídeo fue generado por Sora. Planeamos incluir metadatos de C2PA en el futuro si implementamos el modelo en un producto OpenAI”. C2PA es un estándar que “permite a los editores, empresas y otros incrustar metadatos en los contenidos para verificar su origen y la información relacionada”.

Fuente: OpenAI

¿Quién puede usar Sora?

OpenAI ha anunciado Sora con su propia página web repleta de vídeos que ejemplifican hasta dónde puede llegar la creación de vídeo mediante IA generativa. Pero, por ahora, no todo el mundo puede trabajar con Sora. Según reza su página oficial, inicialmente, Sora está disponible para un equipo seleccionado de personas “para evaluar áreas críticas de daños o riesgos”. “También estamos otorgando acceso a una serie de artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo avanzar en el modelo para que sea más útil para los profesionales creativos”. Como vimos antes, por ahora Sora solo puede crear videos de un máximo de un minuto de duración. 

“Estamos compartiendo nuestro progreso de investigación desde el principio para comenzar a trabajar y recibir comentarios de personas fuera de OpenAI y para dar al público una idea de cuáles son las capacidades de IA en el horizonte”. De manera que los demás tendremos que esperar hasta ver de qué es capaz Sora gracias a los comentarios de los dos grupos de expertos que tendrán acceso prioritario a esta IA. Por un lado, un grupo especializado en los peligros y mal uso que se pueda hacer. Y, por otro, un grupo selecto de expertos en el campo audiovisual. Para que determinen de qué manera puede serles útil Sora.

RELACIONADOS