GPT-4o

Qué es GPT-4o: la IA del futuro lee, escucha y ve en tiempo real

En los días previos al evento de OpenAI, todos los rumores apuntaban al lanzamiento de GPT-5. Sin embargo, la empresa de Sam Altman sorprendió a todos con el anuncio de GPT-4o, un nuevo modelo que trae bajo el brazo diversas mejoras –más de las que probablemente denote su nombre–.

Pero antes de entrar en las novedades de GPT-4o, es importante contextualizar este anuncio. A día de hoy, millones de personas trabajan con GPT-3.5 y GPT-4, los modelos de inteligencia artificial generativa de OpenAI. Bien a través de ChatGPT o mediante aplicaciones y servicios de terceros que funcionan empleando la API de GPT. Pero, como ocurre en cualquier sector económico, si no avanzas, te quedas atrás. Por ello, OpenAI ha decidido anunciar su siguiente paso adelante: el mencionado GPT-4o. Un ligero cambio de nomenclatura que tiene su razón de ser.

Hola, GPT-4o

En GPT-4o, la “o” hace referencia a la palabra omni. Este nuevo modelo acepta como entrada cualquier combinación de texto, audio e imagen y, también, genera cualquier combinación de salida de texto, audio e imagen, según explicó OpenAI. Un cambio que supone un paso más “hacia una interacción humano-ordenador mucho más natural”.

En esta misma línea, OpenAI ha mejorado de manera significativa la velocidad con GPT-4o. Si le hablas, es capaz de responder en apenas 232 milisegundos, aunque su promedio es de 320 milisegundos. Cifras de respuesta similares a la del ser humano en una conversación.

GPT-4o te oye, te ve y te lee

Para hacernos una idea del salto evolutivo, los modelos anteriores tenían un tiempo de respuesta de varios segundos. GPT-3.5 respondía en 2,8 segundos. Mientras que GPT-4, 5,4 segundos. El motivo era que se combinaban varios modelos de IA. Cada una implicada en un proceso de la comunicación: transcribir audio a texto, procesar el texto y convertirlo de nuevo a audio. Con GPT-4o, un único modelo hace todo el trabajo en la misma red neuronal.

Y para que veamos qué implica esto en la práctica, OpenAI ha publicado varios videos. En uno, dos GPT-4o interaccionan entre sí. En otro, GPT-4o hace de presentadora de un concurso en el que dos personas juegan a piedra, papel o tijera. Lo que implica procesar imagen en tiempo real, describir lo que ve la IA y darle un tono a la voz de presentador de eventos deportivos. En otro video se le pide a GPT-4o ser sarcástico. Y, en otro video, se pone a prueba las capacidades matemáticas de esta IA generativa. Incluso es capaz de enseñar español describiendo objetos que ve a través de la cámara del teléfono. También traducir en tiempo real o formar parte de una reunión por videollamada entre varias personas. 

Leer, procesar, crear, resumir, traducir y editar textos, así como generar código de programación, era algo a lo que ya estábamos acostumbrados con ChatGPT. También sus razonamientos, en forma de preguntas y respuestas o conversaciones escritas. Con la introducción del audio y el video, el catálogo de acciones que puede hacer esta IA es descomunal.

Todo lo que puede hacer por ti

Además de hablar, GPT-4o permite darle un tono a la voz en función de qué queremos transmitir más allá del mensaje literal. Al mismo tiempo, puede traducir lo que oye y ve, describirlo e interaccionar con otras personas de manera prácticamente natural. Y en el campo del audiovisual, ocurre lo mismo que con el contenido escrito. Puede verlo, procesarlo, describirlo y tratar de explicarlo.

Como suele ser habitual en este tipo de presentaciones, OpenAI ha acompañado su anuncio con las pruebas realizadas a GPT-4o. En comparación con modelos anteriores, como GPT-4 y su versión potenciada GPT-4T (GPT-4 Turbo). Pero también en comparación con la competencia. Por un lado, Gemini de Google (en sus versiones Pro y Ultra), Claude 3 Opus de Anthropic (el modelo más completo de Claude) y, finalmente, Llama 3 de Meta (antes Facebook).

En las distintas pruebas muestra unos resultados superiores, especialmente en matemáticas y procesado de texto a gran escala. En audio, reconoce prácticamente todos los idiomas. Y es capaz de traducir lenguas un poco por encima de Gemini y muy por encima del resto de la competencia: Whisper, XLS, SeamlessM4T y AudioPalm. Y lo mismo ocurre con el procesado de imágenes en movimiento. Es decir, GPT-4o es capaz de ver el mundo y explicarlo por encima de la competencia.

La unión de texto, audio e imagen en un mismo modelo de IA, tal y como explica OpenAI, implica un gran paso hacia delante. Las posibilidades se multiplican, ya que cada vez se acerca más al procesado de información que tenemos los humanos. Mientras que antes procesaba texto, audio o imagen por separado, ahora puede combinar todos estos elementos para hacer tareas tan humanas como mantener una conversación, describir lo que ve, traducir en tiempo real o darle un tono concreto a su voz.

Cuando podré probar GPT-4o

Aunque no todo el mundo en OpenAI opina igual, por el momento, la seguridad es un elemento primordial en el desarrollo de modelos de inteligencia artificial como GPT. OpenAI cuenta con más de 70 expertos externos para asesorar a esta compañía y evitar que su IA acabe desarrollando un comportamiento no deseado. De ahí el filtrado de datos que alimentan el entrenamiento de GPT o las distintas fases por las que pasa antes de llegar al gran público.

Es por ello que GPT-4o, al completo, no está todavía a disposición de todo el mundo. Gran parte de lo que puede hacer esta IA está disponible para un grupo de probadores seleccionados por OpenAI. Y para nosotros, las funciones relacionadas con texto e imagen están ya presentes en ChatGPT. El propósito de la compañía es que GPT-4o sea gratis para todos, aunque con ciertas limitaciones. 

Y los usuarios de pago podrán acceder a más peticiones o tareas. Por ejemplo, un modelo de Voice Mode con GPT-4o estará en ChatGPT Plus próximamente. También la API de GPT-4o está al alcance de los desarrolladores, con las funciones de texto y visión. Las funciones de audio y video se irán introduciendo, poco a poco, en grupos seleccionados de desarrolladores.

RELACIONADOS

Chica usando un reconocimiento de voz de teléfono inteligente

Detección de voz falsa mediante IA

La detección de voz falsa a gran escala presenta desafíos significativos, no solo por su complejidad tanto en las técnicas de suplantación, que en un...