Voice Engine de OpenAI

Voice Engine: ¿qué es y cómo se usa lo nuevo de OpenAI?

Llevamos tiempo viendo cómo la inteligencia artificial es capaz de escribir como nosotros. Y desde no hace mucho, también genera imágenes, videos y canciones a partir de una petición escrita. Y con contenido de Internet, claro está. Pero la IA siempre puede sorprendernos un poco más. OpenAI anunció a finales de marzo su nuevo desarrollo, Voice Engine. Como su nombre indica, tiene que ver con la voz. 

Según explican en OpenAI, el desarrollo de Voice Engine empezó en 2022. Pero no ha sido hasta ahora que han decidido compartirlo con nosotros. Recordemos que OpenAI es la empresa responsable de DALL-E y GPT-4. La primera es una IA capaz de generar imágenes a partir de una palabra o frase. Y la segunda, es la IA detrás de ChatGPT, capaz de generar textos, responder preguntas, procesar información y datos, etc. Y no hace mucho presentaron Sora, su herramienta basada en inteligencia artificial, para crear videos realistas prácticamente de la nada.

En paralelo a todos estos desarrollos, OpenAI también trabaja en el campo de la voz. Voice Engine es una tecnología que sirve para hablar como nosotros. Algo a lo que ya estamos acostumbrados con Siri, Alexa y demás asistentes de voz. La tecnología de texto a voz lleva años entre nosotros. La novedad está en que su modelo de IA puede recrear tu propia voz de manera emotiva y realista. Simplemente oyéndote hablar durante 15 segundos.

Voice Engine habla como tú

Según explica la propia OpenAI, Voice Engine ha estado a nuestro alcance hacía ya tiempo. En concreto, en su API para convertir texto a voz y en las funciones de ChatGPT que te permiten hablar con esta IA y que esta te responda también mediante el habla. Pero, hasta ahora, Nadie había dicho nada de clonar nuestras voces. Algo que sorprende y asusta a partes iguales, pero que, inevitablemente, tiene muchas posibilidades si se emplea bien. De ahí que OpenAI intente tomar todas las precauciones posibles para evitar el abuso de esta tecnología. 

En ese sentido, OpenAI quiere ir poco a poco en el desarrollo de Voice Engine para evitar su empleo en fake news y difusión de bulos. De ahí sus políticas de uso que “Prohíben la suplantación de otra persona u organización sin consentimiento o derecho legal”. Es más. Las empresas que han tenido acceso a Voice Engine “requieren el consentimiento explícito e informado del orador original”. “Los socios también deben revelar claramente a su audiencia que las voces que están escuchando son generadas por la IA”. Para ello, OpenAI ha desarrollado medidas como “una marca de agua para rastrear el origen de cualquier audio generado por Voice Engine, así como el monitoreo proactivo de cómo se está utilizando”.

Voice Engine replica la voz humana

Sea como fuere, el año pasado, Voice Engine estuvo entrenando para escuchar y replicar voces en pruebas a pequeña escala. A través de empresas que mencionaremos más adelante y que han desarrollado herramientas basadas en IA para replicar la voz humana con fidelidad y naturalidad. Y los resultados son prometedores, tanto en inglés como en español, alemán, francés, japonés o chino mandarín. De la misma manera que ChatGPT sabe leer y escribir en muchos idiomas, su equivalente sonoro también.

Para qué puede servir la voz inteligente

Entre las muchas utilidades en las que han pensado desde OpenAI, destacan el uso de Voice Engine para dar asistencia a la lectura a personas que no saben o no pueden leer. Adultos o, especialmente, niños. En este sentido, ya existe un servicio que emplea esta tecnología, Age of Learning. Un servicio que sirve para generar contenidos para los más pequeños y ayudarles a aprender a leer, entre otras actividades.

Otra utilidad práctica de disponer de una IA que habla como nosotros es la interpretación y traducción. En este sentido, la empresa HeyGen emplea Voice Engine para generar videos con avatares y voces generados mediante inteligencia artificial. Y esas voces pueden hablar cualquier idioma que necesites. Ideal para generar contenidos en varios idiomas con el mismo orador virtual.

Y, en tercer lugar, otra área en la que Voice Engine tiene mucho que aportar tiene que ver con las personas que padecen de afasia, es decir, que han perdido la capacidad de hablar. OpenAI ha trabajado con empresas como Livox o Lifespan. La primera ofrece una app para comunicarse. Pensada para quienes no pueden usar su voz. Por su parte, el Instituto de Neurociencias Norman Prince ha desarrollado un sistema para pacientes neurológicos y oncológicos que padecen la pérdida del habla. Antes de ello, grababan sus voces para que Voice Engine las clonara. Y así ser capaces de hablar a través de la IA.

Una previa de lo que está por llegar

Decíamos que OpenAI lleva trabajando en Voice Engine desde 2022. Lo anunciado a finales de marzo es solo un vistazo a una tecnología que todavía no está en nuestras manos. Al menos de manera directa, como sí ocurre con DALL-E o ChatGPT. Pero, como hemos visto, ya hay empresas que ofrecen sus servicios basados en esta tecnología que replica la voz humana como naturalidad. Aunque para evitar que caiga en malas manos, por el momento seguirá siendo una tecnología restringida.

El siguiente paso es seguir entrenando este modelo de IA para que sea lo más fiel a las voces empleadas como ejemplo. Y buscar más usos, como los que propone la propia OpenAI. Por ejemplo, usar tu voz como medida de seguridad para acceder a tus cuentas bancarias o información sensible. Tal y como hacemos ahora con el reconocimiento facial o la lectura de huella dactilar. Pero, al mismo tiempo, OpenAI hace hincapié en encontrar maneras de utilizar esta tecnología protegiendo los derechos de los particulares que ponen su voz. 

RELACIONADOS