La inteligencia artificial que imita la voz de Bill Gates

Ingenieros de Facebook AI Research desarrollan una inteligencia artificial capaz de imitar la voz y entonación humana de Bill Gates basándose en machine learning y que pretende superar a los asistentes de voz actuales.

¿La voz de los asistentes virtuales te parece algo desconcertante? ¿No te inspiran confianza? Esto podría cambiar. Un equipo de investigadores de Facebook ha logrado superar las limitaciones que tienen los sistemas de voz por ordenador actuales creando una tecnología que logra imitar la voz humana de personajes reales, según fuentes de MIT Technology Review.

Hasta la llegada de la Inteligencia Artificial en el campo de la generación de voz, los sistemas sintetizadores de audio no creaban audio como tal, se limitaban a pegar los fonemas que habían sido grabados previamente. Fue en 2016, cuando se presentó WaveNet, la Inteligencia Artificial basada en machine learning que da voz al asistente de Google que revolucionó los sistemas de conversión de texto a voz.

Un paso más en la conversión del texto a la voz

MelNet es la IA creada por Sean Vasquez y Mike Lewis que podría suponer otro salto cualitativo en este ámbito. Lo característico de esta tecnología es que se vale de una red neuronal entrenada a partir de espectrogramas de alta resolución que sustituye a los diagramas de formas de onda utilizados hasta ahora.

Mientras las formas de onda capturan el cambio en el tiempo de un parámetro, los espectrogramas capturan el cambio en un amplio rango de frecuencias. Esto permite que se genere una representación de los datos que incluye mucha más información sobre el audio. Esta información es analizada por la IA y trata de imitar su reproducción, según informa el MIT Technology Review.

El equipo de Facebook ha conseguido entrenar esta tecnología para que imite la voz del creador de Microsoft, Bill Gates. MelNet fue entrenada utilizando alrededor de 425 horas de charlas TED y multitud de audiolibros. Este sistema cuenta con algunas limitaciones, ya que todavía no es capaz de replicar la voz con sus variaciones de entonación a lo largo del discurso.

Los asistentes de voz: un arma de doble filo

Este avance, aunque revolucionario, plantea algunos peligros. Si esta tecnología es capaz de imitar la voz humana, ¿cómo sabremos diferenciar un discurso verdadero a uno falso?

Las fakes news podrían ser las grandes beneficiarias de esta poderosa tecnología mediante la difusión de discursos políticos o noticias que no se correspondan con la realidad de lo ocurrido. Así que, a partir de ahora, deberemos estar atentos a la veracidad tanto de lo que vemos como de lo que oímos.

Si quieres seguir leyendo sobre Inteligencia Artificial y asistentes virtuales no te pierdas este post sobre Aura, la Inteligencia Artificial de Telefónica.

La IA que habla como Bill Gates

Un paso más en la conversión del texto a la voz

Los asistentes de voz: un arma de doble filo

Sobre el autor

Laura Sala

RELACIONADOS

Más allá de Google Forms: 6 alternativas para hacer formularios

Verificación de edad en Google: cómo estima la IA tu edad

Google Photos se anima a hacer un ‘wrapped’ como el de Spotify

Evita estafas en las compras de Navidad