El MIT desarrolla un sistema de aprendizaje de palabras mediante imágenes

El sistema, que correlaciona el habla con las imágenes, podría llevar a un reconocimiento de voz totalmente automático. Para construirlo, los investigadores del MIT han utilizado redes neuronales, formas de aprendizaje automático que imitan la estructura del cerebro.

Por lo general, los sistemas de reconocimiento de voz, como las aplicaciones que convierten el habla en texto en nuestros smartphones, son el resultado del aprendizaje automático. Tras haber recibido millones de archivos de audio, un ordenador es capaz de aprender las características acústicas que corresponden a cada palabra y expresarlas en forma escrita. El problema de estos métodos es que la transcripción de grabaciones resulta demasiado demorada y limita el reconocimiento de la voz a un pequeño conjunto de idiomas.

gif_final

Este mes se celebró en Barcelona la conferencia de Sistemas de Procesamiento de Información Neural (NIPS), donde investigadores del Laboratorio de Informática e Inteligencia Artificial del MIT (CSAIL) presentaron un nuevo sistema de reconocimiento de voz que no depende de la transcripción de voz. El nuevo procedimiento establece un método innovador, que analiza las similitudes entre las imágenes y las descripciones habladas que se hagan de ellas mediante un gran banco de audios. De este modo, la aplicación aprende la correlación entre las características acústicas de las grabaciones y las propiedades de la imagen.

«El objetivo de este trabajo es intentar que la máquina aprenda el lenguaje del modo más parecido al que lo hacen los seres humanos», explica Jim Glass, investigador científico de CSAIL y coautor del informe que describe el nuevo sistema. «Se han hecho grandes avances como Siri o Google, pero el mundo se ha centrado en los principales idiomas del mundo. Hay 7.000 idiomas, creo que menos del 2% cuentan ya con sistemas de reconocimiento automático de voz, y probablemente no se vaya a hacer nada para atender al resto. Así que si se piensa en cómo la tecnología puede ser beneficiosa para la sociedad en general, es interesante reflexionar en lo que tenemos que hacer para cambiar la situación actual».

Imágenes y habla

La versión del sistema descrita en el nuevo artículo no correlaciona el habla escuchada con el texto escrito. En cambio, correlaciona las palabras pronunciadas con grupos de imágenes de temáticas relacionadas. Esa correlación podría servir de base para nuevas creaciones. Si por ejemplo un enunciado está asociado a una tipología particular de imágenes, y las imágenes tienen términos asociados a ellas, debería ser posible encontrar una posible transcripción del enunciado sin necesidad de intervención humana. Del mismo modo, una tipología de imágenes con términos asociados en diferentes idiomas podría resultar una forma de traducir automáticamente esas palabras.

Por el contrario, términos que formaran parte de un grupo similar de imágenes, como “tormenta” y “nubes”, podrían entenderse como sinónimos. Debido a que el sistema aprende el significado de las palabras y las imágenes asociadas a ellas, en vez de asimilar sólo sus sonidos, la aplicación tiene un rango más amplio de uso potencial que los métodos de reconocimiento de voz estándar.

Los investigadores utilizaron una base de datos de 1.000 imágenes, cada una de las cuales contaba con la grabación de una descripción verbal asociada a ella. Se proporcionó una de las grabaciones a la aplicación, que posteriormente recuperó las 10 imágenes que mejor le correspondían al enunciado. La imagen correcta estuvo entre las 10 elegidas en el 31% de las ocasiones. «Siempre insisto en que estamos dando pequeños pasos y tenemos un largo camino por recorrer», declara Glass. «Pero es un comienzo alentador».

El sistema cuenta con un enorme banco elaborado por uno de los principales investigadores del CSAIL y sus alumnos. Mediante la web de crowdsourcing Amazon’s Mechanical Turk se contrató a personas para que describieran las imágenes verbalmente, utilizando todas las frases que se les ocurrieran durante 15 segundos. Según explican sus creadores, este tipo de contenidos asociados es necesario para asegurar buenos resultados en la demostración inicial del sistema, pero el objetivo final es entrenar la aplicación usando el vídeo digital, con la mínima participación humana.

Redes neuronales

El sistema funciona con redes neuronales, formas de aprendizaje automático que imitan la estructura del cerebro. Estas redes se componen de nodos de procesamiento que, al igual que las neuronas individuales, sólo son capaces de realizar cálculos muy simples, pero están conectados entre sí en redes densas. Cuando se está entrenando una red neuronal, se modifican constantemente las operaciones ejecutadas por sus nodos para mejorar su rendimiento en una tarea específica.

«Posiblemente, los bebés aprendan a hablar desde su percepción del entorno, una gran parte de lo cual puede ser visual», dice Lin-shan Lee, profesor de ingeniería eléctrica y ciencias de la computación en la Universidad Nacional de Taiwan. «Hoy en día, las máquinas han comenzado a imitar ese proceso de aprendizaje. Este trabajo es uno de los primeros esfuerzos en este camino y me impresionó mucho cuando me enteré de ello».

Esta creación es solo un ejemplo del gran desarrollo tecnológico que los investigadores están elaborando en materia de aprendizaje. La sociedad espera con anhelo que estos inventos lleguen pronto al gran público para facilitar nuestras vidas.

Sobre el autor

RELACIONADOS