Un grupo de científicos del MIT desarrolla un sistema de IA que es capaz de reconocer voz y objetos.
Un defecto que siempre se le achaca a la inteligencia artificial tiene que ver con sus limitaciones de polivalencia. Las máquinas y los algoritmos son por ahora muy buenos en algo. Se les da fantásticamente bien reconocer imágenes o conversar o desplazarse por una superficie. Pero un mismo sistema de IA no puede hacer todas esas cosas. De hecho, solo puede hacer una de ellas.
La capacidad que tiene la inteligencia artificial para aprender se limita a su campo de conocimiento. Si a un algoritmo se le ha entrenado para reconocer gatitos en imágenes, esto es lo que hará. Como mucho podría entrenársele para que aprendiera a reconocer perros. Pero en ningún caso podría servir a un robot para desplazarse ni conformar un bot conversacional.
La idea de que un solo sistema IA pueda llevar a cabo funciones diferentes, que requieren un aprendizaje y unas capacidades distintas, se condensa en la inteligencia artificial general. Este concepto es lo más parecido que existe a imitar el cerebro humano de forma artificial.
Por ahora, evidentemente, distamos mucho de alcanzar la inteligencia artificial general. Pero con el desarrollo que ha hecho un equipo de científicos del MIT distamos un poco menos. Su logro consiste en que su algoritmo es capaz de realizar reconocimiento de objetos y reconocimiento de voz. Pero no como componentes aislados sino mezclados entre sí.
El software del MIT es capaz de identificar un objeto dentro de una imagen en base a una descripción hablada del mismo. Es decir, solo hay que decir a la máquina: "Encuentra el jarrón rojo en estas fotografías". Y esta corresponderá.
Un algoritmo polivalente
La fusión de estos dos conceptos resulta difícil. Pero el sistema del MIT los combina de forma eficaz. Para el entrenamiento los científicos han hecho que la máquina aprenda al mismo tiempo ambas tecnologías.
El algoritmo aprendía reconociendo los patrones de una imagen con una niña de pelo rubio, con ojos azules, un vestidos azul y con un faro de tejado rojo en el fondo. Se le transmitían todos estos conceptos en forma de palabras y la inteligencia artificial empezaba a **asociar qué píxeles de la imagen correspondían a vestido azul* , qué otros se referían al pelo rubio y así sucesivamente.
De esta forma el modelo creado por el MIT tiene la suficiente comprensión del lenguaje como para poder buscar imágenes u objetos dentro de esas imágenes. Por ahora solo entiende algunos cientos de palabras y solo conoce algunos tipos de objetos. Pero lo realmente interesante se encuentra en la forma de entrenar al algoritmo. Sin duda una innovación en el campo de la IA.
Imágenes: ronymichaud,