La Universidad de Nueva York ha presentado en la revista Science un enfoque alternativo para entrenar a la inteligencia artificial. Se basa en recopilar las grabaciones de la dinámica de vida de un bebé australiano.
Como resultado, se desea llegar a desarrollar un nuevo modelo de aprendizaje automático a través de la experiencia visual y auditiva de un niño.
A continuación te describimos los aspectos más relevantes de esta investigación.
Un bebé para entrenar a la inteligencia artificial
Esta idea surgió de un estudio de la Asociación Americana para el Avance de la Ciencias (AAAS) y la Universidad de Nueva York, con resultados preliminares prometedores. La investigación partió de la pregunta: ¿puede la inteligencia artificial comprender cómo se adquiere la capacidad del lenguaje?
Para responderla, los investigadores Wai Keen Vong y Brenden Lake, del Centro de Ciencia de Datos, condujeron un experimento basado en la captura de audio y video desde cámaras en la cabeza de un niño llamado Sam, quien ya tiene casi dos años de edad.
Del lenguaje sintético de la IA al aprendizaje asociativo humano
El método utilizado en el estudio “Grounded language acquisition through the eyes and ears of a single child” inició con la observación del mundo desde la perspectiva de un bebé entre sus 6 y 25 meses de vida.
El bebé era grabado mientras realizaba actividades de distinto tipo, por ejemplo:
- Jugar.
- Comer.
- Pasear en el parque.
- Interactuar con su mascota.
- Escuchar la lectura de un libro.
Los datos obtenidos se utilizaron para entrenar una red neuronal general. Para ello, se establecieron correlaciones entre las imágenes vistas por el bebé y las palabras que escuchaba.
Al identificar patrones y mecanismos que subyacen al aprendizaje se generó conocimiento valioso para entender la adquisición temprana del lenguaje a partir de un conjunto pequeño de datos. En contraste, sistemas como GPT-4 fueron entrenados con conjuntos masivos de datos. Claro está, que es inteligencia artificial generativa que requiere millones de palabras, expresiones y relaciones. Asimismo, requiere cantidades astronómicas de datos.
Objetivos del estudio
Para avanzar hacia un modelo de aprendizaje automático más cercano a la asociación humana entre imágenes, sonidos y palabras, se han ido estableciendo los siguientes objetivos:
- Primero: identificar las palabras y conceptos con los cuales entrenar a la inteligencia artificial a partir de la experiencia visual y auditiva de un bebé.
- Segundo: determinar cómo la IA relaciona las palabras con los objetos y eventos que ve.
- Tercero: comprender el papel que juega la atención en el aprendizaje del lenguaje.
Aplicaciones de este método para entrenar a la inteligencia artificial
Si bien sigue en desarrollo, algunos resultados previos de este estudio ya asoman orientaciones para el desarrollo de:
- Tecnologías de aprendizaje automático para el procesamiento del lenguaje natural.
- Herramientas de diagnóstico y tratamiento para niñas o niños con dificultades del lenguaje.
- Herramientas basadas en IA para mejorar la comunicación y la accesibilidad de personas con parálisis cerebral.
- Modelos computacionales para entrenar a la inteligencia artificial simulando el proceso de adquisición del lenguaje.
- Nuevos métodos de enseñanza del lenguaje y la comprensión de conceptos para niñas y niños pequeños.
- Sistemas de IA más eficientes en el procesamiento del lenguaje natural.
Pero ¿dónde está la diferencia en comparación con enfoques previos? Pues en lograr entrenar a la inteligencia artificial a partir de fragmentos limitados de información. Adicionalmente, son datos obtenidos obtenida de grabaciones de experiencias humanas en las primeras etapas, con datos tipo SAYCam.
En resumen, desarrollar una nueva generación de sistemas IA multimodales es una de las metas a alcanzar. Por ello, se requieren sistemas capaces de establecer vínculos entre palabras y representaciones audiovisuales.
Resultados y avances al entrenar a la inteligencia artificial
Algunos de los resultados del estudio Grounded language acquisition through the eyes and ears of a single child, reportados por la NYU, son:
- Los modelos de IA son capaces de aprender a identificar un número considerable de palabras y conceptos.
- La IA tiene capacidad para asociar las palabras con objetos y eventos que ve en entornos experienciales en primera persona.
- El modelo Child’s View for Contrastive Learning (CVCL), en el cual se emparejan fotogramas de vídeo con palabras pronunciadas, es una opción para combinar estilos de aprendizaje. Esto tiene el propósito de ayudar a llenar vacíos en las teorías de la adquisición del lenguaje.
- Este estudio es un ejemplo innovador del uso de la inteligencia artificial para comprender el desarrollo humano.
A partir de 61 horas de datos visuales y lingüísticos de un bebé se crean nuevas aplicaciones para la IA. Por eso, enfoques innovadores, como el desarrollado por los investigadores Wai Keen Vong y Brenden Lake, nos permite comprender mejor cómo la Inteligencia Artificial funciona en procesos de entrenamiento y aprendizaje con conjuntos limitados de datos. Entonces, ¿puede la IA comprender el aprendizaje del lenguaje humano? Sí, y un bebé está ampliando nuestras opciones para entrenar a la inteligencia artificial de manera más eficiente.