Lo último del MIT es un algoritmo que predice el futuro con fotografías como base

Mediante deep learning, el sistema del CSAIL del MIT es capaz de producir vídeos que predicen lo que va a pasar en una escena.

2016 va a quedar para muchos como el año de la realidad virtual, pero también como el año en que los conceptos de inteligencia artificial, pese a existir desde hace mucho tiempo, comienzan a calar entre el público general, impulsados por soluciones comerciales como el altavoz Amazon Echo, con Alexa, IBM Watson o Apple y su privacidad diferencial, con la que alardean de, frente a Facebook o Google, procesar todo el reconocimiento en el dispositivo en vez de comprometer la privacidad del usuario subiendo a la nube y procesando desde ella.

El MIT es el último en unirse a la fiesta con un proyecto recién presentado basado en un aprendizaje con dos millones de vídeos sin etiquetar mediante el cual predecir el futuro partiendo de una sola imagen. El Computer Science and Artificial Intelligence Laboratory será capaz de producir un vídeo con fotogramas  generados por ordenador que contengan cambios que el sistema haya previsto que van a ocurrir.

Los vídeos generados por el algoritmo logra, en un 20 por ciento de los casos, parecer más realistas para personas preguntadas que las propias fotos utilizadas como base. La clave de analizar sin etiquetas es que así el algoritmo puede aprender a identificar lo que pasa en una escena sin requerir de una definición insertada por una persona con anterioridad.

A diferencia de otros trabajos realizados con otros sistemas, que generan las escenas cuadro a cuadro, este sistema genera la escena completa de una sola vez. Para crear los 32 fotogramas por segundo que el sistema permite, los investigadores lo programaron para procesar y generar de manera independiente la información de la escena que está en primer y en segundo plano.

Para mejorar la calidad del proceso de selección de generación de vídeos, el método del aprendizaje contradictorio ha sido una de las claves, ya que enfrenta a dos redes neuronales, la que genera los vídeos y la que distingue entre vídeos reales y vídeos generados por el algoritmo, que con el tiempo pierde poder a medida que la primera «aprende» a engañarla.

Esta capacidad de predicción del futuro, aún en sus primeros días, podrá aplicarse, por ejemplo, en los coches autónomos, que procesen y actúen según no sólo de lo que extraigan de una imagen, sino de lo que crean que pueda pasar en el contexto a partir de ella.

 

 

Sobre el autor

RELACIONADOS

GPTs Custom

Cómo hacer GPTs Custom

Hace unos meses, OpenAI presentó una nueva función para ChatGPT, el popular chatbot de la compañía que funciona gracias a GPT-4, su modelo de...