¿Te gustaría poder hablar con tu perro? El Dr. Doolittle era capaz de hablar el lenguaje de los animales, y mucho antes que él, San Antonio y San Francisco ya “hablaban con los pajarillos”.
Hoy día, esta fantasía puede hacerse realidad gracias a la aplicación de técnicas de IA a la traducción de idiomas. De hecho, ya en 2017 el informe de tendencias futuras “Then Next Big Thing” publicado por Amazon predecía la llegada de “traductores de mascotas” en los próximos 10 años.
La carrera de la traducción automática a otros idiomas
Si hace unos años las empresas competían por lanzar el wearable perfecto; hoy Microsoft, IBM, y Google pugnan por crear el traductor perfecto, cómo no, basándose en IA. No se puede negar que el más popular es el intérprete de Google, con más de 500 millones de traducciones diarias a más de 100 idiomas distintos (datos de 2017).
Pero, ¿cómo funciona?
Los investigadores de Google, se dieron cuenta rápidamente de que no tenía sentido intentar enseñar al sistema el vocabulario y las reglas gramaticales de todos los idiomas, debido al gran número de excepciones que tiene cada uno de ellos y, las lenguas son algo “vivo”, a su evolución. Por este motvio, en lugar de plantearse el reto desde un punto de vista lingüístico, decidieron tirar de estadística. El proceso de “traducción automática estadística” (SMT) consiste en buscar similitudes entre un gran corpus de traducciones realizadas por profesionales de carne y hueso.
Este sistema usa ejemplos de textos iguales en lenguas distintas (lo que se conoce como corpus) y estima parámetros de sendos modelos estadísticos que establecen la probabilidad con la que ciertas palabras son susceptibles de traducirse por otras, así como las posiciones más probables que tienden a ocupar las palabras de la lengua destino en función de las palabras correspondientes de la frase origen. Se podría resumir en algo así como:
“Esta frase en inglés parece que se traduce en esta otra frase al español, pero solo si está cerca de esta otra palabra” (Peter Novig, Google)
Con este sistema es fácil entender que haya errores de traducción, ya que la única forma de aumentar la calidad de la interpretación es alimentar la base de datos con un mayor número de traducciones profesionales adecuadas. También es por este motivo por el que “Google Translator” no traduce directamente entre distintas lenguas, sino que traduce primero todo al inglés, y después a la lengua que el usuario desee. No solo resulta más efectivo en cuanto al uso de recursos, sino que también es mucho más fácil encontrar documentos traducidos del igbo nigeriano y del criollo haitiano al inglés, que traducciones directas entre estos dos idiomas.
La traducción estadística fue el paradigma de traducción automática más estudiado desde 2006. A finales de 2016, Google Translator cambió de estrategia y pasó a utilizar un sistema basado en redes neuronales profundas, que permiten reconocer patrones y estructuras en las oraciones. Al dejar de traducir palabra por palabra y poder tener en cuenta el contexto, la calidad de las traducciones mejoró considerablemente. Además, el sistema aprende con el tiempo, con lo que cada día sus traducciones son mejores y más naturales. Otra de las ventajas de esta tecnología es que ya no es necesario estar conectado a internet: funciona en la aplicación móvil de la plataforma.
Sin embargo, dado que para entrenar el modelo son necesarias grandes cantidades de textos en un idioma y sus traducciones a otros idiomas, aquellos idiomas para los que el corpus disponible es limitado (por ejemplo, somalí, hawaiano, maorí) fueron protagonistas de una curiosa polémica.
Al intentar traducir del maorí al inglés una cadena de palabras sin sentido (la palabra “dog” 19 veces), el traductor ofrecía como resultado una apocalíptica predicción del Día del Juicio Final, para regocijo de los amantes del catastrofismo esotérico. (Lo hemos intentado reproducir, pero ya lo han resuelto, la imagen corresponde a las publicaciones de entonces).
La cuestión es que el sistema está entrenado para ofrecer siempre una respuesta pretendidamente “natural”, aunque los datos de entrada no tengan sentido. En el caso de lenguas poco representadas en la base de datos de traducción, se suele usar la Biblia, como texto traducido a un gran número de ellas, como fuente de textos de entrenamiento. Así que, para una entrada “absurda”, ofrecía una respuesta tirando los textos que tenía en la base de datos. Podía salir el Apocalipsis, en Cantar de los Cantares, o cualquier otra cosa, pero, sin duda, el Apocalipsis daba mucho más juego en los titulares.
Como hemos dicho al principio, Google no es la única empresa que apuesta fuerte por las tecnologías de traducción.
Por ejemplo, el traductor de Microsoft, que también utiliza una tecnología basada en redes neuronales, es capaz de traducir entre 62 idiomas (datos de Agosto 2018), tiene un modo de conversación, y permite traducir textos recibidos a través de la cámara del dispositivo, como, por ejemplo, la carta de un restaurante.
Por otra parte, fabricantes de dispositivos, como Huawei, también han empezado a incorporar en sus últimos modelos IA capaz de traducir texto desde imágenes.
¿Y si en lugar de idiomas humanos creamos un corpus de lenguaje animal?
¡No te pierdas mañana la continuación del artículo en BlogThinkBig.com!