¿Sabías que durante más de 300 años el español se ha mantenido como una lengua única – con sus variedades – en todo el mundo (más de 20 países)? Esto se debe al formidable trabajo de la Real Academia Española, como institución dedicada a la ciencia de la lengua.
Ahora bien, con el auge de las máquinas y la Inteligencia Artificial (IA) de habla español corremos el riesgo de que la unidad del idioma que se ha podido mantener tanto tiempo está en peligro, ya que cada máquina puede aprender un español distinto, si no lo regularizamos. Con el tiempo esto puede derivar en la pérdida de la unicidad del español. Pero, ¿cómo aprenden las máquinas a hablar?
En este post queremos explicarte cómo se entrena la IA para que llegue a utilizar un lenguaje natural. Gracias a Richard Benjamins, nuestro Chief AI & Data Strategist, hemos podido entender un poco los procesos del entrenamiento. Además, vamos a ver cómo se puede controlar ese aprendizaje para evitar que perdamos el buen uso de nuestro idioma. Existen buenas prácticas como el proyecto LEIA, que pretende fomentar el buen uso del español en el mundo de las máquinas.
Cómo se enseñan las máquinas a hablar
Los últimos modelos IA de lenguaje natural se basan en analizar millones de documentos para establecer de manera “exhaustiva” las relaciones que tiene cada palabra con todas las otras palabras y conjuntos de palabras que encuentran en estos documentos. Con esto, el sistema de IA aprende qué palabras van juntos, y puede completar una frase o párrafo, o incluso generar texto original. Forman la base de la traducción automática, la dictación y la corrección automática, entre otras aplicaciones.
Son modelos muy potentes, pero también muy complejos; algunos manejan más de un billón de parámetros. Entrenar un modelo de este estilo puede tardar semanas o meses y puede llegar a consumir la misma energía que cinco coches durante todas sus vidas. Además, estos modelos aprenden también todos los sesgos que puedan contener los documentos originales.
Los sesgos más conocidos son los sesgos de profesión: las enfermeras y niñeras son mujeres, mientras los ingenieros, jueces y médicos son hombres. El idioma está lleno de estos sesgos. Si no tenemos cuidado con esto, las máquinas aprenden estos sesgos e incluso lo pueden amplificar. Por eso, es importante ser muy consciente de los datos que alimentan los algoritmos e intentar corregir estos sesgos antes del entrenamiento. Lo mismo pasa con el buen uso del español. Sino tenemos cuidado cómo la IA aprende el lenguaje, es decir que el asistente virtual de cada empresa aprende con datos distintos, podemos perder la unidad de la que hablamos antes.
Cómo Telefónica fomenta con la RAE el buen uso del español gracias al proyecto LEIA
Telefónica es el socio principal de la RAE en el proyecto LEIA (Lengua Española e Inteligencia Artificial) que vela por el buen uso del español en el mundo digital y en el entrenamiento de la IA. Como tal Telefónica es una de las primeras empresas que aplica el diccionario de la RAE a sus productos que tienen a Aura, la Inteligencia Artificial de Telefónica, integrados. En este sentido, el equipo de Aura ha verificado que todo el contenido en español que genere Aura cumple los estándares de la RAE. ¿Cómo lo hacen?
Pues el equipo de Aura tiene acceso al sistema “Enclave” de la RAE que provee un conjunto de herramientas para verificar si un texto usa un español correcto (ortografía, gramática, diccionario, etc.). Así podrán comprobar si el español que utiliza Aura es correcto. A parte fomentan también el conocimiento de la lengua con el juego de la RAE que podemos encontrar en el dispositivo Movistar Home. Este juego permite ver quién de la familia sabe más sobre el buen uso del español, ¡que no es fácil!
Por un lado, se está haciendo un gran esfuerzo gracias a las empresas que se comprometen a entrenar las máquinas cuidando la lengua con proyectos como LEIA. Por otro lado, contamos con la RAE que sigue velando por el español. Entre estas instituciones y los profesionales implicados que apuestan por la disminución de sesgos, tenemos la esperanza que nuestras máquinas siguen haciendo un buen uso del idioma durante los próximos 300 años.