El Machine Learning es un concepto cada vez más familiar para el público y los usuarios de servicios digitales. Gracias a esta disciplina de la inteligencia artificial y las ciencias de la computación, los ordenadores pueden, entre otras cosas, identificar patrones que describen el comportamiento humano. Para que esto ocurra, las computadoras tienen que ser entrenadas con grandes cantidades de datos que se extraen directamente de la actividad de los usuarios y de la información que esta le confiere a la máquina.
Hasta aquí, suena todo bien. El problema llega cuando nos damos cuenta de que, al predecir comportamientos, el ordenador también puede detectar debilidades. O, dicho de otra manera, si el modelo aprende cuándo vas a comer helado o chocolate, también puede entender qué es lo que prefieres. Esto puede llevar a que el dueño del modelo de Machine Learning pueda manipular a los usuarios en beneficio propio. Llegados a este punto, la comunidad científica ha empezado a preguntarse: ¿cómo podemos preservar o, incluso, mejorar la privacidad de los usuarios y de sus datos, permitiendo a la vez que se puedan construir modelos de aprendizaje automático que den utilidad a esos datos?
Privacidad diferencial: poner la privacidad en el centro para evitar la manipulación derivada del Machine Learning
¿Cómo nos manipula el aprendizaje automático de las máquinas? Tomemos como ejemplo cualquiera de los escenarios donde podríamos estar interactuando con inteligencias artificiales entrenadas con Machine Learning: la web de una tienda de libros, nuestra app de vídeos favorita, etc. El aprendizaje automático facilita en estos casos el modelado y la predicción de clics en determinados artículos, ofreciendo recomendaciones de qué ver o qué comprar, basándose en tus preferencias. En estos casos, las opciones disponibles serían tantas que ningún usuario podría procesarlas todas. Por lo tanto, los usuarios terminan siendo animados, o incluso condicionados, a elegir de entre las recomendaciones que el método de Machine Learning preselecciona, basándose en las predicciones de aquello que el usuario va a preferir (o de lo que al dueño del método le interesa que prefiera).
Por esta razón, dentro de la comunidad de Machine Learning, se está trabajando en alternativas que solucionen esta problemática. El desarrollo de la tecnología conocida como “Pirvacy-Preserving Machine Learning” (algo así como aprendizaje automático que preserva la privacidad, cuyas siglas son PPML) está permitiendo avanzar y entender la compensación entre la privacidad de los datos y la utilidad de los modelos de aprendizaje.
Una de las técnicas que el PPML utiliza para proteger los datos de los usuarios es la privacidad diferencial. “Podemos imaginarnos la privacidad diferencial como un mecanismo que introduce ruido en los datos (o en el modelo de aprendizaje) para diferenciarlos de los datos originales. De esta manera, podemos “esconder” o diluir información que diferenciaría al usuario de los datos originales”, nos explica Nicolas Kourtellis, investigador en el equipo científico de Telefónica.
Machine Learning: aprendizaje federado que preserva la privacidad
En sus últimas investigaciones, el equipo de Telefónica Research observó que la privacidad diferencial puede lograr una buena compensación entre la privacidad de los datos y la utilidad del modelo de Machine Learning, incluso en el caso de que un adversario tratase de interferir o atacar el modelo entrenado con ruido a través de la privacidad diferencial.
Otra línea de investigación que busca otra alternativa de PPML pasa por el Federated Learning (FL), o aprendizaje federado. El FL consiste en mantener los datos del usuario siempre en el borde de la red o en la fuente. Es decir, en lugar de recopilar los datos en el servidor, el dispositivo de cada usuario entrena su propia versión del modelo de Machine Learning localmente. Todos los modelos resultantes se recopilan y se agregan a un modelo único más poderoso. Pero como el modelo de aprendizaje que se genera en los dispositivos no es muy confiable, tienen que hacerse lo que se conocen como “rondas de aprendizaje federado”, en las que los datos vuelven a viajar a los dispositivos desde ese modelo único al que se han agregado y se vuelve a repetir el proceso, asegurando la alta fidelidad y utilidad del modelo.
Lo que pasa con el aprendizaje federado es que no siempre asegura la privacidad del usuario, porque la construcción de los parámetros del modelo puede filtrar información sensible. Para enfrentar este problema, y proteger los datos del usuario durante el aprendizaje del modelo, el equipo de Research ha propuesto recientemente el primer marco ‘Privacy-Preserving Federated Learning’ (PPFL). Este marco puede mejorar significativamente la privacidad y la utilidad del modelo, al mismo tiempo que reduce las repeticiones del proceso de aprendizaje del FL.
Los servicios que vendrán del aprendizaje federado
Aún existen multitud de desafíos a los que el Machine Learning tendrá que enfrentarse para seguir mejorando. El aprendizaje federado parece ser una solución prometedora, que sin embargo aún alberga muchas inestabilidades y problemáticas con respecto a la manera en que protege la privacidad de los usuarios.
Uno de los grandes potenciales que ofrece del aprendizaje federado es lo conocido como FLaaS (Federated Learning as a Service), que permite al operador construir modelos de FL en los dispositivos de los usuarios, y ofrecerlos como un servicio a terceras partes, permitiendo que estas colaboren en construir un modelo más rico.
Hay muchas cosas más que contar sobre aprendizaje federado y las infinitas posibilidades que este ofrece como servicio. Estad atentos porque pronto hablaremos extensamente de ello para que no os perdáis nada sobre las últimas novedades en este nuevo campo de la tecnología. Mientras tanto, en Telefónica seguiremos trabajando por construir unos servicios digitales seguros a la vez que conseguimos sacarle el máximo provecho a una tecnología tan útil y necesaria en nuestras vidas como ya lo es el Machine Learning.
Si quieres saber más sobre el Federated Learning y otras formas de PPML, haz click aquí para consultar las publicaciones que nuestro equipo de Research ha llevado a cabo sobre ello.