Un servicio basado en IA permite detectar noticias falsas

Ante la pregunta, «¿esta noticia que estoy leyendo es falsa o real?», la intuición nos dice que debemos analizar el contenido y las afirmaciones realizadas, el lenguaje utilizado, la credibilidad del autor y del medio, las referencias utilizadas, etc.

En contra de la intuición, en nuestra reciente investigación proponemos la Detección de Noticias Falsas como Servicio (FNDaaS, por sus siglas en inglés), un novedoso servicio basado en IA que detecta noticias falsas (FN) de forma independiente del contenido. FNDaaS analiza todo el tráfico de red producido al navegar por una fuente de noticias, junto con su huella en los registros DNS e IP, y decide si la fuente específica está sirviendo FNs o noticias reales (RN).

La importancia de trabajar en métodos para detectar noticias falsas

Para ello, estudiamos el tráfico de red, HTML y DOM, así como los registros DNS e IP de más de 1,8K sitios web de fake news y noticias reales, y descubrimos que los sitios web que sirven noticias falsas presentan patrones distintos en varios de estos tipos de datos. Estos patrones son suficientemente distintos y nos permiten entrenar algoritmos de IA que detectan automáticamente con muy buen rendimiento qué sitios web son propensos a servir fakes news o noticias reales, sin analizar nunca el contenido de dichos sitios web.

Las noticias falsas som un problema con un impacto de 100s billones de dólares en la sociedad y la economía. Por ejemplo, la muerte del fundador de Ethereum, Vitalik Buterin, comunicada maliciosamente en 2017 causó una pérdida de valor de mercado de 4.000 millones de dólares. Asimismo, el falso anuncio en 2017 de ABC, de que el asesor de Seguridad Nacional, el teniente general Michael Flynn, testificaría que Donald Trump le había dado instrucciones para ponerse en contacto con funcionarios del gobierno ruso durante la campaña electoral de 2016, hizo que el índice S&P 500 cayera 38 puntos, lo que se tradujo en pérdidas de más de 300.000 millones de dólares.

Los mejores métodos para detectar noticias falsas se basan principalmente en el Procesamiento del Lenguaje Natural de los contenidos publicados, cómo están interconectados a través de grafos de conocimiento, así como la credibilidad de los autores, puntos de venta, enlaces entre ellos, etc. Una vez detectados, los artículos periodísticos e incluso sus medios pueden incluirse en listas negras, y el público en general y los periodistas pueden ser alertados de su presencia.

De hecho, los sistemas automatizados de detección de fake news basados en IA necesitan ser entrenados con textos en un idioma específico para tener un alto rendimiento. Pero como la mayoría de los artículos anotados y otros recursos informáticos en datos y modelos se centran en la lengua inglesa, una gran parte de los sitios web de noticias de todo el mundo quedan sin control.

Cómo funciona FNDaaS

FNDaaS es el primer sistema holístico de detección de noticias falsas de su clase que es completamente agnóstico en cuanto al contenido. FNDaaS no tiene en cuenta el texto de la noticia falsa del artículo, sino que se basa en las características estructurales y de red del sitio web (por ejemplo, cambios en el registro DNS, antigüedad del dominio, patrones de expiración y nuevo registro del dominio, características DOM, número de redirecciones HTTP, tiempos de renderización de la página, etc.).

El objetivo de FNDaaS no es sólo reducir el esfuerzo de los curadores manuales proporcionando una breve lista de sitios web sospechosos de entre todos los sitios web de noticias, sino, con el tiempo, proporcionar un servicio autónomo que analice los sitios web de noticias y produzca informes frecuentes (es decir, listas) de sitios web clasificados como noticias falsas que los navegadores puedan utilizar localmente (a través de una extensión del navegador (Figura 1-izquierda) y advertir a los usuarios en consecuencia, o aplicar a nivel de red desde un proveedor de Internet en forma de servicio (Figura 1-derecha).

detectar noticias falsas — Visión general de alto nivel de FNDaaS cuando se despliega con filtrado realizado en el lado del usuario a través del plugin del navegador. Los usuarios especializados también pueden aportar etiquetas manuales de sitios web para el reentrenamiento y ajuste continuos del modelo ML y la lista de filtros.

Así, rastreamos 1820 sitios web de noticias (1183 noticias reales, 637 noticias falsas) y estudiamos los patrones de 187 atributos de datos recogidos para cada sitio web. Contrariamente a la intuición de que los sitios web de noticias falsas serían más lentos de cargar debido a la gran cantidad de contenido y anuncios, descubrimos que, en comparación con los de noticias reales, los sitios web de noticias falsas tienen una vida media del dominio menor o incluso nula, una edad IP menor, menos nodos y clases en su página HTML, consumen menos espacio en texto, imágenes, etc.

Al entrenar clasificadores binarios de IA con las características de mayor rendimiento de IA, fuimos capaces de detectar sitios web de fake news y noticias verificadas con más de un 91% de precisión, en general. Además, al limitar el tipo de características disponibles para el clasificador únicamente durante una visita normal del usuario (es decir, eliminando los datos de los registros DNS e IP), los clasificadores siguen teniendo un rendimiento superior al 82% en todas las métricas.

También construimos una prueba de concepto del servicio, para demostrar cómo sería y funcionaría. En la siguiente figura, podemos ver los paneles visibles para el complemento del navegador del lado del usuario:

Importancia de la detección de fake news para la sociedad

Si un servicio de este tipo estuviera listo para la producción y se desplegara a gran escala, podría concienciar rápidamente e incluso eliminar el acceso a una gran cantidad de sitios web de noticias que difunden desinformación a millones de usuarios en todo el mundo, y tener un gran impacto en la economía (por ejemplo, debido a las pérdidas del mercado de valores), la salud pública (por ejemplo, debido a los creyentes antivacunas COVID-19) o la democracia de un país (por ejemplo, debido a las campañas de desinformación patrocinadas por Rusia en las elecciones de EE. UU. en 2016).

Este servicio podría reaccionar rápidamente para bloquear nuevos sitios web de fake news o adaptar su modelo de detección basado en IA a los cambios de los sitios web de noticias falsas, en un esfuerzo general por seguir protegiendo a los usuarios en línea de la desinformación.

Telefónica se encuentra en una posición clave para marcar la diferencia en la calidad del servicio que presta a sus usuarios con respecto a la navegación segura por Internet, especialmente en lo que se refiere a la eliminación de sitios web maliciosos y que difunden desinformación, a través de productos ya existentes, como Conexión Segura dentro de Movistar.

Imagen de cabecera de Brand Factory.