económicas

Cómo predecir tendencias socioeconómicas con trazas digitales

El Grupo Científico de Telefónica ha llevado a cabo un estudio en México con el fin de intentar conocer las tendencias financieras gracias a la telefonía.

El desarrollo social típicamente se mide a través de series temporales socioeconómicas tales como el nivel de empleo, el producto interior bruto o el índice de precios al consumo. Calcular de forma eficiente y rápida tales indicadores es crítico para poder implementar y evaluar las políticas que los pueden cambiar. Tradicionalmente, son los institutos de estadística nacionales los que calculan dichos valores a través de datos obtenidos a partir de encuestas. Sin embargo, la presencia ubicua de las redes sociales y los teléfonos móviles está generando una serie de datos que son útiles para caracterizar el comportamiento social y que pueden ser relevantes para calcular y predecir indicadores socioeconómicos.

Por ejemplo, en un estudio que usó las búsquedas realizadas en Google relacionadas con el sector financiero, los autores pudieron predecir la serie temporal de los intereses de las hipotecas. Los resultados indicaron que el uso de búsquedas en Google producía mejores resultados que el uso exclusivo de información de la serie temporal de intereses. Centrado también en el entorno financiero, otro estudio demostró que el uso de Twitter (volumen de comentarios) está fuertemente correlacionado con diversas series temporales de indicadores económicos. Asimismo, y continuando con esta estrategia, otros autores demostraron que la correlación no solamente existe con el volumen de tweets, sino también con el sentimiento (positivo o negativo) expresado en los mismos en, al menos, dos casos: el nivel de precio del petróleo y el DJIA (Dow Jones Industrial Average). En general, el estado del arte indica que para la predicción de series temporales socioeconómicas, el disponer no solo de valores pasados sino de información extra obtenida a partir de trazas digitales mejora considerablemente la predicción de las mismas.

Siguiendo las pistas de la digitalización

En este sentido, en el Grupo Científico de Telefónica hemos estudiado si el uso de las trazas de telefonía móvil puede facilitar la predicción de esas series temporales. En estudios anteriores ya demostramos que las trazas de telefonía móvil están correlacionadas con los niveles socioeconómicos de las regiones. En este caso, lo que buscamos es evaluar si las series temporales de valores socioeconómicos se pueden predecir usando información extraída de las trazas de telefonía.

Para ello centramos nuestro estudio en México, donde el INEGI (Instituto Nacional de Estadística y Geografía) proporcionó un conjunto de series temporales para cada estado federal durante 17 meses. Las series socioeconómicas fueron: (1) número total de personas empleadas; (2) número total de trabajadores en empresas privadas; (3) número total de funcionarios; y (4) número total de personas subcontratadas. Durante la misma ventana temporal, y a partir de las trazas de telefonía, calculamos dos grupos de variables mensualmente a nivel de estado: consumo y movilidad. Las variables de consumo incluían elementos como número medio de llamadas de entrada, de salida y su duración. Las variables de movilidad incluían el número de antenas (BTSs) usadas durante una llamada, la distancia media recorrida por el usuario durante una llamada, la distancia entre llamadas consecutivas, la distancia media viajada en un mes, el diámetro, y el radio de giro medio en un mes (radius of gyration, radio imaginario de las torres usadas durante un periodo de tiempo ponderado por el número de llamadas).

socioeconómicas
Tabla 1. Correlaciones cruzadas entre variables de telefonía y las series temporales socioeconómicas (Total Empleados, Trabajadores sector privado, Trabajadores públicos, Trabajadores subcontratados). Solo las correlaciones significativas (p>0.01) están incluidas, y en ese caso se detalla la correlación y el intervalo al que ocurren.

Un primer paso útil para tener una indicación de qué series temporales tienen carácter predictivo es calcular las correlaciones cruzadas entre las series de telefonía y las series socioeconómicas. Este análisis nos proporciona que las correlaciones son estadísticamente significativas y con qué diferencia de tiempo se produce la correlación entre las series. Son por tanto relevantes las correlaciones negativas en el sentido que representan a series de telefonía que tienen la capacidad de predecir cambios en las series socioeconómicas antes de que estas pasen. La Tabla 1 presenta las correlaciones cruzadas entre variables de consumo y de distancia y las series temporales socioeconómicas consideradas. Solo se muestran las correlaciones significativas, y en ese caso se detalla el intervalo en el que ocurren y la correlación. Los casos en los que el intervalo es positivo indicaría que las series socioeconómicas serían las líderes y tendrían capacidad de predicción sobre las series de telefonía.

La Tabla 1 muestra que las variables de consumo están correlacionadas con intervalos negativos para el número total de empleados y el número total de trabajadores en el sector privado. En general se observa que un incremento en el número de llamadas de salida y su duración implica un incremento al mes siguiente del número de empleados, lo cual puede ser una indicación de que los teléfonos se usan como herramienta para buscar trabajo y/o de una mayor disponibilidad de tiempo libre (es decir, cuando hay menos trabajadores activos sube el número de llamadas de salida). En lo referente a las variables de movilidad, las variables que reflejan la distancia total viajada durante una llamada o la media recorrida durante un mes tienen correlación positiva con un intervalo de -1, indicando que cuando hay un incremento en las distancias viajadas, eso puede ser un indicador de incremento en el número de empleados. Las variables de diámetro y radio de giro tienen un intervalo negativo para el número de trabajadores en el sector privado y para el número de trabajadores públicos, lo que indica que cuando se dispone de un trabajo se tiende a tener una mayor área de movilidad.

socioeconómicas
Tabla 2. Error cuadrático medio obtenido para cada una de las series socio-económicas consideradas en el estudio tanto en la fase de entrenamiento como en la de validación, usando modelos autorregresivos. Los valores indicados son los óptimos obtenidos de todas las series de telefónica estudiadas.

Para evaluar el carácter predictivo de las series temporales de telefonía usamos modelos autorregresivos multivariados, donde, de los 17 meses que tiene cada serie temporal, usamos 13 para entrenar la predicción y 4 para evaluarla. La Tabla 2 presenta la bondad de los modelos (medida usando el error cuadrático medio), tanto para la serie temporal de entrenamiento como para la de validación usando una única serie de telefonía móvil (la que producía mejor resultado en cada caso). En lo referente a la fase de entrenamiento, el modelo produce muy buenas aproximaciones, tanto si se usa el número de llamadas de salida como el radio de giro (los valores presentados en la Tabla 1 son para la serie temporal de llamadas de salida). En lo referente al carácter predictivo, obtenemos valores en el área de 0.5 y 0.6, siendo en este caso el número de llamadas de salida la que produce el mejor resultado para número total de empleados y el radio de giro para las otras tres series socioeconómicas.

socieconómicas
Figura 1. Serie temporal socioeconómica y series temporales multivariadas para el número total de personas empleadas (a) y el numero total de personas subcontratadas (b). El entrenamiento es hasta febrero y de febrero en adelante es predicción.

La Figura 1 presenta, para el número total de trabajadores (a) y el número de personas subcontratadas (b), la serie temporal original (línea solida) y el modelo entrenado (línea discontinua) que incluye, la fase de entrenamiento (hasta febrero) y la validación (los últimos cuatro meses). La serie (a) se construye con la serie temporal de número de llamadas de salida y la serie (b) con la de radio de giro. En general, se puede observar que si el error cuadrático medio es bueno, como en el caso (a), se puede predecir el cambio en el número de empleados. Si el error no es tan bueno, como en el caso (b) de trabajadores subcontratados, aunque el valor absoluto es, en general, subestimado sí se captura la tendencia general de la serie.

Conclusiones positivas

Los resultados obtenidos indican que el uso de series temporales de telefonía móvil añade información relevante para la predicción de series temporales socioeconómicas. Esto abre la puerta a poder proporcionar a los institutos nacionales de estadísticas nuevas herramientas para sus predicciones. Los resultados obtenidos en este estudio no son directamente extrapolables a otros mercados debido principalmente a la continua evolución de la forma de tarificar que afecta directamente a las variables de consumo, con lo que la capacidad de predicción de las mismas puede variar. Asimismo, el uso de otras alternativas de comunicación, como Whatsapp o Skype, afecta al cálculo de las variables de consumo y a su capacidad de predicción. En ese sentido, son las variables de movilidad las que de verdad nos aportan un valor diferencial y las que nos permitirán desarrollar herramientas que complementen la predicción de series temporales socioeconómicas.

Referencia

Una versión extendida del estudio puede encontrarse aquí.

RELACIONADOS