¿Es posible mantener tu privacidad en Twitter sin geoetiquetar tuits?

Bastan 200 tuits y menos de un segundo para que un algoritmo dé con tu localización exacta con una efectividad del 70%

La opción de incluir los datos de localización del usuario en cada tuit de la popular red social de microblogging, es una herramienta útil para dejar constancia de dónde tuvieron lugar determinados eventos o mostrar a tus seguidores dónde te encuentras en cada momento del día. Pero a pesar de las posibles ventajas de esta herramienta opcional, hay ciertos aspectos que podrían vulnerar tu privacidad en Twitter.

Quizá esto no sea un problema para los usuarios con perfiles abiertos en la gran mayoría de la redes sociales, pero en determinados contextos el geoetiquetado de tuits puede ser un problema. Sirva como ejemplo lo ocurrido en Irak en 2007, cuando cuatro helicópteros Apache del ejército estadounidense fueron localizados y destruidos por fuego de mortero, cuando los insurgentes rastrearon las imágenes geoetiquetadas tuiteadas por soldados americanos.

La incidencia de tuits con metadatos de geolocalización es relativamente baja, en torno al 1% según algunos estudios, pero que no actives los datos de localización en tus tuits no significa que mantengas a buen recaudo la privacidad de tu lugar de residencia. Un equipo de investigadores de IBM liderado por Jalal Mahmud afirma haber desarrollado un algoritmo capaz de predecir tu ciudad de residencia con una efectividad del 70 por ciento a partir de tus últimos 200 tuits.

Para probar la efectividad del algoritmo Naive Bayes Multimonial, el grupo de investigadores filtró tuits geoetiquetados en 100 de las mayores ciudades de Estados Unidos hasta encontrar una muestra significativa de 100 usuarios en cada localización. Una vez descartados aquellos usuarios que publicaban de forma privada, se descargaron los últimos 200 tuits de cada usuario hasta un total de 1,5 millones de tuits geoetiquetados de alrededor de unas 10.000 personas.

El 90% de los tuits se emplearon para entrenar al algoritmo en su fase inicial y el 10% restante para poner a prueba la efectividad del mismo, comprobando que en el 70% de los casos se conseguía dar con la localización exacta del lugar de residencia del usuario.

¿La razón? Los expertos concluyen que a pesar de que la gran mayoría de tuits no tenían activada la opción de geolocalización de Twitter, al menos 300.000 tuits recogían nombres de ciudades o referencias a una localización concreta, mientras que otros 100.000 de ellos estaban generados por redes de networking social como Foursquare con enlaces a una localización concreta.

Partiendo del patrón de tuits de un usuario medio a lo largo del día, del análisis de los datos y referencias de sus últimos 200 tuits es posible extraer información valiosa del entorno que frecuenta habitualmente en menos de un segundo, dando cuenta de la ciudad exacta donde reside en el 68% de las veces, de su lugar de residencia en un 70% e incluso de su zona horaria en el 80% de los casos.

El algoritmo de Mahmud podría ser una poderosa herramienta para empresas, investigadores y expertos en Big Data y geomarketing, pero supone un problema de privacidad para aquellos usuarios que prefieren ocultar su emplazamiento o las zonas que frecuentan habitualmente. Estudios como este demuestran que la delgada línea de la privacidad del usuario es mucho más difusa de lo que pensamos y que, en ocasiones, basta con hacer un simple check-in en tu restaurante favorito para desvelar tu localización exacta en la red.

Imágenes | vía pixabay

Posible vulneración de la privacidad con el geoetiquetado de tuits

Sobre el autor

Miguel A. Perez

RELACIONADOS

Taxis autónomos a ciegas: un apagón en San Francisco detiene en seco a Waymo

Cómo iFixit y el Derecho a Reparar están cambiando la forma en que cuidamos nuestros dispositivos

¿Es realmente necesario el modo avión en un avión? Desmontando mitos y esclareciendo cuál es la realidad

Apps, herramientas y consejos para una vuelta a la rutina más amigable