Big data gap: los retos del futuro

En 2020 habrá 40 zettabytes (ZB) de información digital, según las previsiones de IDC. A esta cifra le siguen 15 ceros para convertirla en megabytes. Para hacerse una idea, habrá 5.247 GB por cada habitante del planeta. Esta mareante cantidad es 50 veces mayor que la que existía en el año 2010. Actualmente hay 2,8 ZB y el volumen de datos contenido en el universo digital no para de crecer. La solución para buscar y organizar de alguna forma este abismo informativo está en big data.

Las compañías disponen de una enorme fuente de datos interesantes sobre sus clientes y su mercado volcados en el universo digital. La tecnología de big data sirve para sacar partido de toda esta información y cada vez hay más medios para hacerlo. Pero el ámbito del análisis a gran escala de un inmenso volumen informativo aún está empezando. IDC ha revelado en su reciente estudio ‘Digital Universe, Big Data, Bigger Digital Shadows and Biggest Growth in the Far East’ (Big data, sombras digitales mayores y mayor crecimiento en el lejano Este), patrocinado por EMC, que únicamente está siendo analizado un 0,5% del total disponible.

Éste es uno de los retos para los profesionales de big data. La adopción de estos sistemas es aún muy reducida en comparación a las posibilidades que ofrece la información digital. Pero no es la única dificultad que IDC plantea en su estudio. En él ha identificado tres tendencias que conforman una suerte de ‘big data gap’ o brecha en big data.

Los dominios de big data sin explotar

IDC ha comprobado cómo la inmensa mayoría de la información con capacidad para ser analizada no se aprovecha. Hay una gran cantidad de datos, entre los que ya existen y los que se están generando continuamente, sin clasificar ni estructurar y, por tanto, sin valor para big data.

Los cálculos de la investigación fijan en 643 exabytes (EB), aproximadamente 0,643 ZB, la cantidad de información que habría sido aprovechable con técnicas de big data en 2012, siempre que hubiera sido clasificada y estructurada. Esto quiere decir que un 23% de los datos existentes hoy en día podrían utilizarse para apoyar estrategias comerciales, decidir proyectos públicos u optimizar programas globales. El único –y no desestimable– problema es su desorganización.

Frente a esta cifra, casi la cuarta parte de la información digital, sólo el 3% de los datos que podrían ser de utilidad está estructurado y clasificado. Menor es aún la cantidad que está siendo analizada. En 2020 se espera que sea un 33% del universo digital el que pueda tener valor de estar organizado, pero debido al crecimiento global en lugar de los 643 EB anteriores estaremos ante más de 13.000 EB.

“A medida que el volumen y la complejidad del aluvión de datos corporativos aumenta desde todos los ángulos, los departamentos de TI tienen que elegir: o bien sucumben a una parálisis originada por el exceso de información o dan los pasos necesarios para sacar el máximo partido del tremendo potencial que tienen estos torrentes de información”, explica Jeremy Burton, vicepresidente ejecutivo de operaciones de producto y marketing en EMC.

Necesidad incumplida de proteger los datos

Entre toda la información que se genera hay una parte que debe disponer de alguna forma de protección por su carácter confidencial o personal. IDC afirma que el volumen de este tipo de datos crece más rápido que el de la cantidad total. Para 2020, el año límite para el que están fijadas las previsiones del estudio, se espera que el 40% necesite una seguridad específica.

En el año 2012 era el 35% de la información el que necesitaba ser protegida. En cambio, sólo un 20% está asegurada, aunque las medidas tomadas para cumplir esta función varían dependiendo del factor regional y la situación económica aparejada. Los países emergentes tienen los niveles de protección más bajos.

IDC destaca algunas amenazas para la información que debería estar protegida y no lo está. La carencia de perfiles de seguridad se une a las malas prácticas de usuarios y organizaciones, que fallan en adoptar comportamientos que tengan presente la seguridad. En este marco también hay que encajar la sofisticación cada vez mayor de los peligros que acechan las bases de datos de compañías, proveedores y cualquier entidad que deposite contenido en la Red.

Esta falta de seguridad en lo que se refiere a información potencialmente aprovechable afectaría a un análisis mediante big data en el caso de que se llevara a cabo una modificación masiva de los datos de forma malintencionada. De esta manera, la certeza con la que se extraen unas estadísticas se convierte en conclusiones falseadas que podrían llevar a una decisión estratégica errónea.

El protagonismo de los países emergentes

En estos momentos la mayoría de la información procede de los países occidentales. IDC señala que un 51% de los datos generados actualmente tiene como origen Estados Unidos (en un 32%) y Europa Occidental (en un 19%). Sin embargo, China representa ya un 13% del total, mientras que India suma un 4%.

En el 2010 los países emergentes sólo representaban un 23% del universo digital por aquel entonces existente. Dos años después, en 2012, este colectivo ya supone un 36% y está previsto que para el 2020 la cuota sea del 62%. El más activo de estos estados será China, que para la fecha generará ella sola un 22% del volumen de datos a nivel mundial.

Si bien los países emergentes darán un vuelco a la explosión de datos el uso del big data, se trata de un fenómeno que ha comenzado en los estados donde Internet ha tenido un desarrollo más rápido, principalmente en Estados Unidos. Otro de los grandes retos de esta nueva tecnología es llegar hasta estos mercados, que albergarán el mayor volumen de material de trabajo.

Imagen de Kosheahan