Plataformas como Hadoop y Spark sustentan big data, mientras que compañías como Cloudera, Hortonworks o MapR lideran el mercado.
El big data tiene todavía ese aura de lo nuevo, que es una realidad aún está por desempaquetar. Sin embargo, lo cierto es que ya existen varias empresas implicadas a fondo en la comercialización de plataformas que ofrecen servicios de análisis avanzados. Por el momento existen varias aproximaciones, a nivel de software, y ha surgido una ristra de compañías que copan los diferentes escalones en el apoyo, la producción y distribución de esta tecnología.
Las herramientas surgidas en torno a big data permiten el almacenamiento de información que antes no tenía sentido almacenar, para que ésta sea procesada y se crucen los datos con el fin de hacer que sean productivos. Ahora las compañías generan una gran cantidad de datos que pueden ser utilizados para optimizar su negocio. El abaratamiento del hardware, en especial de los chips, sumado al aumento de la potencia, hace posible –y más asequible– el despliegue de los recursos necesarios, mientras que el uso masivo de los equipos informáticos genera la materia prima a explotar.
De todo esto se suele hablar de manera abstracta, pero pocas veces se mencionan las plataformas utilizadas para llevar a cabo este análisis avanzado de datos o qué compañías las comercializan. El que quizá sea el sistema más utilizado es Hadoop, que se está convirtiendo en una especie de estándar en la industria. Su desarrollo está confiado a la comunidad de código abierto y la organización que lo gestiona es la Apache Software Foundation.
Hoy en día Hadoop ha sido adoptado por varias de las compañías más punteras en big data, que ofrecen su propia distribución y –como ocurre con Red Hat y otras empresas que comercializan productos Linux– cobran por servicios de valor añadido. La plataforma fue creada por el ingeniero de software Doug Cutting, quien escribió un documento sobre técnicas de mapeo de grandes volúmenes de datos mientras trabajaba en Google. Poco después se marchó a Yahoo y allí continuó con el desarrollo de su idea, que acabó por dar frutos en 2008.
Precisamente Yahoo ha dado su apoyo recientemente a Spark, otra plataforma de análisis en masa de la que se ha llegado a decir que es 100 veces más rápida que Hadoop. Se trata también de software de código abierto y tecnológicamente es muy avanzado, si bien no cuenta con un apoyo tan firme como su rival, que lleva más tiempo en el mercado.
Las empresas que venden big data
Una de las compañías más destacadas en el escenario de big data es Cloudera, en cuya plantilla trabaja el creador de Hadoop, Doug Cutting, como ingeniero jefe. Ofrece servicios y soporte en torno a su distribución de Hadoop. Por poner un ejemplo de la capacidad de sus sistemas, la empresa cifra en 250 millones el número de tuits que son filtrados cada día con el fin de aprovechar la información.
Otras dos startups, Hortonworks y MapR, también cuentan con su propia distribución de Hadoop, que comercializan de forma similar. Mientras que una compañía que sorprende por estar metida en este mercado es Intel, que ha lanzado su versión de la plataforma hace poco y cuyo interés estaría más en vender su hardware, asociado a big data.
Sin embargo, hay otras aproximaciones, como la que plantea MarkLogic, desde el punto de vista de las bases de datos. En lugar de sustentar el análisis en la introducción de una plataforma desde la que poder hacer consultas, esta compañía californiana trata de organizar la información de manera diferente, más efectiva. De esta forma la búsqueda terminará siendo más fácil.
Imagen: getButterfly