Data Engineer

¿Quieres ser data engineer?

Estos profesionales pasan muchas veces desapercibidos. Por eso, vamos a intentar definir qué tienen en común y qué diferencias hay con los Data Scientist.

¿La profesión más sexy del siglo XXI? Aunque la frase está ya algo “gastada” fue titular de @HarvardBiz en 2012. Y es que, los científicos de datos siguen teniendo mucho “glamour” hoy en día. Pero no serían nadie sin los ingenieros de datos.

El data scientist construye modelos usando herramientas matemáticas, Machine Learning y conocimientos del sector. También suele emplear las herramientas y lenguajes de programación que se usan en el entorno de datos de su organización.

Pero antes de construir el modelo, hay que depurar y preparar los datos para explotarlos. ¿Quién se encarga de esto? Efectivamente, el data engineer, que debe asegurarse de disponer de un entorno adecuado para el flujo de datos. Por ello, aunque parezca que no se habla tanto de ellos, los ingenieros de datos son un componente vital en cualquier proceso de Data Science y también son perfiles muy demandados en cualquier entorno donde se trabaje con datos.

Para conocerlo un poco mejor, definamos el rol. El data engineer tiene que construir y mantener las estructuras de datos y las arquitecturas tecnológicas necesarias para la ingestión, procesamiento e implementación a gran escala de aplicaciones que usan datos de forma intensiva.

Debe ser capaz de diseñar y construir los datawarehouses (repositorios de datos en bruto) y definir cómo se recogen y transforman los datos para conseguir datos listos para analizar (proceso ETL: Extract, Transform and Load). De esta forma, construye la pipeline para la recogida y almacenamiento de la información, y se los pasa al data scientist para que pueda poner sus modelos en producción, garantizando el flujo ininterrumpido de éstos entre los servidores y las aplicaciones.

Data Engineer
Los ingenieros de datos están al alza en el mercado laboral

Ya hemos dejado claro que, para que un proyecto de Ciencia de Datos a gran escala funcione, ambos profesionales deben trabajar mano a mano, pero, ¿qué formación hace falta para ser ingeniero de datos?

En realidad, no hay un itinerario académico definido para formar profesionales con este perfil. Más bien, se aprende sobre la marcha, pero intentaremos dar algunas pistas.

¿Qué lenguajes emplea un data engineer?

En cuanto a lenguajes de programación, Python es fundamental. También es necesario conocer en profundidad los SO (Linux, Unix, Windows) con los que se trabaje, y bases de datos SQL (Microsoft, Oracle) y NoSQL (MongoDB, Cassandra, Redis).

Además, hay que tener conocimientos de herramientas Big Data y DataWarehouse, como Hadoop, Spark, Hive, Kafka, etc. Y, por supuesto, ¡de Machine Learning!

Itinerario académico no, pero sí hay algunos fabricantes, como IBM, Google o Cloudera, que ofrecen certificaciones interesantes.

¿Te animas a convertirte en data engineer?

Sobre el autor

RELACIONADOS