Ferran Galí Reniu. Experto del Máster en Big Data Engineer

Lead Data Engineer en Trovit

“El principal reto tecnológico del Big Data es la llamada escalabilidad”

8 junio 2017

Ferrán Galí, Lead Data Engineer de Trovit, nos detalla en esta entrevista el día a día del ingeniero de datos, sus retos más importantes y las tecnologías imprescindibles dentro del Big Data.

¿Cómo es el día a día de un ingeniero de datos?

Un ingeniero de datos es capaz de utilizar su enfoque orientado a datos para detectar problemas en una organización y proponer soluciones basadas en la obtención, manipulación y extracción de valor a partir de ellos. Cuando la cantidad de datos es tan grande que las tecnologías tradicionales no la pueden gestionar, a esto lo llamamos Big Data.

¿Qué reto tecnológico supone el Big Data?

El principal reto tecnológico que supone el Big Data es la llamada escalabilidad. A medida que vayamos obteniendo y almacenando más y más datos, llegará un punto en que los sistemas empezaran a ir lentos y podrían llegar al límite de su capacidad. Podríamos comprar una máquina más potente, pero llega un punto que la tecnología actual no nos permitirá seguir por este camino, con lo cual tenemos que adaptar nuestros programas y hacer que funcionen de una manera distribuida, o como se los llama, que escalen horizontalmente. De esta forma, cuando tengamos más datos si no nos podemos permitir ir más lentos lo único que tendremos que hacer es añadir más máquinas a nuestra infraestructura.

¿Cuáles son las tecnologías imprescindibles dentro del Big Data?

Las tecnologías imprescindibles del Big Data son, por un lado, que los sistemas distribuidos son tan complejos que hacer una implementación desde cero es casi inviable. Por suerte, hay una gran cantidad de proyectos open source que nos ofrecen herramientas capaces de solucionar casi cualquier problema dentro de este ámbito. En concreto, es imprescindible hablar del llamado ecosistema Hadoop porque la comunidad que se ha generado alrededor de estas herramientas han hecho que se conviertan en un estándar dentro del Big Data.

Por otro lado, cuando hablamos de sistemas distribuidos hay una complejidad muy alta cuando queremos hacer la gestión de las máquinas nosotros mismos, hay una complejidad logística muy grande. Por eso mismo, vale la pena mencionar la llamada computación en la nube, la cual nos da una flexibilidad para añadir o quitar máquinas en nuestro sistema distribuido sin tener demasiado problema y a nuestro gusto. Por ejemplo, si fuéramos una tienda en línea podríamos añadir más potencia y más máquinas a nuestra infraestructura durante la campaña de navidad, cuando normalmente hay más usuarios, y reducirla durante el resto del año.

¿Por qué es interesante la profesión del ingeniero de datos?

La profesión del ingeniero de datos es muy interesante porque requiere tener conocimientos de tres grandes áreas: la tecnológica, la analítica y la de negocio. Gracias a eso, nos da la capacidad de poder generar un impacto muy grande en organizaciones. Además, la cantidad de retos que hay ahora mismo en el mercado es muy grande. Todo eso, utilizando herramientas y tecnologías que son muy innovadoras y hace muy poco tiempo que existen.

¿Sabías que...?

Ferran Galí Reniu es Experto del Máster en Big Data Engineer en el que aprenderás a utilizar e implementar todas las herramientas necesarias que requiere un Big Data Engineer así como  a utilizar herramientas imprescindibles como Hadoop y Spark, el uso de diferentes bases de datos NoSQL y SQL, así como herramientas para la implementación de machine learning, redes neuronales y deep learning, sin olvidar los diferentes formatos para estructurar y comprimir información como (Clave-Valor, Csv, Json, Thrift, Avro, Parquet…).

Artículos relacionados

Envía un comentario

*