La ingeniería de datos es una pieza clave en cualquier ecosistema de datos.
Mientras que la mayoría de cursos y formaciones se centran en el uso de datasets ya preparados para crear dashboards o entrenar modelos de machine learning, la realidad en el mundo laboral es diferente: la obtención, transformación y almacenamiento de datos son tareas fundamentales.
En esta sesión de una hora, exploraremos los conceptos esenciales para entender cómo empezar en ingeniería de datos desde cero.
Una de las primeras preguntas que surge cuando trabajamos con datos es:
¿De dónde saco mi dataset?
Existen varias fuentes principales que exploramos durante la sesión:
No basta con recolectar datos, también es necesario almacenarlos de manera eficiente. Aquí entran en juego los conceptos de Data Lake y Data Warehouse:
En el vídeo, introducimos también la Arquitectura Medallion y cómo cada capa (Bronce, Plata y Oro) ayuda a organizar los datos en función de su procesamiento y calidad.
Las pipelines de datos son la piedra angular de la ingeniería de datos. En ellas transformamos los datos desde su extracción hasta que su forma final, listos para ser explotados.
Existen dos enfoques principales:
Otro tema importante que también abordamos en la sesión es la escalabilidad en sistemas de Big Data.
A medida que los datos crecen, los sistemas deben escalar. Existen dos estrategias:
Cuando los datos superan la capacidad de una base de datos tradicional, se requieren soluciones como Apache Spark, que permiten procesar grandes volúmenes de datos de manera distribuida.
Esta sesión sobre cómo empezar en ingeniería de datos es un recorrido por los conceptos esenciales de esta disciplina.
Desde la recolección y almacenamiento hasta la transformación y escalabilidad, cada aspecto es súper importante para construir una infraestructura de datos que funcione.
🎥 No olvides ver la sesión en vídeo, lo encontrarás a continuación: