Cómo empezar en Ingeniería de Datos: Guía Completa

La ingeniería de datos es una pieza clave en cualquier ecosistema de datos.

Mientras que la mayoría de cursos y formaciones se centran en el uso de datasets ya preparados para crear dashboards o entrenar modelos de machine learning, la realidad en el mundo laboral es diferente: la obtención, transformación y almacenamiento de datos son tareas fundamentales.

En esta sesión de una hora, exploraremos los conceptos esenciales para entender cómo empezar en ingeniería de datos desde cero.

Aquí encontrarás...

Fuentes de datos: ¿De dónde vienen los datos?

Una de las primeras preguntas que surge cuando trabajamos con datos es:

¿De dónde saco mi dataset?

Existen varias fuentes principales que exploramos durante la sesión:

Web Scraping: Extraer información directamente de sitios web.
APIs (públicas y privadas): Servicios que proporcionan datos estructurados.
Bases de datos transaccionales: Sistemas que almacenan registros de operaciones en tiempo real.

Almacenamiento de datos: Data Lakes vs. Data Warehouses

No basta con recolectar datos, también es necesario almacenarlos de manera eficiente. Aquí entran en juego los conceptos de Data Lake y Data Warehouse:

Data Lake: Almacena datos en crudo sin procesar, permitiendo flexibilidad a la hora de transformarlos. Ejemplos: AWS S3, Google Cloud Storage, Azure Data Lake.
Data Warehouse: Almacena datos estructurados y listos para consulta. Ejemplos: Google BigQuery, Amazon Redshift, Snowflake.

En el vídeo, introducimos también la Arquitectura Medallion y cómo cada capa (Bronce, Plata y Oro) ayuda a organizar los datos en función de su procesamiento y calidad.

Pipelines de datos y transformaciones

Las pipelines de datos son la piedra angular de la ingeniería de datos. En ellas transformamos los datos desde su extracción hasta que su forma final, listos para ser explotados.

Existen dos enfoques principales:

ETL (Extract, Transform, Load): Primero transformamos los datos y luego los almacenamos.
ELT (Extract, Load, Transform): Primero almacenamos los datos en bruto y luego los transformamos según sea necesario.

Escalabilidad y sistemas distribuidos

Otro tema importante que también abordamos en la sesión es la escalabilidad en sistemas de Big Data.

A medida que los datos crecen, los sistemas deben escalar. Existen dos estrategias:

Escalado vertical: Aumentar la capacidad de un solo servidor.
Escalado horizontal: Distribuir la carga entre varios servidores.

Cuando los datos superan la capacidad de una base de datos tradicional, se requieren soluciones como Apache Spark, que permiten procesar grandes volúmenes de datos de manera distribuida.

Esta sesión sobre cómo empezar en ingeniería de datos es un recorrido por los conceptos esenciales de esta disciplina.

Desde la recolección y almacenamiento hasta la transformación y escalabilidad, cada aspecto es súper importante para construir una infraestructura de datos que funcione.

🎥 No olvides ver la sesión en vídeo, lo encontrarás a continuación:

Membresía requerida

Este contenido está disponible únicamente para suscriptores.

Puedes apuntarte a la plataforma en este enlace

¿Ya eres un ninja? Accede aquí

Accede a todo el contenido premium

Ya no necesitas pagar cientos de euros por un Bootcamp para convertirte en ninja de los datos. Por solo 17€/mes (o menos 🤯), obtén acceso al podcast premium, a todos los tutoriales y a los resúmenes de los libros más top sobre Machine Learning y Ciencia de datos y aprende a tu ritmo.

¡Empieza ahora!

👩🏻‍🦱 Sobre mí

💼 Aviso legal y cookies

📬 Contactar