Capítulo 5. Transformación de datos con dbt

Hay muchos recursos sobre dbt, pero la mayoría se quedan en lo conceptual o saltan directamente a funcionalidades avanzadas.

En este capítulo del libro Data Engineering with dbt se explica desde la configuración inicial hasta tener un proyecto funcionando con sources, modelos, tests y documentación automática.

No es teoría. Es el proceso real que seguirías en un proyecto.

Antes de tocar dbt, el capítulo explica la arquitectura de referencia que vas a implementar:

capa de almacenamiento (datos sin transformar),
capa de refinado (reglas de negocio)
y capa de entrega (data marts para reporting).

Entender esta estructura antes de empezar te ahorra tener que reorganizar todo cuando el proyecto crece.

También te permite aprovechar una de las mayores ventajas de este enfoque:

poder reprocesar todo desde los datos originales cuando cambian las reglas de negocio.

Una vez comprendida la arquitectura, veremos cómo montar el proyecto desde cero:

crear el repositorio en GitHub,
configurar la base de datos en Snowflake (roles, usuarios, permisos),
conectar dbt Cloud y
verificar que todo funciona.

También veremos las tres formas de traer datos externos a dbt (sources, seeds y datos generados), cuándo usar cada una, y cómo configurarlas correctamente.

Una vez tienes datos, toca transformarlos. Analizaremos cómo crear modelos, cómo funciona el fichero dbt_project.yml, y cómo la estructura de carpetas define la arquitectura de tu proyecto.

Este capítulo también cubre cuándo materializar como vista o como tabla, una decisión que parece menor pero afecta directamente al rendimiento y los costes.

¡A por ello! 🚀

Tutorial dbt desde cero: cómo configurar un proyecto paso a paso

Membresía requerida

Este contenido está disponible únicamente para suscriptores.

Puedes apuntarte a la plataforma en este enlace

¿Ya eres un ninja? Accede aquí

Accede a todo el contenido premium

Ya no necesitas pagar cientos de euros por un Bootcamp para convertirte en ninja de los datos. Por solo 17€/mes (o menos 🤯), obtén acceso al podcast premium, a todos los tutoriales y a los resúmenes de los libros más top sobre Machine Learning y Ciencia de datos y aprende a tu ritmo.

¡Empieza ahora!

👩🏻‍🦱 Sobre mí

💼 Aviso legal y cookies

📬 Contactar