Capítulo 9. Tests en dbt

Todos los proyectos dbt tienen tests.

Pocos los tienen bien organizados.

La diferencia está en saber qué testear, dónde hacerlo y con qué nivel de urgencia.

Este capítulo del libro Data Engineering with dbt te da un framework completo para implementar calidad de datos de verdad, no solo un par de not_null para cumplir el expediente.

Qué merece ser testeado (y qué no)

No todo tiene la misma importancia.

El capítulo clasifica los elementos por criticidad: claves primarias y de negocio son imprescindibles, foreign keys muy recomendables, reglas de negocio siempre que sea posible, métricas y categorías según el impacto, y datos descriptivos rara vez.

Una tabla de prioridades te ayuda a decidir dónde invertir esfuerzo y qué riesgos asumes si algo falla.

Tests por capa: sources, staging, refined y marts

Cada capa tiene tests distintos con prioridades diferentes:

En sources validas que los datos llegan correctos y frescos.
En staging garantizas que lo que guardas tiene claves válidas y únicas.
En refined compruebas que las reglas de negocio no introducen errores.
En marts verificas que dimensiones y hechos están bien formados para consumo.

Veremos qué tests aplicar en cada punto, cuáles son críticos y cuáles opcionales.

Tests genéricos y singulares: cuándo usar cada uno

Los genéricos (not_null, unique, relationships, accepted_values) se configuran en YAML y cubren la mayoría de casos.

Pero a veces necesitas lógica personalizada.

Vamos a aprender cómo crear tests genéricos propios (con ejemplos como detección de colisiones en hashes) y tests singulares para validaciones específicas de tu negocio.

También cubriremos las opciones de configuración: severidad, umbrales, filtros con where, y cómo guardar los fallos para análisis posterior.

¡A por ello! 🫡

Tests en dbt: qué validar en cada capa y cómo priorizar

Membresía requerida

Este contenido está disponible únicamente para suscriptores.

Puedes apuntarte a la plataforma en este enlace

¿Ya eres un ninja? Accede aquí

Accede a todo el contenido premium

Ya no necesitas pagar cientos de euros por un Bootcamp para convertirte en ninja de los datos. Por solo 17€/mes (o menos 🤯), obtén acceso al podcast premium, a todos los tutoriales y a los resúmenes de los libros más top sobre Machine Learning y Ciencia de datos y aprende a tu ritmo.

¡Empieza ahora!

👩🏻‍🦱 Sobre mí

💼 Aviso legal y cookies

📬 Contactar