Official GCP Professional Data Engineer Study Guide

La guía de estudio oficial para la certificación de Ingeniero de Datos profesional de Google Cloud está diseñada para ayudar a preparar el examen de certificación GCP Professional Data Engineer.

Este libro es una herramienta muy valiosa para desplegar y gestionar aplicaciones de analítica y Machine Learning en Google Cloud.

Los temas principales que se tratan incluyen:

libro Official Google Cloud Certified Professional Data Engineer Study Guide PDF

Diseño y operacionalización de sistemas de almacenamiento, pipelines e infraestructura de procesamiento.
Comprensión de modelos de Machine Learning y cómo seleccionar modelos pre-entrenados.
Monitorización y solución de problemas en modelos de ML.
Diseño de aplicaciones de analítica y Machine Learning que sean seguras, escalables y altamente disponibles.

Este manual está orientado a desarrollar un entendimiento profundo de la ingeniería de datos y el aprendizaje automático en Google Cloud.

Ciclo de vida de los datos

Ingesta

Consiste en la adquisición y la introducción de los datos en el sistema (en nuestro caso, en Google Cloud)

Generados por aplicaciones
- ⚠️ El volumen depende del número de usuarios y los tipos de datos generados por la app
  - Datos de usuario → Nombre, dirección
  - Datos generados por la app → Logs, datos de generación de eventos

Ingesta → Computer Engine, KubernetesEngine, App Engine

Enviados a → Cloud Monitoring, Cloud SQL, Firestore

Datos streaming → Pequeños mensajes que se envían todo el rato suelen incluir una marca temporal
- Datos de monitorización de una VM (uso de CPU y memoria…)
- IoT
- Clientes añadiendo algo a su carrito → Evento generado

💡 Pub/Sub → Puede hacer de buffer mientras las aplicaciones procesan los datos

Datos en bloque → Ficheros
- Datos transaccionales que se exportan de una BBDD para usarse en un pipeline de ML
- Datos que se archivan para cumplir con regulación
- Migración de datos desde local a la nube exportando ficheros

💡 Cloud Storage o Cloud Storage + Cloud Transfer Service

Almacenamiento

El objetivo es tener los datos disponibles para las siguientes fases.

¿Cómo van a ser accedidos esos datos?

→ Patrones de acceso a los datos

Necesita filtrar datos para encontrar registros específicos (procesado de clientes en un e-commerce)

💡 Cloud SQL, Firestore

Datos que se acceden en bloque como datasets de entrenamiento en una pipeline de ML

💡 Cloud Storage

Acceso tipo sistema de ficheros

💡 Cloud Filestore

¿Cómo implementar el control de acceso?

Restricción de acceso a tablas y vistas → BBDD relacionales

💡 Cloud SQL, Cloud Spanner

Restricción a ficheros o buckets

💡 Cloud Storage

¿Cuánto tiempo van a ser almacenados?

Temporal → SSD del Compute Engine ejecutando la aplicación
- ⚠️ Si la instancia se para → los datos se pierden
Largo plazo → Cloud Storage (Nearline y Coldline Storage)
Datos analíticos a largo plazo → BigQuery
Acceso frecuente → NoSQL

Transformación

Transformaciones de datos → Mapear los datos desde la estructira usada en la fuente de datos a la estructura usada en las etapas de almacenamiento y análisis

Conversión de tipos de datos
Manejo de datos faltantes
Agregación de datos
Filtrado de registros que violan la lógica de negocio (no tienen sentido)
Agregar registros de distintas fuentes de datos
Eliminar atributos que no van a necesitarse
Añadir atributos derivados de los datos de entrada

⚠️ Aplicar la lógica de negocio para la limpieza de datos.

💡 Cloud Dataflow para stream y batch, Cloud Dataproc, Cloud Dataprep (revisión interactiva y preparación para el análisis de datos), Cloud Datafusion

Análisis

En esta fase se extrae información de valor para el negocio.

💡 Cloud Dataflow, Cloud Dataproc, BigQuery, Vertex AI

Es posible construir modelos de ML usando librerías de ML en Spark y ejecutarlos en Cloud Dataproc accediendo a los datos en Bigtable utilizando el interfaz HBase

Exploración y visualización

💡 Looker, Vertex AI

El resto de capítulos giran entorno a este ciclo de vida del dato.

A continuación iremos descubriendo las herramientas que ofrece Google Cloud y explorando cómo elegir las más adecuadas para cada caso en el resto del resumen de este libro a continuación 🙂

¡Vamos a por ello!