Official GCP Professional Data Engineer Study Guide
La guía de estudio oficial para la certificación de Ingeniero de Datos profesional de Google Cloud está diseñada para ayudar a preparar el examen de certificación GCP Professional Data Engineer.
Este libro es una herramienta muy valiosa para desplegar y gestionar aplicaciones de analítica y Machine Learning en Google Cloud.
Los temas principales que se tratan incluyen:
Diseño y operacionalización de sistemas de almacenamiento, pipelines e infraestructura de procesamiento.
Comprensión de modelos de Machine Learning y cómo seleccionar modelos pre-entrenados.
Monitorización y solución de problemas en modelos de ML.
Diseño de aplicaciones de analítica y Machine Learning que sean seguras, escalables y altamente disponibles.
Este manual está orientado a desarrollar un entendimiento profundo de la ingeniería de datos y el aprendizaje automático en Google Cloud.
Ciclo de vida de los datos
Ingesta
Consiste en la adquisición y la introducción de los datos en el sistema (en nuestro caso, en Google Cloud)
Generados por aplicaciones
⚠️ El volumen depende del número de usuarios y los tipos de datos generados por la app
Datos de usuario → Nombre, dirección
Datos generados por la app → Logs, datos de generación de eventos
Enviados a → Cloud Monitoring, Cloud SQL, Firestore
Datos streaming → Pequeños mensajes que se envían todo el rato suelen incluir una marca temporal
Datos de monitorización de una VM (uso de CPU y memoria…)
IoT
Clientes añadiendo algo a su carrito → Evento generado
💡 Pub/Sub → Puede hacer de buffer mientras las aplicaciones procesan los datos
Datos en bloque → Ficheros
Datos transaccionales que se exportan de una BBDD para usarse en un pipeline de ML
Datos que se archivan para cumplir con regulación
Migración de datos desde local a la nube exportando ficheros
💡 Cloud Storage o Cloud Storage + Cloud Transfer Service
Almacenamiento
El objetivo es tener los datos disponibles para las siguientes fases.
¿Cómo van a ser accedidos esos datos?
→ Patrones de acceso a los datos
Necesita filtrar datos para encontrar registros específicos (procesado de clientes en un e-commerce)
💡 Cloud SQL, Firestore
Datos que se acceden en bloque como datasets de entrenamiento en una pipeline de ML
💡 Cloud Storage
Acceso tipo sistema de ficheros
💡 Cloud Filestore
¿Cómo implementar el control de acceso?
Restricción de acceso a tablas y vistas → BBDD relacionales
💡 Cloud SQL, Cloud Spanner
Restricción a ficheros o buckets
💡 Cloud Storage
¿Cuánto tiempo van a ser almacenados?
Temporal → SSD del Compute Engine ejecutando la aplicación
⚠️ Si la instancia se para → los datos se pierden
Largo plazo → Cloud Storage (Nearline y Coldline Storage)
Datos analíticos a largo plazo → BigQuery
Acceso frecuente → NoSQL
Transformación
Transformaciones de datos → Mapear los datos desde la estructira usada en la fuente de datos a la estructura usada en las etapas de almacenamiento y análisis
Conversión de tipos de datos
Manejo de datos faltantes
Agregación de datos
Filtrado de registros que violan la lógica de negocio (no tienen sentido)
Agregar registros de distintas fuentes de datos
Eliminar atributos que no van a necesitarse
Añadir atributos derivados de los datos de entrada
⚠️ Aplicar la lógica de negocio para la limpieza de datos.
💡 Cloud Dataflow para stream y batch, Cloud Dataproc, Cloud Dataprep (revisión interactiva y preparación para el análisis de datos), Cloud Datafusion
Análisis
En esta fase se extrae información de valor para el negocio.
💡 Cloud Dataflow, Cloud Dataproc, BigQuery, Vertex AI
Es posible construir modelos de ML usando librerías de ML en Spark y ejecutarlos en Cloud Dataproc accediendo a los datos en Bigtable utilizando el interfaz HBase
Exploración y visualización
💡 Looker, Vertex AI
El resto de capítulos giran entorno a este ciclo de vida del dato.
A continuación iremos descubriendo las herramientas que ofrece Google Cloud y explorando cómo elegir las más adecuadas para cada caso en el resto del resumen de este libro a continuación 🙂
¡Vamos a por ello!
Todos los Capítulos de este libro
A continuación encontrarás un resumen de los capítulos del libro.
Ya no necesitas pagar cientos de euros por un Bootcamp para convertirte en ninja de los datos. Por solo 17€/mes (o menos 🤯), obtén acceso al podcast premium, a todos los tutoriales y a los resúmenes de los libros más top sobre Machine Learning y Ciencia de datos y aprende a tu ritmo.