Official GCP Professional Data Engineer Study Guide

La guía de estudio oficial para la certificación de Ingeniero de Datos profesional de Google Cloud está diseñada para ayudar a preparar el examen de certificación GCP Professional Data Engineer.

Este libro es una herramienta muy valiosa para desplegar y gestionar aplicaciones de analítica y Machine Learning en Google Cloud.

Los temas principales que se tratan incluyen:

libro Official Google Cloud Certified Professional Data Engineer Study Guide PDF
  • Diseño y operacionalización de sistemas de almacenamiento, pipelines e infraestructura de procesamiento.
  • Comprensión de modelos de Machine Learning y cómo seleccionar modelos pre-entrenados.
  • Monitorización y solución de problemas en modelos de ML.
  • Diseño de aplicaciones de analítica y Machine Learning que sean seguras, escalables y altamente disponibles.

Este manual está orientado a desarrollar un entendimiento profundo de la ingeniería de datos y el aprendizaje automático en Google Cloud.

Ciclo de vida de los datos

Ingesta

Consiste en la adquisición y la introducción de los datos en el sistema (en nuestro caso, en Google Cloud)

  • Generados por aplicaciones
    • ⚠️ El volumen depende del número de usuarios y los tipos de datos generados por la app
      • Datos de usuario → Nombre, dirección
      • Datos generados por la app → Logs, datos de generación de eventos

Ingesta → Computer Engine, KubernetesEngine, App Engine

Enviados a → Cloud Monitoring, Cloud SQL, Firestore

  • Datos streaming → Pequeños mensajes que se envían todo el rato suelen incluir una marca temporal
    • Datos de monitorización de una VM (uso de CPU y memoria…)
    • IoT
    • Clientes añadiendo algo a su carrito → Evento generado

💡 Pub/Sub → Puede hacer de buffer mientras las aplicaciones procesan los datos

  • Datos en bloque → Ficheros
    • Datos transaccionales que se exportan de una BBDD para usarse en un pipeline de ML
    • Datos que se archivan para cumplir con regulación
    • Migración de datos desde local a la nube exportando ficheros

💡 Cloud Storage o Cloud Storage + Cloud Transfer Service

Almacenamiento

El objetivo es tener los datos disponibles para las siguientes fases.

¿Cómo van a ser accedidos esos datos?

→ Patrones de acceso a los datos

  • Necesita filtrar datos para encontrar registros específicos (procesado de clientes en un e-commerce)

💡 Cloud SQL, Firestore

  • Datos que se acceden en bloque como datasets de entrenamiento en una pipeline de ML

💡 Cloud Storage

  • Acceso tipo sistema de ficheros

💡 Cloud Filestore

¿Cómo implementar el control de acceso?

  • Restricción de acceso a tablas y vistas → BBDD relacionales

💡 Cloud SQL, Cloud Spanner

  • Restricción a ficheros o buckets

💡 Cloud Storage

¿Cuánto tiempo van a ser almacenados?

  • Temporal → SSD del Compute Engine ejecutando la aplicación
    • ⚠️ Si la instancia se para → los datos se pierden
  • Largo plazo → Cloud Storage (Nearline y Coldline Storage)
  • Datos analíticos a largo plazo → BigQuery
  • Acceso frecuente → NoSQL

Transformación

Transformaciones de datos → Mapear los datos desde la estructira usada en la fuente de datos a la estructura usada en las etapas de almacenamiento y análisis

  • Conversión de tipos de datos
  • Manejo de datos faltantes
  • Agregación de datos
  • Filtrado de registros que violan la lógica de negocio (no tienen sentido)
  • Agregar registros de distintas fuentes de datos
  • Eliminar atributos que no van a necesitarse
  • Añadir atributos derivados de los datos de entrada

⚠️ Aplicar la lógica de negocio para la limpieza de datos.

💡 Cloud Dataflow para stream y batch, Cloud Dataproc, Cloud Dataprep (revisión interactiva y preparación para el análisis de datos), Cloud Datafusion

Análisis

En esta fase se extrae información de valor para el negocio.

💡 Cloud Dataflow, Cloud Dataproc, BigQuery, Vertex AI

Es posible construir modelos de ML usando librerías de ML en Spark y ejecutarlos en Cloud Dataproc accediendo a los datos en Bigtable utilizando el interfaz HBase

Exploración y visualización

💡 Looker, Vertex AI

El resto de capítulos giran entorno a este ciclo de vida del dato.

A continuación iremos descubriendo las herramientas que ofrece Google Cloud y explorando cómo elegir las más adecuadas para cada caso en el resto del resumen de este libro a continuación 🙂

¡Vamos a por ello!

Todos los Capítulos de este libro

A continuación encontrarás un resumen de los capítulos del libro.

Capítulo 1. Almacenamiento
Capítulo 2. Almacenamiento en GCP
Capítulo 3. Canalizaciones de datos
Capítulos 4 y 5. Procesamiento
Capítulo 6. Seguridad y compliance
Capítulo 7. Diseño de Bases de Datos
Capítulo 8. Data Operations
Capítulos 9 - 12. Machine Learning en GCP

Boletín Ninja

Suscríbete a la newsletter y recibe la guía ninja del Big Data y la Inteligencia Artificial.

Guía ninja del Big Data
Copyright © 2024  · Datos 🥷 · Todos los derechos reservados
💼 Aviso legal y cookies