Eres un Ingeniero de datos y no sabes si la certificación de Google como Professional Data Engineer es para ti.
También tienes dudas sobre qué necesitas saber para presentarte al examen o cómo preparar la certificación.
Bien. Creo que has llegado al sitio correcto.
He escrito este artículo con todo lo que me habría gustado saber a mí antes de presentarme y aprobar la certificación de Professional Data Engineer en Google Cloud Platform.
El objetivo del examen de certificación de ingeniero de datos profesional de Google Cloud es, en teoría, comprobar tus habilidades a la hora implementar soluciones de datos en la plataforma de Google Cloud.
Para demostrar que sabes implementar sistemas capaces de procesar datos en Google Cloud tendrás que poder responder preguntas sobre cuatro áreas principales:
Como ves, en principio son preguntas pensadas para gente con experiencia en sistemas de Big data e ingenieros de datos.
De hecho, Google recomienda que si quieres presentarte al examen de certificación de Professional Data Engineer deberías contar con al menos tres años de experiencia realizando este tipo de tareas y que al menos uno de esos años hayan sido en entornos de Google Cloud.
Pero que no cunda el pánico porque no es más que una recomendación.
Puedes hacer el examen y obtener la certificación sin tener la experiencia previa que Google recomienda. Yo no la tenía.
Eso sí, tendrás que suplementar esa falta de experiencia con más horas de estudio.
El examen para obtener el certificado de Professional Data Engineer de Google Cloud es tipo test y está disponible únicamente en inglés 🇬🇧 y en japonés 🇯🇵
Algunas certificaciones de Google están disponibles en español, pero esta en concreto no.
El examen consiste en unas 50 - 60 preguntas de las que tendrás que responder correctamente el 70% para obtener tu certificado de Professional Data Engineer.
Al ser un examen de tipo test tendrás que seleccionar la opción u opciones correctas para cada pregunta de entre las respuestas disponibles (normalmente hay 4 opciones entre las que elegir).
Todo esto en menos de 2 horas, que es el tiempo del que dispondrás para completar el examen.
Pues para poder realizar el examen tendrás que pagar $200 más impuestos cada vez que realices el examen. Personalmente, yo pagué unos 225€.
Ten en cuenta que si suspendes y quieres volver a intentarlo, tendrás que volver a pagar la inscripción y esperar dos semanas.
Si vuelves a suspender en el segundo intento, tendrás que volver a pagar y esperar 60 días antes de poder volver a hacer el examen.
Y si a la tercera no va la vencida, esta vez te tocará esperar un año entero antes de poder intentarlo una vez más.
Y recuerda que el certificado de Professional Data Engineer de Google cloud caduca a los dos años así que si lo quieres renovar tendrás que volver a hacer el examen.
El examen lo puedes hacer online o en un centro autorizado por Google.
Si decides hacerlo en la tranquilidad de tu casa, tendrás que crearte una cuenta en Webassessor.
Asegúrate de que accedes desde la web de Google en inglés porque si intentas registrarte en Webassessor desde la versión en castellano de la web solo aparecen los exámenes disponibles en español y, por tanto, el certificado de Professional Data Engineer no saldrá por ninguna parte.
Una vez creada la cuenta podrás elegir la fecha y hora a la que quieres hacer el examen.
Después de eso tendrás que descargar el navegador seguro donde realizarás el examen y pasar por el proceso de verificación de identidad.
Intenta no dejar estos dos pasos para última hora.
En la plataforma de Google Cloud hay muchas herramientas y tendrás que saber para qué sirven y cuándo utilizar todas las implicadas en ingeniería de datos.
Durante el diseño de un sistema de procesamiento de datos necesitarás saber qué tecnologías de almacenamiento hay disponibles en Google Cloud y ser capaz de seleccionar la correcta según los requisitos de negocio.
Hay bases de datos relacionales como Cloud SQL, bases de datos orientadas a documentos como Cloud Firestore, bases de datos columnares como Cloud Bigtable.
En la plataforma de Google cloud también hay soluciones para montar un data warehouse como Google BigQuery o un data lake de datos no estructurados, Google Cloud Storage.
En muchas ocasiones a priori podremos usar más de una herramienta de almacenamiento de todas las disponibles en la plataforma de Google Cloud.
Sin embargo, seleccionar una solución frente a las demás dependerá de saber evaluar el compromiso entre latencia, velocidad de procesado y número de transacciones. Dependerá de los requisitos del problema.
Una vez hayas decidido cómo almacenar los datos tendrás que saber las distintas opciones de procesamiento que ofrece Google Cloud.
Por un lado está Cloud Dataproc que es una solución de Google Cloud para ejecutar Apache Spark y otras herramientas del ecosistema Hadoop.
Y por otro tendríamos Cloud Dataflow, si queremos utilizar canalizaciones de datos con procesamiento Serverless.
Puedes esperar preguntas sobre qué herramientas elegir para migrar soluciones de datos desde una infraestructura local a la nube de Google.
Vale.
Ya has seleccionado las mejores opciones de almacenamiento y procesamiento en Google Cloud según los requisitos que tenías.
Llega el momento de conectarlo todo y ponerlo a funcionar.
Para ello son fundamentales las canalizaciones de datos y la orquestación del trabajo entre todos los servicios de GCP.
En cuanto a canalizaciones es importante conocer las distintas transformaciones que sufren los datos a lo largo de todo el proceso.
Estas canalizaciones usarán distintas herramientas dependiendo de si quieres que tu solución procese los datos en bloques o en streaming.
Las canalizaciones conectarán todas las fases por las que pasarán los datos desde cómo van a ser adquiridos e ingestados en la nube de Google a las distintas etapas de limpieza y transformación por las que pasarán hasta llegar al almacén de datos.
Aquí te tocará conocer herramientas como Cloud Data Fusion, que permite diseñar canalizaciones de datos de forma interactiva (no-code) y Cloud Dataprep, que es un servicio gestionado e interactivo para reducir el tiempo de preparación de los datos para su análisis.
Para la parte de orquestación necesitarás conocer las características de Cloud Composer.
Como ingeniero de datos, durante el examen se evalúa que comprendes cómo aprovisionar recursos, monitorizar canalizaciones y probar sistemas distribuidos.
No hace falta que te diga que el aprendizaje automático y la inteligencia artificial son temas cada vez más importantes.
Esto se ha reflejado en la evolución del examen de certificación de Professional Data Engineer de Google que en la actualidad da mucha importancia a todo esto del Machine Learning.
Y la verdad es que las posibilidades que ofrece Google Cloud para incorporar soluciones de Inteligencia Artificial son sorprendentes.
Para empezar, en GCP existen modelos pre-entrenados de Machine Learning que se pueden utilizar directamente a través de consultas a las APIs correspondientes.
Pero es que también es posible implementar canalizaciones con etapas de aprendizaje automático con modelos personalizados.
El examen utiliza terminología de Machine Learning, por lo que es importante saber un poco de qué va el aprendizaje supervisado, el no supervisado y tener conocimientos generales de este campo.
Finalmente, encontrarás preguntas relacionadas con la calidad de las soluciones de datos montadas sobre Google Cloud.
Por ejemplo, cómo garantizar la privacidad con técnicas de prevención de pérdida de datos, encriptación y gestión de acceso, así como asegurar el cumplimiento de las principales normativas.
El examen también evalúa tu capacidad como ingeniero de datos para monitorizar canalizaciones con Cloud Monitoring y Cloud Logging que te permitirán saber cuándo escalar recursos.
Si ya has trabajado con GCP o lo utilizas en tu día a día, es posible que algunos de los temas que caen en el examen te resulten más familiares que otros.
Hasta aquí todo normal.
Esto significa que deberás ponerte las pilas con aquellas cosas que te resultan menos familiares pero ya tendrás gran parte del camino hecho.
Podrás pasar más rápido por aquellos conceptos que ya conoces. Pero no dejes de hacer un repaso general de todos los conceptos aunque ya te los sepas.
Las preguntas de aprendizaje automático pueden ser especialmente desafiantes para los ingenieros de datos que trabajan principalmente en sistemas de ingesta y almacenamiento.
Y si eres un ninja del Machine Learning puede ser que necesites invertir más tiempo estudiando el modelado de esquemas para bases de datos NoSQL y diseñando canalizaciones de datos.
Depende.
El examen de certificación de Professional Data Engineer de Google Cloud no es un examen complicado.
Es perfectamente posible aprobarlo aunque no tengas la experiencia en Google Cloud recomendada. Aunque en este caso puede que tengas que dedicar más tiempo a revisar la documentación, leer libros y estudiar en general.
Con los conceptos básicos de ingeniería de datos claros y sin experiencia en Google Cloud podrías llegar a prepararlo en unos 4 ó 5 meses siguiendo los recursos que te recomiendo en la siguiente sección.
Eso sí, tendrás que dedicarle tiempo.
El mejor recurso que puedes encontrar para preparar cualquier certificación de Google Cloud es la propia documentación escrita por Google.
Ahí está todo.
Pero a veces no es fácil saber diferenciar lo que te va a ser útil para esta certificación en concreto.
Para evitar tener que estudiarte toda la documentación y dependiendo de tu nivel de conocimiento y experiencia con Google Cloud puedes utilizar los siguientes recursos.
Esta guía de estudio escrita por Dan Sullivan es uno de los recursos más completos que puedes encontrar y te será de mucha utilidad si ya tienes experiencia utilizando Google Cloud.
El libro incluye preguntas de repaso al final de cada capítulo del mismo tipo a las que encontrarás en el examen real.
La parte negativa de este libro es que fue publicado en 2020 y no incluye las últimas modificaciones y actualizaciones de Google Cloud.
En particular encontrarás que algunas herramientas han cambiado de nombre o modificado ligeramente sus funciones y/o características.
El contenido de esta especialización está hecho directamente por Google Cloud y también está disponible en la web de formación de Google Cloud con el nombre Data Engineer Learning Path.
Esta especialización es perfecta si no tienes experiencia en Google Cloud porque te explican las cosas desde el principio.
Está compuesta por 6 cursos con vídeos cortitos y reforzados por ejercicios prácticos que se realizan directamente en un entorno de Google Cloud.
Incluye un par de exámenes de práctica pero las preguntas son mucho más fáciles que las que encontrarás en el examen real.
No te confíes.
Este libro no está dedicado exclusivamente a la certificación de ingeniero de datos pero es ideal si quieres reforzar algún concepto de la nube de Google que no te haya quedado claro del todo.
Escrito e ilustrado por Priyanka Vergadia, este libro ofrece una guía visual ilustrada para elegir los mejores servicios de Google Cloud Platform según tus necesidades.
El libro presenta alrededor de 100 soluciones divididas en ocho categorías de servicios, sólo tendrás que identificar las que te. servirán como ingeniero de datos.
En cualquier caso, este libro es una herramienta útil para aprovechar al máximo la plataforma de Google Cloud.
Tanto si tienes experiencia con Google Cloud como si no haz exámenes de prueba.
Todos los que sea posible.
Si quieres saber dónde encontrar exámenes para practicar, haz clic aquí.
En general las preguntas del examen real serán algo más complicadas que las que se plantean para que practiques así que márcate como objetivo responder alrededor del 90% bien antes de presentarte al examen.
Puedes apuntarte a la lista de espera prioritaria aquí:
Si vas a hacer el examen online desde casa asegúrate de tener una buena conexión a Internet.
Fundamental.
Habrá una persona al otro lado de tu webcam vigilando aunque tú no la verás en ningún momento. Únicamente tendréis una breve conversación por chat y le tendrás que mostrar a través de la webcam desde dónde estás haciendo el examen y el documento de identificación en el que se compruebe que eres tú.
Ten en cuenta que tienes que realizar el examen en una habitación tranquila y bien iluminada. Nada de personas alrededor o entrando y saliendo de la habitación si no quieres que invaliden tu examen.
Además, la mesa en la que realices el examen tiene que estar limpia. Sin apuntes o cuadernos para tomar notas y sin ningún dispositivo como pantallas externas ni, por supuesto, auriculares.
Ten en cuenta que no podrás levantarte en ningún momento una vez comiences a hacer el examen y que no tendrás permitido tener ni bebida ni comida a tu alcance así que asegúrate de haberte alimentado e hidratado bien antes de comenzar 😉
Y sobre todo... Suerte 🍀
Muchas empresas utilizan la nube para alojar sus ecosistemas de Big Data.
Cada vez más.
Si ya eres un científico de datos, un ingeniero de datos, un analista de datos o un especialista en Machine Learning te estarás dando cuenta de que saber manejarse en la nube está empezando a ser un requisito diferencial.
Superar el examen de Professional Data Engineer de Google Cloud indica que conoces las herramientas disponibles en Google Cloud para implementar soluciones de datos.
Sin embargo, la certificación por sí misma no es una condición necesaria ni suficiente para ser un buen ingeniero de datos en la nube.
Eso sí, a la hora de buscar trabajo es posible que te permita diferenciarte de otros candidatos.
Y además te envían una sudadera muy chula.