Análisis de Reviews con GenAI en BigQuery

En esta sesión de 1 hora verás paso a paso las capacidades de IA generativa en BigQuery con un caso de uso real: el análisis de reseñas de supermercados Mercadona.

Si alguna vez te has preguntado cómo las empresas extraen valor real de miles de opiniones dispersas en Google Maps, este proyecto end-to-end te lo mostrará desde el principio.

Arquitectura end-to-end

El proyecto sigue un flujo completo de datos:

Extracción → Almacenamiento → Consolidación → Carga → Enriquecimiento → Análisis

  1. Extracción asíncrona con ScrapingDog API para obtener reviews de Google Maps
  2. Almacenamiento incremental en Google Cloud Storage con sistema de particiones
  3. Consolidación en parquet para análisis eficiente
  4. Carga a BigQuery como data warehouse central
  5. Enriquecimiento con Gemini 2.5 Flash para extraer categorías, sentimientos y perfiles
  6. Análisis visual con Pandas y Matplotlib

Sistema de checkpointing con Google Cloud Storage

Uno de los desafíos del scraping a escala es:

¿qué pasa si el proceso falla a mitad de camino?

El notebook incluye una clase GCSCheckpointer que:

  • Guarda particiones incrementales cada 10 páginas de reviews
  • Mantiene metadatos de progreso por cada negocio (not_started, in_progress, complete)
  • Permite reanudar extracciones desde el último punto guardado sin duplicar datos
  • Evita pérdida de datos ante errores de red, rate limits o interrupciones del notebook

Esto convierte un script frágil en un sistema resiliente que podríamos dejar corriendo durante horas.

Almacenamiento eficiente con Google Cloud Storage y Parquet

Nada de CSVs ni datos en memoria.

Aplicamos las buenas prácticas de la ingeniería de datos moderna:

  • Google Cloud Storage como data lake económico y escalable
  • Formato Parquet con compresión Snappy: 80% menos tamaño y 10x más velocidad
  • Particionamiento por negocio: permite análisis incrementales
  • Metadatos JSON: seguimiento automático del estado de cada extracción

El resultado: un primer pipeline preparado para manejar millones de reviews sin cuellos de botella.

Enriquecimiento de datos con Gemini

El verdadero valor del proyecto está aquí.

Las reviews en texto libre no son útiles hasta que las estructuras.

Gemini 2.5 Flash, integrado directamente en BigQuery, extrae de cada review:

Categorías con contexto:

  • ¿La reseña habla de producto, instalaciones, precio o atención al cliente?
  • ¿Qué aspecto específico menciona? (calidad, limpieza, amabilidad)
  • ¿En qué sección de la tienda? (caja, parking, charcutería)
  • ¿Es positivo, negativo o neutral?

Perfil del cliente:

  • Frecuencia de visita (habitual, ocasional, primera vez)
  • Tipo de compra (compra grande, específica, urgente)
  • Origen (local, turista)
  • Necesidades especiales (sin gluten, vegano, etc.)
  • ¿Volverá?

Todo esto con citas textuales que soportan cada clasificación.

Análisis que revelan patrones ocultos en las opiniones

Con los datos ya enriquecidos, exploramos análisis que responden preguntas reales de negocio:

  1. Tendencia temporal del rating: evolución del sentimiento y momentos de crisis.
  2. Reviews con texto vs solo rating: cómo cambia el sesgo de las opiniones detalladas.
  3. Top categorías y aspectos: qué valoran y qué critican los clientes.
  4. Comparativa por establecimiento: qué tiendas destacan en limpieza, atención o calidad.

🎥 Si quieres aprender sobre las capacidades de GenAI en BigQuery y aplicarlo a un caso de análisis de reviews a escala, no te pierdas el video completo y el repo con el código completo en el GitHub de la Comunidad.

Lo encontrarás a continuación.

Membresía requerida

Este contenido está disponible únicamente para suscriptores.

Puedes apuntarte a la plataforma en este enlace

¿Ya eres un ninja? Accede aquí

Accede a todo el contenido premium

Ya no necesitas pagar cientos de euros por un Bootcamp para convertirte en ninja de los datos. Por solo 17€/mes (o menos 🤯), obtén acceso al podcast premium, a todos los tutoriales y a los resúmenes de los libros más top sobre Machine Learning y Ciencia de datos y aprende a tu ritmo.
¡Empieza ahora!
Copyright © 2026  · Datos 🥷 · Todos los derechos reservados