🎙 Episodio 74. El método definitivo para el análisis de datos

En el episodio de hoy de Un podcast ninja sobre Big Data os doy unas cuantas recomendaciones para conseguir el método de análisis de datos definitivo.

https://open.spotify.com/episode/4hfIUnrywVKHV4Ismytzom?si=6d6dd77230b249c6

Estas recomendaciones van más allá de lo típico de familiarízate con tus datos, fíjate en el tipo de datos con el que estás tratando, si son números, variables categóricas y luego analiza anomalías y mira que pasa con los valores faltantes…

Sí, sí, todo eso lo vais a tener que hacer.

Hoy te traigo recomendaciones pro.

Fases del análisis de datos

Primero, podemos separar el análisis de datos en tres fases interrelacionadas.

Una para comprobar si nos fiamos realmente de los datos que tenemos.

Es decir...

¿Creo yo que estos datos son consistentes y que el proceso para recolectarlos ha sido el correcto?

¿Me fío de que representen lo que yo creo que representan?

Luego habría una etapa en la que el objetivo es interpretar de manera objetiva los datos.

Aquí, es muy importante la parte de la objetividad porque vamos a describir lo que muestran los datos sin añadir opiniones o interpretaciones subjetivas.

Ya habrá tiempo para las hipótesis más tarde.

Por ejemplo, imaginad que tenéis un dataset sobre el uso de una aplicación móvil, y queréis entender cómo los usuarios interactúan con una nueva funcionalidad que habéis metido en la última versión de la app.

En esta parte de descripción, no nos metemos a formular hipótesis sobre si a los usuarios les gusta o no la nueva funcionalidad.

Simplemente nos centramos en los datos objetivos: el número de veces que se ha accedido a la nueva funcionalidad, cuánto tiempo pasan usándola o la cantidad de veces que la usan en comparación con otras funciones de la aplicación.

Al analizar los datos, igual descubrís que:

En promedio, los usuarios acceden a la nueva funcionalidad 2 veces al día.
Que el tiempo medio que pasan en la nueva función es de 5 minutos por sesión.
O que hay un aumento del 20% en la frecuencia de uso de la aplicación desde la introducción de la nueva funcionalidad.

Todas estas cosas son objetivas según los datos de nuestro dataset.

No hemos intentado interpretar nada sobre si estos resultados son buenos o malos para la aplicación, los usuarios o nuestra empresa.

Y luego ya, en la etapa de evaluación, analizamos si lo que hemos visto en la etapa de descripción de los datos es bueno, malo o qué impacto tiene.

Lo bueno de separar el análisis en estas etapas es que minimizamos la introducción de sesgos en la interpretación de los datos.

Si mezclamos la descripción con la evaluación, podemos terminar viendo solo lo que queremos ver, en lugar de lo que los datos realmente muestran.

De todos maneras este proceso no es lineal; podemos movernos entre las etapas a medida que exploramos los datos.

Siempre siendo conscientes de en qué etapa estamos. Por supuesto.

Etapa de validación de datos

Pero volviendo un poco a la primera etapa en la que no teníamos claro si fiarnos o no de los datos que nos han pasado…

Para entender más tarde nuestros resultados es muy importante entender el contexto sobre cómo se han recogido los datos.

No es lo mismo analizar datos experimentales que datos observacionales.

Los datos experimentales se han recogido de manera deliberada siguiendo el método científico o una metodología concreta y buscan responder cuestiones específicas. Como podría ser un ensayo clínico o un test A/B en marketing.

Los datos observacionales se recogen a partir de la observación de algún proceso.

Si, por ejemplo, los datos provienen de un experimento, o sea que son datos experimentales, estaría muy guay entender cómo se diseñó el experimento, qué es lo que se quería comprobar y cómo se organizó.

Por otro lado, si los datos son observacionales y se recopilaron mediante instrumentos de medida, entender cómo funciona este proceso de medida nos puede ayudar a identificar restricciones que pueden afectar al resultado de nuestro análisis de datos.

Por ejemplo, volviendo al caso en el que estamos evaluando el impacto de una nueva funcionalidad en una app móvil, que hemos introducido a través de una actualización...

Si nos enteramos de cómo se hizo todo el proceso de recolección de datos y averiguamos que la nueva funcionalidad solo se activó para los usuarios que actualizan a la última versión de la app y además que la configuración de la recolección sólo recoge datos de usuarios de Android, tendremos que tener en cuenta que el comportamiento de un usuario puede variar mucho dependiendo de si tiene Iphone o Android.

Podría ser que nuestros datos no fueran representativos de la base de usuarios total ya que solo tenemos datos de Android.

Tenemos que tener en cuenta que tomar decisiones basadas en información que no refleja a todos los afectados (en este caso usuarios de Iphone y de Android y no solo de Android) puede llevar a errores graves.

Y lo peor es que podríamos estar pensando que nuestras decisiones están bien fundamentadas.

Y no.

Además, estaría bien revisar si pasó algo inusual durante el tiempo en el que se recogieron los datos.

Un periodo vacacional, un Blackfriday o cualquier cosa que pueda influir en el comportamiento de los usuarios.

Otra cosa a tener en cuenta como parte de la validación de los datos es que lo que queremos conseguir es saber el impacto de la nueva funcionalidad por lo que es importante primero asegurarnos de que otras cosas que no queremos que cambien, se mantengan constantes.

Si cambia todo a la vez va a ser complicado saber de dónde viene cualquier diferencia que veamos.

Por ejemplo, si cambia el número de usuarios porque de repente hemos destacado la app en la app store pues no podremos asegurar que cualquier cambio en las métricas de análisis no se deba simplemente a que había más o menos gente usando la app.

Bien.

Otra manera para asegurarnos de que los datos que tenemos son precisos y confiables sería intentar medir la misma cosa de distintas maneras y luego comprobar que los resultados son consistentes.

Aquí depende de si tenemos algún control sobre los datos que se recolectan, que sería lo óptimo, o si tenemos que hacer lo que podamos con los datos que tenemos.

Pero incluso en este segundo caso, al menos sabremos qué datos nos faltarían para poder aplicar esta recomendación.

Por ejemplo, si queremos saber cuánta gente visita una tienda:

Podríamos poner a una persona que contara cuántas gente entra.
Podríamos usar una cámara y luego analizar las imágenes para contar a la gente.
Podríamos poner un sensor en la puerta de la tienda.

Con las tres maneras estamos midiendo la misma cosa y si los resultados son muy diferentes sería indicativo de que algo podría estar mal.

De esta manera podríamos descubrir errores en cómo se están recogiendo los datos. Al medir de varias maneras y usar diferentes fuentes de datos, podemos identificar y corregir errores antes de que afecten las conclusiones de nuestro análisis.

Vale. Pues ya hemos validado los datos, nos hemos enterado de cómo los han recolectado, hemos medido la misma cosa de varias maneras y hemos visto que el resultado es consistente, nos hemos asegurado de que lo que no tiene que cambiar no cambia.

Conclusión: Nos fiamos.

Etapa de descripción de los datos

Ahora, entramos en la parte descripción de los datos.

De la manera más objetiva posible.

Vamos a describir lo que muestran los datos y nos guardamos nuestras hipótesis para luego.

Para eso usaremos métricas.

Antes os hablaba de que los usuarios acceden a la nueva funcionalidad 2 veces al día en promedio, pasan un tiempo medio 5 minutos por sesión en la nueva funcionalidad y que la frecuencia de uso de la app desde la introducción de la nueva funcionalidad había aumenatdo un 20%.

Todo eso son métricas.

Estas son sencillas pero según vayáis subiendo de nivel en vuestro camino ninja de la analítica de datos iréis utilizando métricas más complejas, o métricas personalizadas que os inventéis vosotros mismos.

Ok.

Cuando calculéis una métrica nueva es una buena práctica comparar el resultado con mediciones anteriores para ver si los resultados son consistentes con lo que habíais obtenido o no.

Si los números son muy diferentes, puede ser una señal de que algo está mal, ya sea en la forma en que se están recogiendo o analizando los datos.

Por ejemplo, imaginad que trabajáis en el equipo de analítica de datos de Instagram y hasta ahora habéis medido el engagement en redes sociales a través de la tasa de clics en las publicaciones.

Más clics, más engagement.

Entonces decidís, introducir una nueva métrica de engagement que también considera las interacciones en la publicación, como los "me gusta", comentarios y compartidos, para obtener una imagen más completa del engagement.

En mediciones anteriores la tasa de clics en las publicaciones, tiene un promedio histórico del 2%.

Y la nueva fórmula que combina clics, "me gusta", comentarios y compartidos para cada publicación, resulta en una puntuación de engagement promedio de 4.5 (en una escala del 1 al 10).

Aunque no podéis comparar directamente la tasa de clics del 2% con la puntuación de engagement de 4.5 debido a que son diferentes podemos ver si las publicaciones con altas tasas de clics también muestran altas puntuaciones de engagement con la nueva métrica o no.

Si resulta que encontráis publicaciones con alta tasa de clics pero puntuaciones de engagement bajas con la nueva métrica, habrá que investigar más sobre la nueva métrica.

No tiene porqué estar mal, pero tendréis que hacer un trabajo adicional para comprobar que refleja lo que queréis obtener.

Si algo no cuadra, mejor asumir que estáis equivocados hasta que se demuestre lo contrario. Muchos súper-descubrimientos en un análisis de datos resultan ser un error.

La idea es que los resultados sean consistentes.

Etapa de evaluación

Y ya en la última parte del análisis, cuando evaluamos lo que hemos visto en la etapa de descripción de los datos y analizamos si es bueno o no.

En este momento ya estamos ready para hacer hipótesis y buscar pruebas que las demuestren o que las descarten.

El análisis de datos es un proceso iterativo.

Al hacerlo, encontraremos anomalías (cosas que no esperábamos), tendencias, y otras características interesantes. Estos hallazgos pueden ser el punto de partida para desarrollar teorías que expliquen por qué ocurren estas cosas.

Cuando observes algo inusual o interesante en tus datos, podrías empezar a formular teorías para explicarlo. Peeeero, es importante no asumir que nuestra teoría es correcta. Hay que buscar pruebas.

Y aunque no siempre será posible realizar estos experimentos en la práctica, ya sólo con el hecho de plantearlos podemos tener nuevas ideas sobre cómo analizar y validar nuestros datos.

Con todo esto vamos a entender mejor el conjunto de datos actual y potencialmente descubriremos nuevas métricas y técnicas que serán útiles para futuros análisis.

Sobre todo recordad que el análisis exploratorio de un dataset es un proceso iterativo.

Pasaremos varias veces por las fases de validación, descripción y evaluación de los datos por lo que no se trata de hacer que cada cosa de cada fase sea perfecta antes de pasar a la siguiente.

De hecho, a menudo pasa que, al final del análisis, descubrimos algo que nos lleva a cambiar el enfoque o dirección y si hemos pasado un montón de tiempo perfeccionando los primeros pasos igual descubrimos que eso que nos ha quedado tan perfecto no es tan relevante como pensabamos al principio.

Por lo tanto, la idea sería lograr algo razonable a lo largo de todo el proceso de análisis, en lugar de buscar la perfección desde el principio y también dejar notas a nuestro yo del futuro sobre las decisiones que vayamos tomando sobre los datos, qué hicimos con las anomalías, con los valores faltantes y esas cositas.

Vuestro yo del futuro os lo agradecerá.

Espero que el episodio de hoy os sea de provecho y que aprendáis algo de valor.

Si es así, no olvidéis dejar una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Ivoox o donde quiera que escuchéis el podcast.

Recordad que si tenéis cualquier duda o pregunta podéis contactar conmigo a través del formulario de contacto o podemos seguir la conversación en Twitter.

Muchas gracias por estar ahí y os espero en el próximo episodio de Un Podcast Ninja sobre Big Data.

🎙 Episodio 74. El método definitivo para el análisis de datos

Fases del análisis de datos

Etapa de validación de datos

Etapa de descripción de los datos

Etapa de evaluación

Accede a todo el contenido premium