🎙 Episodio 70. Buenas prácticas para el análisis de datos

Hoy vamos a hablar de buenas prácticas en el análisis de datos.

Vamos a hablar de unas habilidades intangibles. No de las clásicas como saber muchísimo de SQL, hacer unas visualizaciones muy ninja o limpiar los datos mejor que Don Limpio.

Hacer preguntas

La primera y fundamental es que en el análisis de datos lo importante no son las técnicas o los datos sino que son las preguntas.

Podemos tener unos datos maravillosos y utilizar las técnicas más tope de gama en ellos que si lo que estamos intentando resolver no está alineado con lo que necesitamos, no llegaremos a ningún sitio.

La clave está en poder formular nuestras necesidades como preguntas o como hipótesis que tenemos que verificar o desestimar porque no son buenas.

Las preguntas van evolucionando al ir explorando un conjunto de datos, seguramente no lleguemos a las preguntas clave a la primera.

Estas preguntas, nos ayudarán a asegurar que estamos recogiendo los datos que realmente necesitamos o a descubrir que tal vez necesitaríamos conseguir capturar otros datos que no nos habían parecido tan importantes en un principio.

La técnica de los 5 "porqués" de Toyota

Taiichi Ohno tuvo clara la importancia de las preguntas durante su carrera.

Después de sus estudios, comenzó a trabajar en una de las primeras empresas de la familia Toyoda. La empresa era Toyota pero ni siquiera se llamaba así todavía.

Taiichi era ingeniero de producción en Toyota y llegó a ser vicepresidente de la compañía.

Durante su tiempo en la compañía animó a sus equipos a observar los procesos de producción sin prejuicios y ante cualquier problema ante el que se encontraran preguntar “por qué” 5 veces.

Si una máquina dejaba de funcionar preguntaría al operario porqué esa máquina había dejado de funcionar. Éste le contestaría que porque ha sufrido una sobrecarga, por ejemplo.

Taiichi le preguntaría porqué ha sufrido una sobrecarga la máquina y el operario le volvería a contestar diciendo que porque tal o cual pieza se ha atascado.

- ¿Por qué la pieza se ha atascado?

- Porque no está bien lubricada.

Ya vamos 3 porqués.

- ¿Y por qué no estaba bien lubricada la pieza esta que se ha atascado?

A estas alturas al operario ya empieza a temblarle un ojo ligeramente pero contesta.

- Porque resulta que el conducto de lubricación está obstruido.

Y… wait for it…

- ¿Por qué el conducto del aceite está obstruido?

El operario ya está seguro de que Taiichi tiene un comportamiento igual al de su hijo de 4 años pero aún así vuelve a responder.

- Porque no hay un filtro en la bomba del aceite.

En vez de saltar a una solución inmediata al problema de que se haya roto la máquina, tirarla a la basura y comprar una nueva han detectado que lo que pasa es que hay que revisar los filtros de aceite.

Han llegado al fondo del asunto.

Está técnica se ha popularizado con el nombre de los 5 porqués y de esta historia podemos quedarnos con la importancia:

De observar nuestros datos sin prejuicios (o con los mínimos posibles) de la misma manera que Taiichi Ohno animaba a sus operarios a observar los procesos de fabricación en Toyota
Con la importancia de formular preguntas.

Evidentemente cuando estamos analizando un dataset, o en la vida en general, no es tan sencillo como preguntar porqué 5 veces y ya estaría.

Preguntas esenciales para empezar

El libro Becoming a data head sugiere que no existe una fórmula única que funcione para todas las empresas y todas las personas encargadas de datos.

Para los líderes y personas más experimentadas, el libro aconseja crear un ambiente abierto donde se fomente la participación y se hagan preguntas. Esto implica tener en cuenta la visión de los expertos técnicos en el dominio en el que se han generado los datos.

Y para la gente con menos experiencia, recomienda hacer preguntas incluso si da un poco de miedito que esto pueda alterar el orden establecido.

La idea es identificar señales pronto y expresar preocupaciones desde el principio, estar siempre alerta, como hacía Taiichi Ohno en Toyota.

Cinco preguntas esenciales a intentar responder antes de abordar un problema de datos:

1. ¿Por qué es importante este problema?

2. ¿A quién afecta este problema?

3. ¿Qué pasa si no tenemos los datos correctos?

4. ¿Cuándo termina el proyecto?

5. ¿Qué pasa si los resultados no nos gustan?

Estas preguntas nos ayudarán a comprender mejor el problema y a anticipar posibles desafíos o limitaciones que nos vayamos a encontrar.

Tener confianza en los resultados (pero no mucha)

Después, a medida que vayáis trabajando el dataset seguramente descubráis cosas chulas y tal vez os encontréis preguntandoos

¿Qué otros datos puedo conseguir que demuestren la genialidad de mi descubrimiento?

Es normal.

Habéis descubierto oro en vuestro dataset. Ya os véis llevando la rentabilidad de la empresa a la luna y a vuestros jefes felicitando vuestra inteligencia sin límites.

Recuerda que vas a morir

Los generales romanos, cuando llegaban victoriosos de una campaña, participaban en un desfile multitudinario en su honor.

Durante el desfile, el general era llevado por las calles en un carro tirado por cuatro caballos, y era adorado por sus tropas y el público como si fuera un dios.

Peeeero, curiosamente, había un esclavo en el mismo carro que tenía una tarea muy importante: recordarle al general que iba a morir.

El esclavo le susurraba constantemente al oído frases como "Recuerda que eres mortal. Recuerda que debes morir".

Puede parecer que el esclavo era un corta-rollos pero esta práctica servía para recordarle al general que, a pesar de su gran éxito, él seguía siendo un ser humano mortal y que su gloria no sería eterna.

Así que, cuando creáis que habéis descubierto oro en vuestro dataset. Acordaos del esclavo corta-rollos y preguntaos también qué datos podríais añadir a vuestro dataset que invalidaran vuestro descubrimiento.

Especialmente en casos donde os encontréis realizando un análisis para alguien que realmente desea una respuesta específica.

Ahí sí que debemos invocar al esclavo corta-rollos y desempeñar un papel un poco más escéptico para evitar cometer errores.

Y por supuesto, evitar caer en la trampa de encontrar alguna técnica favorita y luego solo buscar las partes de los problemas en las que esta técnica funciona y obviar el resto.

En el análisis de datos hay que andar con mil ojos para evitar ver sólo lo que queremos ver.

Correlación no implica causalidad

Como os contaba en el episodio 39, el cerebro es una máquina de detectar patrones.

Especialmente patrones que explican sus teorías propias y podemos llegar a ver relaciones dónde no las hay.

Simplemente porque queremos verlas.

Así somos.

A veces, nos aferramos a una correlación, es decir, cuando dos cosas parecen estar relacionadas para pensar directamente que una es causa de la otra.

Casualidades

A veces, dos cosas pueden parecer estar relacionadas pero es solo por casualidad. Imaginad que cada vez que lleváis un paraguas, os encontráis con un amigo en la calle.

Evidentemente, esto no significa que llevar un paraguas cause el encuentro con esta persona; es una coincidencia.

Variables ocultas

Podría haber una tercera cosa, una "variable oculta", que esté causando ambas cosas.

Por ejemplo, si tenéis un dataset que entre otras variables tiene una con el consumo de helados y otra con los casos de quemaduras solares, podríamos encontrar un patrón en ese conjunto de datos que indicara que cuando aumentan las ventas de helados, también aumentan los casos de quemaduras solares.

Pero no por ello vamos a afirmar que comer helado causa quemaduras solares, ¿verdad?

Ambas cosas son causadas porque hace más calor. La gente compra más helados y pasa más tiempo en la playa o en la piscina si hace calor.

Causalidad inversa

Incluso si hay una relación causal, podría ser al revés de lo que pensamos.

Por ejemplo, podríamos ver que las personas que duermen menos tienen más éxito en sus carreras y pensar que dormir poco lleva al éxito.

Pero podría ser que las personas exitosas, debido a que trabajan mucho dedican menos tiempo a descansar.

Y es que a veces, la relación entre dos cosas es más compleja de lo que parece y puede haber múltiples factores involucrados.

Por ejemplo, hay una correlación entre el nivel de educación y la salud de la población, peeeero no podemos decir simplemente que "si estudías más, estarás más sano".

Hay muchos otros factores a tener en consideración, como ingresos, nivel socio económico, acceso a la sanidad o estilos de vida, que juegan un papel muy importante.

Entonces, para un analista de datos, es común tener que lidiar con estos patrones que parecen indicar que dos variables están relacionadas y la reacción fácil de nuestro cerebro puede ser pensar que una está causada por la otra pero no.

Así que es importante ser claros con clientes, jefes o con quien quiere a quién estamos explicando los resultados sobre las limitaciones de lo que los datos pueden decir acerca de la causalidad de posibles patrones en nuestros resultados.

Así que como veis es importante comprobar algunas cosillas antes de entregar nuestro análisis final de los datos.

Pedir una segunda opinión

Muchas veces, después de haber estado trabajando un dataset durante un tiempo, podemos llegar a generar un tipo de ceguera que nos impide ver nuestros propios errores por mucho que los busquemos.

Por mucho que nos hagamos preguntas y más preguntas para ver si nuestras hipótesis se sostienen o invoquemos al esclavo corta-rollos que dice que vamos a morir no hay nada que hacer.

En estas situaciones, lo mejor es invocar a otro ninja de los datos que nos eche una mano y vea nuestro trabajo con una mirada fresca antes de presentar los resultados a clientes o superiores.

Pedir un cable a otro analista puede ser útil en varias etapas del análisis de los datos.

Al principio, pueden ver posibles problemas a los que ellos ya se han enfrentado o darnos ideas sobre qué.
Al final, pueden ver cosas raras que nosotros ya no somos capaces de ver de tanto tiempo que le hemos dedicado al análisis de esos datos, inconsistencias o incluso errores en nuestro análisis.

Así que, como véis, formar parte de una comunidad de ninjas de los datos es algo muy valioso, ya que otros compañeros nos pueden aportar una perspectiva crítica y constructiva.

Peeeero, incluso con eso a veces nos equivocaremos.

Hay muchos límites a lo que podemos aprender de un conjuntos de datos determinado.

Reconocer las limitaciones del análisis

Porque no sabemos, lo que no sabemos.

Así que reconocer las limitaciones de nuestro análisis y admitir cuando no estamos seguros de algo es clave para mejorar y hacer mejores predicciones en el futuro.

Aunque pueda parecer una debilidad, admitir que no estamos seguros de algo es en realidad una fortaleza.

Imaginad que estáis trabajando en una empresa que quiere entender mejor el comportamiento de sus clientes y diseñáis un modelo para predecir qué productos son los que se van a vender mejor basándonos en datos históricos.

Cuando se pone el modelo en uso, os dais cuenta de que las predicciones no son tan precisas como esperabais.

Entonces hay dos opciones:

Podríais defender el modelo original y argumentar que el fallo viene de otro departamento o de circunstancias externas que no habíais tenido en cuenta e igual cuela. Sin embargo, esto puede llevar a decisiones empresariales erróneas, a comprar cantidades equivocadas de materiales y, a la larga ser peor para la empresa.

La otra opción es revisar y ajustar el modelo, tal vez descubriendo variables que no considerasteis anteriormente o errores en la forma en que se procesaron los datos y evitar que el error se propague a otros departamentos de la empresa.

Espero que el episodio de hoy os sea de provecho y que aprendáis algo de valor.

Si es así, no olvidéis dejar una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Ivoox o donde quiera que escuchéis el podcast.

Recordad que si tenéis cualquier duda o pregunta podéis contactar conmigo a través del formulario de contacto o podemos seguir la conversación en Twitter.

Muchas gracias por estar ahí y os espero en el próximo episodio de Un Podcast Ninja sobre Big Data.