🎙 Episodio 78. Herramientas de visualización

En el episodio de hoy de Un podcast ninja sobre Big Data hablamos de gráficos y herramientas de visualización para el análisis de datos.

Tipos de gráficos

En Data Storytelling es importante adaptar el gráfico a los datos que queremos visualizar.

Estadísticos básicos

Si el mensaje consta de un par de números clave únicamente, mostraremos las cifras con un breve texto explicativo.

Estos números clave pueden ser estadísticos generales de nuestro dataset, que nos dan una visión intuitiva de lo que tenemos delante como valores medios, medianos, máximos o mínimos.

Aquí, ya de primeras, podemos formarnos una primera impresión sobre si nuestra intuición sobre nuestros datos se corresponde con la realidad.

Gráficos de líneas

Si queremos mostrar tendencias a lo largo del tiempo, un gráfico de líneas.

Gráfico de líneas - tipos de gráficos para la visualización de datos

Estos gráficos son geniales cuando queremos comprobar fenómenos cíclicos, si hay estacionalidad en nuestros datos o cualquier tipo de patrón temporal.

Por ejemplo, podríamos observar que la gente se va más de vacaciones en agosto o que hay más ventas en un determinado ecommerce la semana de Black Friday.

Gráficos de barras o columnas

Para comparaciones o para mostrar categorías, tenemos los gráficos de barra o columnas.

Una visualización importante que se suele representar como un gráfico de columnas es el histograma.

El histograma

Con un histograma podemos ver cómo están distribuidas nuestras características.

Si, por ejemplo, la característica o variable fuera el número de personas en España según su edad veríamos que la barra más alta se corresponde con las personas de entre 45 y 49 años y que hay muchas menos personas con entre 0 y 4 años.

Visualización de datos Histograma - pirámide de población española

Los histogramas son súper útiles para ver si hay alguna anomalía en nuestros datos.

Imaginad una pirámide de población que tiene su máximo en personas de 45 y 49 años y luego va decreciendo suavemente y de repente tiene un pico muy fuerte en personas de 120 años.

Habría que sospechar.

Gráficos de cajas y bigotes

Además de los gráficos de barras o columnas para hacer comparaciones también nos puede ser de utilidad los diagramas de caja y bigotes porque dan además información sobre la distribución de valores.

Tipos de visualización de datos - Gráfico de cajas y bigotes

Se componen de una caja rectangular que representa donde se concentra la mitad central de los datos.

Luego hay una línea dentro de la caja que marca la mediana y los "bigotes" son líneas que se extienden desde la caja hasta los valores máximo y mínimo, excluyendo valores atípicos.

Los valores atípicos suelen representarse como puntos individuales fuera de los bigotes. 

Gráfico de dispersión

Y el último tipo de visualización del que os voy a hablar, aunque hay muchos más es el gráfico de dispersión.

Regresión lineal Python

Cada punto en el gráfico representa un elemento del conjunto de datos con su posición determinada por los valores de dos características.

Este tipo de gráfico es útil para observar la relación o correlación entre las dos variables.

Por ejemplo, puede ayudar a identificar si aumentos en una variable tienden a estar asociados con aumentos (o disminuciones) en la otra variable y cosas así.

Herramientas para la visualización de datos

Una manera de integrar la generación de visualizaciones en vuestro flujo de trabajo ninja es hacerlo directamente a través de librerías de vuestro lenguaje de programación de confianza.

Librerías de Python

En mi caso es Python pero hay otras opciones, claro.

Así que estáis trabajando en vuestro cuaderno de Jupyter con Python.

Habéis importado el dataset y queréis hacer algo de análisis exploratorio de datos para saber qué estrategia seguir a la hora de diseñar vuestro modelo de Machine Learning.

Los humanos interpretamos el mundo a través de nuestra vista en gran medida. Nuestro cerebro tiene el superpoder de interpretar datos a una velocidad vertiginosa peeero, no le déis una tabla de números y categorías porque se nos funde un cable.

Si visualizamos los datos seremos capaces de empezar a ver patrones de manera inmediata. 

Para esto hay varias librerías de Python

Matplotlib

Una de las más conocidas es matplotlib, que permite a través de una serie de comandos crear todos los gráficos que os he comentado antes y otros muchos con relativamente pocas líneas de código.

Matplotlib es flexible y configurable, lo que significa que podéis ajustar prácticamente todos los aspectos de vuestros gráficos para que se adapten a lo que necesitéis.

Además, se integra muy bien con otras librerías como NumPy y Pandas, así que para manejar y analizar grandes conjuntos de datos pues está muy bien.

Seaborn

Luego tenemos Seaborn, que se construye sobre la anterior y está diseñada para crear gráficos más atractivos y descriptivos que con matplotlib.

Tiene más estilos y más colores para que queden unos gráficos más bonitos.

Además, Seaborn simplifica el proceso de generación de ciertos tipos de gráficos complejos que serían más difíciles de hacer solo con Matplotlib.

Es como una interfaz de alto nivel sobre matplotlib, como si dijéramos.

Bokeh

Y para terminar, tenemos la librería Bokeh, que es un poco distinta porque es una librería para crear visualizaciones en Python peeero los gráficos son interactivos.

Bokeh permite crear visualizaciones con facilidad y ofrece muchas herramientas para lograrlo.

Una de las características clave de Bokeh es su capacidad para generar gráficos que pueden interactuar directamente con el usuario final a través de clics, selección de rangos y más cosas.

Así que está muy guay porque se puede integrar en aplicaciones web para hacer la visualización de datos dinámica y exploratoria directamente ahí, online.

Lo que pasa es que hacerlo así, con matplotlib, seaborn o bokeh, requiere un poco más de tiempo para aprender a usar estas librerías y también, saber de Python. Pero la flexibilidad que ofrecen vale totalmente la pena. 

Hojas de Cálculo

Luego tenemos al archiconocido Excel y su primo de Google, Google Spreadsheets o Numbers en el caso de que uséis Apple. 

Vamos, una hoja de cálculo de toda la vida. 

Estas  hojas de cálculo también permiten hacer visualizaciones de los datos.

Son geniales porque son gratuitas (o tienen una versión gratuita), son muy accesibles y además se puede trabajar online y compartir con otros, peeero en cuanto a gráficos, tienen sus limitaciones.

A veces no es tan fácil quitar todo ese ruido visual o hacer que la gente mire justo donde queréis.

Software de análisis de datos

También tenemos herramientas que están específicamente diseñadas para la visualización y el análisis de datos.

No hay que saber programar sino que son más de pinchar y arrastrar mediante un interfaz gráfico.

Hay muchísimas pero las 3 principales y las que os pedirán más frecuentemente en puestos de trabajo son PowerBI, Tableau y Qlik.

Van más allá de la propia visualización de datos porque integran cositas avanzadas para incluso analizar patrones e implementar modelos predictivos sobre los datos que importamos.

Al importar un dataset a cualquiera de estas herramientas nos muestra por columnas los valores de cada una de las características del dataset.

Además calcula y muestra también información estadística importante sobre dichas características como el número de valores faltantes, el valor medio, el máximo, el mínimo o el valor más frecuente (en el caso de una variable categórica).

Luego podemos seleccionar las características que nos interesan y visualizar los gráficos que más nos convengan.

Son herramientas que cualquier analista de datos usa en su día a día pero también especialistas en Machine Learning pueden preferir una herramientas comos estas para su fase de análisis exploratorio y limpieza de los datos en lugar de hacerlo mediante código con las librerías de antes, por qué no.

Vamos con cada una de ellas.

Power Bi

Power BI nació como una extensión de Excel dedicada a la analítica y visualización de gráficos, así que sí, es de Microsoft.

Es la más reciente de las 3 porque PowerBI se incorporó a la suite de Office 365 en 2013 pero como Microsoft está muy extendido ha crecido muy rápido.

Con Power BI se pueden importar datos de varias fuentes, como hojas de cálculo de Excel, bases de datos en la nube y locales,  servicios de análisis en línea...

Una vez importados los datos, podemos usar Power BI para crear y publicar gráficos y cuadros de mando que muestran esos datos de manera que se puedan entender fácilmente.

Se utiliza para identificar tendencias, hacer seguimiento de objetivos, para obtener una vista detallada del rendimiento de distintas áreas de una organización. 

Tableau

Tableau sirve esencialmente para lo mismo, analizar y representar datos sin tener necesidad de saber programar. Se fundó en 2003 y fue comprada por Salesforce en 2019.

Con Tableau se pueden explorar los datos, se pueden manipular y transformar… 

Qlik

Por último, tenemos Qlik, que es la pionera, creada en 1993 en Suecia pero no por ser la primera se ha quedado atrás, ni mucho menos.

Así que, ya veis, hay herramientas para todos los gustos y necesidades 😊.

Solo es cuestión de encontrar la que mejor se adapte a vuestro estilo para realizar un análisis exploratorio o aclaratorio de vuestros datos  y que consigáis comunicar con éxito vuestros hallazgos.

Espero que os guste el episodio.

Si es así, no olvidéis dejar un «Me gusta» y algún comentario al episodio en Ivoox o una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Youtube o donde quiera que escuchéis el podcast. 

Recordad que si tenéis cualquier duda o pregunta podéis contactar conmigo a través del formulario de contacto o podemos seguir la conversación en Twitter.

Muchas gracias por estar ahí y os espero en el próximo episodio de Un Podcast Ninja sobre Big Data.

Boletín Ninja

Suscríbete a la newsletter y recibe la guía ninja del Big Data y la Inteligencia Artificial.

Guía ninja del Big Data
Copyright © 2024  Â· Datos 🥷 · Todos los derechos reservados
💼 Aviso legal y cookies