Los datos son considerados el nuevo oro en la era digital.
Se está desarrollando una ciencia alrededor de los datos, el Data Science.
Ya existen ingenieros de datos y cada vez más edampresas tienen equipos dedexacticados a los datos.
El paralelismo entre el oro y los datos es tan grande que la minería de datos es un concepto real (del que también hablaremos).
Las universidades han creado grados específicamente enfocados a la Ciencia de Datos.
En 2012, un artículo en Harvard Business Review proclamaba que el Data Science es la profesión más sexi de la década.
Creo que está claro que el hype es grande. Todo el mundo quiere hacer algo con los datos, con muchos datos.
Pero…
¿Qué es en realidad el Data Science?
Y sobre todo…
¿para qué sirve?
En este artículo intentaré responder a estas dos preguntas básicas sobre Data Science. También veremos las principales diferencias y relaciones entre el Data Science y otros conceptos como el Big Data, el aprendizaje automático y la ingeniería de datos (Data Engineering).
Y finalmente analizaremos a qué se dedica realmente un científico de datos y qué aprender para convertirte en uno.
Definición rápida de Data Science:
Ciencia que tiene por objetivo extraer información de valor y conocimiento de los datos.
Y con ciencia me refiero a métodos, a los procedimientos y a las habilidades necesarias para trabajar con datos sin volverse loco en el intento.
Déjame resaltar para qué sirve el data science exactamente: para extraer conocimiento e información de valor de un montón de datos. Para lo cual necesitamos:
Y, entre medias, tenemos todo el proceso de data science que incluye:
Como ves, cada uno de estos pasos es realizado por una especialidad dentro del data science.
Con un científico de datos en el equipo (o mejor aún, con un grupo completo dedicado a los datos) y con la capacidad de obtener datos de valor, es posible incorporar rápidamente los beneficios del Data Science.
A continuación te enumero solo algunos de estos beneficios:
¿No querría cualquier empresa saber qué quieres para poder ofrecértelo antes que la competencia?
Las aplicaciones de la ciencia de datos engloban básicamente cualquier campo en el que sea posible extraer datos y tener un problema que resolver a partir de éstos.
De hecho, una de las características más atractivas del Data Science es su transversalidad, es decir, es aplicable a casi cualquier cosa.
Aplicaciones desde la medicina hasta el marketing, cualquier sector puede beneficiarse de sacar información de valor de los datos.
El tamaño importa.
Al menos el tamaño del conjunto de datos al que nos enfrentamos.
Y es que aunque las técnicas, procedimientos y métodos para obtener información de valor de los datos apliquen independientemente* del tamaño del conjunto de datos, no siempre nos encontramos ante Big Data.
El término Big Data aplicará cuando el volumen de los datos sea tan grande como para no poder manejarlo en un único equipo a una velocidad razonable y estemos ante datos de naturaleza variada (datos en tablas, imágenes, archivos, ficheros de audio o video…)
¿Podemos aplicar técnicas de Ciencia de Datos en un archivo de 3GB con los datos de los clientes de una tienda de barrio para saber sus tendencias de compra?
Sí.
¿Es Big Data?
No parece…
¿Y si tenemos todos los datos de los clientes de supermercados Carrefour del país?
Eso ya tiene más pinta de Big Data.
*Fíjate que aunque los métodos de data science para resolver el mismo problema en un entorno Big Data y uno sin Big Data son similares, es necesario adaptar la solución cuando nos encontramos ante grandes volúmenes de datos. En estos casos, ya nos estamos adentrando en el territorio de los Ingeniero de Datos.
Más sobre qué es Big Data aquí
Bueno, pues te presento al Ingeniero de Datos.
La ingeniería de datos (data engineering) se encarga de capturar y mantener un poco de orden en los ingentes volúmenes de datos que forman un ecosistema de Big Data.
Así, los científicos de datos pueden trabajar mejor y derivar valor de estos datos.
La frontera entre Data Science y Data Engineering es difusa, algunos autores clasifican el Data Engineering como una especialidad del Data Science, de hecho, los grados universitarios de Ciencia de Datos tratan temas relacionados con la adquisición y mantenimiento de los datos.
La analítica de datos (Data Analytics) es otra especialidad dentro del Data Science.
En este caso, el Data Analyst se encarga de los primeros pasos en el proceso de extraer valor de los datos mediante la limpieza de éstos, la agregación de distintas fuentes de datos disponibles, la visualización de los mismos, etc.
Aunque gran parte del esfuerzo de investigación en el campo de Ciencia de Datos se destina a nuevos algoritmos de aprendizaje automático, muchas veces es más eficiente realizar un trabajo previo de análisis de datos antes de aplicar el último modelo de algoritmo de deep learning sobre los datos en crudo.
Porque… ¿qué sería más eficiente conducir un ferrari por un camino de piedras o un coche de gama media por una autopista recién asfaltada?
El paso final para obtener información de valor a partir de los datos es implementar algoritmos de aprendizaje automático (machine learning) para modelarlos de manera que sea posible realizar predicciones automáticas de cuál sería el resultado ante datos nuevos.
Como en el caso de la analítica y la ingeniería de datos, el aprendizaje automático no es un campo diferente de la ciencia de datos sino que podemos considerarlo como una parte de ésta.
Los ingenieros de machine learning se dedican a diseñar sistemas capaces de encontrar patrones en conjuntos de datos muy grandes y modelarlos.
Depende.
Antes te contaba que el objetivo principal de un científico de datos es obtener valor a partir de los datos y que dentro del Data Science hay especialidades que son campos en sí mismas.
Un científico de datos tiene una visión extremo a extremo de cómo transformar los datos en bruto en información que vale su peso en oro.
Pero sus funciones en el día a día dependerán del tamaño del equipo dedicado a data science.
Si es una organización muy pequeña es posible que tenga que encargarse de todo el proceso desde la captura, conservación y mantenimiento de los datos hasta la comunicación y divulgación de las conclusiones obtenidas a los distintos equipos dentro de la organización.
Un trabajazo, vamos…
En la mayoría de los casos, y por la salud mental de la persona encargada de Data Science, al menos debería haber en el equipo un ingeniero de datos encargado de capturar y conservar los datos y un analista para extraer los patrones y la info de valor.
Pero estamos en plena fiebre de los datos. Los datos son oro y las empresas quieren saber cómo obtener ese valor.
Eso hace que estén creando o haciendo crecer equipos de Data Science y es posible que haya una o varias personas dedicadas a cada una de las especialidades.
¿Quieres saber un poco más sobre los perfiles laborales dentro del Data Science?
Te lo cuento aquí
Aunque el hype de los datos haya aparecido en los últimos años, existen ninjas de los datos desde hace mucho, se llaman estadísticos.
Cuentan los rumores que un científico de datos es un estadístico que sabe programar pero la verdad es que las habilidades de un data scientist van más allá de la programación y la estadística.
¿Quieres saber qué habilidades adquirir para convertirte en un ninja de los datos?
Sigue leyendo, que te va a interesar.
Además de una base de estadística y algunos conocimientos de programación, como data scientist te manejarás con bases de datos y SQL. En estas bases de datos es donde residen los datasets, que generalmente tendrán un tamaño considerable y con las que te desenvolverás cómodamente.
En entornos Big Data, necesitarás manejarte con sistemas distribuidos y para ello saber qué es Hadoop y estar familiarizado con todo su ecosistema te será de gran ayuda. Además, muchas organizaciones están migrando o desarrollando directamente su infraestructura de manejo de datos directamente en la nube por lo que si conoces cómo funciona la nube de Google, Amazon o Microsoft serás un maestro ninja del Big Data.
También tienes que poder comunicar tus conclusiones a partir de los datos de una manera directa y sencilla. Ten en cuenta que si la info de valor que has encontrado no impregna al resto de equipos de la organización, el trabajo no habrá servido de nada.
Seguramente saber utilizar herramientas de visualización como Tableau te ayudará en esta misión.
Y por si todo lo anterior fuera poco, adquirir conocimientos en el campo en el que vas a aplicar las técnicas de data science será esencial para poder interpretar los resultados que obtengas y poder formular hipótesis chulas sobre las preguntas cuya respuesta quieres encontrar en los datos.
Las respuestas a preguntas que no interesan a nadie no tienen valor.
Dependiendo de la especialización por la que quieras optar tendrás que desarrollar unas habilidades u otras.
¿Estás listo para convertirte en un ninja de los datos?