En el episodio de hoy de Un podcast ninja sobre Big Data hablamos de la diferencia entre Data Science, machine Learning y Big Data.
No es tan fácil diferenciar Data Science, Machine Learning, Analítica de datos…
En todas estas ramas tenemos datos y tenemos el objetivo de obtener valor de ellos.
Y hoy en día casi por defecto estamos hablando de Big Data porque al ritmo al que se generamos y capturamos datos es como si hubiera barra libre de datos.
Todo esto ha crecido mucho en la última década.
Incluso en el último año.
Está creciendo tanto y tan rápido que ya hasta hay recogida de firmas para que avance más despacito.
Así que es normal no tenerlo claro.
La ciencia de datos o data science es la disciplina que tiene por objetivo obtener valor de los datos y ahí dentro encajaría el Machine Learning, modelos del lenguaje (GPTs incluidos) o la analítica de datos, por ejemplo.
La ciencia de datos es el paraguas bajo el que se cobija el Machine Learning y la analítica de datos o minería de datos.
Si os ponéis a mirar ofertas de trabajo podréis ver como para analítica de datos piden principalmente cosas como:
Y las ofertas de empleo de Machine Learning igual están más centradas en requisitos como.
Aunque siendo totalmente sincera en la mayoría de ofertas que he estado analizando piden de todo porque mejor que sobre que no que falte 😱
Si una empresa no tiene muy claro si necesita un especialista en Machine Learning o un analista de datos pues si encuentra un científico de datos que igual te hace un modelo de machine learning que detecta tazas defectuosas en una fábrica de tazas que te prepara una presentación sobre los hallazgos que ha hecho sobre los datos de esa misma línea de producción de tazas pues mejor.
En definitiva, muchas veces no es fácil diferenciar un perfil de otro por las herramientas que emplea.
Especialmente desde que, por ejemplo, con Google BigQuery se pueden entrenar modelos de Machine Learning directamente en SQL sin tener que pasar por Python.
Esto no nos ayuda a aclararnos, la verdad 🤔
Así que podríamos intentar buscar algo más de claridad en lo que queremos hacer en cada caso con los datos.
En el caso de la minería y la analítica de datos, cuando nos enfrentamos a un conjunto de datos es como si estuviéramos en busca de inspiración.
Un analista de datos no sabe qué va a encontrar cuando empieza a trabajar con un nuevo dataset y tampoco tiene ninguna decisión particular que tomar sobre esos datos.
El analista se hace preguntas y plantea hipótesis sobre los datos que tiene delante y mira a ver si es posible contestarlas.
Por otro lado, cuando un especialista en Machine Learning se planta frente a un nuevo conjunto de datos, lo que va a hacer es obtener un modelo para resolver algo y que este modelo generalice sobre datos nuevos.
Es decir, entrenará su modelo sobre los datos que tiene con el objetivo de qué también sirva para otros datos que no ha visto todavía.
Por supuesto, al especialista en Machine Learning le interesará saber lo máximo posible sobre los datos con los que va a entrenar su modelo porque le ayudará a diseñarlo de una manera óptima.
Por lo que un especialista en Machine Learning con habilidades de analítica de datos que pueda usar a la hora de explorar su dataset es un especialista de Machine Learning vitaminado.
Además, el especialista en Machine learning tiene como misión la automatización la toma de muchas decisiones.
Cada vez que ve una taza puede decidir si está defectuosa o no.
Cada vez que le dan un prompt es capaz de generar una respuesta de manera automática mediante sus modelos.
Por un lado un analista de datos sería un poco como un explorador o un detective y su cualidad estrella sería la velocidad con la que puede encontrar patrones en sus datos.
Por otro, el especialista en Machine Learning buscaría el rendimiento de sus modelos, que sean capaces de modelar los datos de entrenamiento sin sobreajustar para así poder generalizar lo mejor posible ante nuevos datos de entrada.
Pero claro, luego está lo que he dicho antes sobre la barra libre de datos...
En la mayoría de ocasiones nos estamos encontrando ante ecosistemas de Big Data.
Y es así.
Hasta ahora en el episodio de hoy hemos visto que el analista de datos analiza datos [👏]
El especialista en Machine Learning diseña, implementa y muchas veces también despliega y mantiene en producción modelos de Machine Learning.
¿Y qué se hace cuándo se hace Big Data?
Pues generalmente se refiere al trabajo del ingeniero o arquitecto de datos.
Estas personas se encargan de montar toda la infraestructura para poder funcionar con grandes volúmenes de datos ya sea en centros de datos o en la nube.
Big Data no es algo que se haga como tal.
Sino que es el ecosistema con todas las herramientas (Apache Spark, Hive, Kafka, Flink, etc.) de las que hablábamos en el episodio 31, los procedimientos para diseñar esta infraestructura y todas estas cosas que hacen los ingenieros de datos.
En el episodio 24 hablamos sobre los ingenieros de datos.
Hace un tiempo parecía que cualquier persona que trabajara en datos tenía que saber de todo y eso aún se mantiene cuando os ponéis a mirar algunas ofertas de trabajo.
Hay que saber de analítica de datos para sacar patrones de ellos, tener conocimientos estadísticos para saber si podemos generalizar esos patrones más allá de la muestra de datos que tenemos. También manejarse en la nube y conocer herramientas como las que mencionaba antes y sin olvidarse de saber de Machine Learning.
Pero claro, es que el universo de los datos ha crecido muchísimo y no deja de expandirse así que ser capaz de abarcar todos los aspectos que entran en juego es bastante complicado.
Por eso es muy importante la especialización y hacen falta distintos roles.
Entonces, resumiendo un poco…
Hemos visto que hay muchos conceptos en el mundillo este de los datos cuyas fronteras no están muy definidas.
Esto hace que a veces sea complicado saber dónde está la puerta para poder entrar en él
¿Por dónde empezar?
¿Si quiero introducir esto del Machine learning entre mis habilidades tengo que ser científico de datos antes?
Y entonces… cómo voy a trabajar con muchos datos, ¿hay que empezar por saber usar Spark y todas estas herramientas de Big Data?
En realidad no.
Pero el camino a seguir para empezar depende.
Espero que os guste el episodio.
Si es así, no olvidéis dejar un «Me gusta» y algún comentario al episodio en Ivoox o una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Google podcasts o donde quiera que escuchéis el podcast.
Recordad que si tenéis cualquier duda o pregunta podéis contactar conmigo a través del formulario de contacto o podemos seguir la conversación en Twitter.
Muchas gracias por estar ahí y os espero en el próximo episodio de Un Podcast Ninja sobre Big Data.