En este tutorial vamos a realizar la limpieza y transformación de datos más básica y sencilla que deberíamos llevar a cabo antes de entrenar un modelo de Machine Learning.
Siguiendo estos pasos conseguiremos mejorar la calidad de nuestros datos y obtendremos mejores resultados sin tan siquiera invertir ningún esfuerzo en nuestro modelo.
Para empezar, no todos los modelos de Machine Learning admiten todos los tipos de datos. Es importante tener esto en cuenta.
Hay modelos que únicamente admiten datos numéricos por lo que tendrás quee codificar las variables categóricas antes de plantearte entrenar ningún modelo.
Algunas librerías de Machine Learning no gestionan bien los valores faltantes. También tendrás que encargarte de gestionar esto en tu dataset antes de nada.
Finalmente, algunos modelos funcionan mucho mejor si se escalan las características numéricas.
Son muchas tareas pero que no cunda el pánico porque si tienes prisa por empezar a entrenar tu modelo de Machine Learning este tutorial te guiará de una manera sencilla por los pasos mínimos a llevar a cabo antes de empezar.
Y por supuesto, te explicaré el porqué de cada cosa que hagamos 🙂
Recuerda que unos datos "sucios" son aquellos con registros incompletos, duplicados o erróneos.
Son datos que aún no están preparados para entrenar modelos de Machine Learning.
En este tutorial, trataremos los pasos mínimos para poder entrenar un modelo de Machine Learning.
Hay muchos más. Pero estos son los que haremos en este tutorial (y uno extra que me he guardado bajo la manga 🃏).
Para este tutorial vamos a utilizar el dataset de los precios de la vivienda en California y un Notebook de Google Colab. No es necesario que te instales nada, solo te hace falta una cuenta en Google 🙂
Para poder utilizar el dataset directamente en Google Colab sólo tienes que seguir este tutorial.
¡Empezamos!