Guía Básica para la limpieza y transformación de datos

En este tutorial vamos a realizar la limpieza y transformación de datos más básica y sencilla que deberíamos llevar a cabo antes de entrenar un modelo de Machine Learning.

Siguiendo estos pasos conseguiremos mejorar la calidad de nuestros datos y obtendremos mejores resultados sin tan siquiera invertir ningún esfuerzo en nuestro modelo.

¿Por qué es importante limpiar los datos?

Para empezar, no todos los modelos de Machine Learning admiten todos los tipos de datos. Es importante tener esto en cuenta.

Hay modelos que únicamente admiten datos numéricos por lo que tendrás quee codificar las variables categóricas antes de plantearte entrenar ningún modelo.

Algunas librerías de Machine Learning no gestionan bien los valores faltantes. También tendrás que encargarte de gestionar esto en tu dataset antes de nada.

Finalmente, algunos modelos funcionan mucho mejor si se escalan las características numéricas.

Son muchas tareas pero que no cunda el pánico porque si tienes prisa por empezar a entrenar tu modelo de Machine Learning este tutorial te guiará de una manera sencilla por los pasos mínimos a llevar a cabo antes de empezar.

Y por supuesto, te explicaré el porqué de cada cosa que hagamos 🙂

Recuerda que unos datos "sucios" son aquellos con registros incompletos, duplicados o erróneos.

Son datos que aún no están preparados para entrenar modelos de Machine Learning.

Pasos para limpiar los datos

En este tutorial, trataremos los pasos mínimos para poder entrenar un modelo de Machine Learning.

  1. Exploración de datos básica
  2. Tratamiento de valores faltantes
  3. Escalado de características numéricas
  4. Codificación de variables categóricas

Hay muchos más. Pero estos son los que haremos en este tutorial (y uno extra que me he guardado bajo la manga 🃏).

Para este tutorial vamos a utilizar el dataset de los precios de la vivienda en California y un Notebook de Google Colab. No es necesario que te instales nada, solo te hace falta una cuenta en Google 🙂

Para poder utilizar el dataset directamente en Google Colab sólo tienes que seguir este tutorial.

¡Empezamos!

Tutorial para la limpieza y transformación de datos

Este contenido está únicamente disponible para suscriptores. Puedes identificarte en este enlace o apuntarte a la plataforma.

Boletín Ninja

Suscríbete a la newsletter y recibe la guía ninja del Big Data y la Inteligencia Artificial.

Guía ninja del Big Data
Copyright © 2024  · Datos 🥷 · Todos los derechos reservados
💼 Aviso legal y cookies