¿Quieres saber cómo competir en Kaggle y quedar entre los mejores?
Pues eso mismo es lo que logramos en esta sesión práctica de la Comunidad Ninja: conseguimos la posición número 44 de un total de 5.378 participantes.
Sí, ¡entramos en el top 1%!
Y lo hicimos prediciendo precios de viviendas porque ya tenemos práctica después de las sesiones que le hemos dedicado al dataset de Idealista 😎.
¿Quieres saber cómo? Échale un vistazo a la sesión a esta sesión de 2 horas para pasar de cero a ninja de Kaggle.
Optamos por trabajar con el dataset "Housing Prices" de Kaggle, principalmente porque tenía muchos detalles de todas sus características
Este dataset es uno de los más clásicos en problemas de regresión y resulta ideal para practicar porque cada variable está descrita minuciosamente, lo que facilita mucho el análisis y la ingeniería de características.
Antes de hacer cualquier cosa, realizamos un análisis exploratorio de datos (EDA).
Importamos NumPy
y Pandas
y revisamos en detalle cómo están distribuidas las variables, qué tipo de datos tenemos, y cómo se comportan los valores faltantes.
Este análisis inicial es clave para decidir los siguientes pasos sabiendo lo que hacemos.
El siguiente paso es identificar qué variables tenían valores faltantes y aplicar diferentes estrategias para manejarlos, como sustituir valores por la media o moda según el tipo de variable.
También eliminamos algunas características que tenían un porcentaje demasiado alto de valores faltantes, ya que aportaban más ruido que información útil.
🛠️ Si quieres saber cómo manejar los valores faltantes, échale un vistazo a este tutorial.
Siempre insisto en la importancia de comenzar con algo sencillo.
No te compliques desde el inicio.
En nuestra sesión, hicimos exactamente eso: cargamos el dataset y entrenamos un modelo básico con XGBoost, sin tocar absolutamente nada.
Esto es clave porque así sabes si los cambios que vas haciendo realmente mejoran o empeoran el modelo.
Las variables categóricas pueden ser tu mejor amiga o tu peor enemiga.
Depende de cómo las codifiques.
Nosotros aplicamos tres estrategias clave:
🛠️ En este tutorial súper detallado encontrarás las mejores técnicas para la codificación de variables categóricas.
La creatividad es esencial en Machine Learning.
Nosotros creamos nuevas características que no estaban en el dataset original.
Por ejemplo:
Estas características nuevas ayudaron muchísimo al modelo porque le daban perspectivas adicionales para entender el valor de una vivienda.
Una vez que teníamos un modelo sólido, entramos al mundo del ajuste de hiperparámetros.
Probamos diferentes combinaciones de parámetros en XGBoost, y esto nos dio un salto final de rendimiento que nos colocó en el top 1%.
🛠️ En este tutorial te cuento todos los detalles sobre el modelo XGBoost y por qué funciona tan bien.
Llegamos al top 1% porque supimos combinar un buen análisis de datos, una codificación adecuada de variables categóricas, un toque de creatividad en la ingeniería de características y una buena estrategia de ajuste de hiperparámetros.
Y, sobre todo, porque hicimos las cosas con orden, claridad y paciencia.
¿Quieres replicar estos resultados? Sólo tienes que seguir los pasos de la sesión práctica 📺