El libro de Kaggle (The Kaggle Book) es una guía esencial y completa para aquellos interesados en sumergirse en el mundo de Kaggle, la plataforma líder en competiciones de ciencia de datos.
Aunque este libro gira entorno a Kaggle, reúne en un solo lugar una variedad de técnicas y habilidades muy valiosas para aplicar en proyectos de ciencia de datos en general.
The Kaggle Book explica cómo sacar el máximo partido a la plataforma no sólo a través de las competiciones sino también explicando cómo utilizar todo lo que ofrece esta plataforma para adquirir y entrenar habilidades indispensables para cualquier ninja de los datos 🥷
La gente llega a Kaggle por las competiciones.
Es muy atractivo conseguir premios, muchas veces muy jugosos, gracias al rendimiento de un modelo de Machine Learning que has entrenado por tus propios medios.
Pero Kaggle tiene mucho más que ofrecer y Konrad Banachewicz y Luca Massaron nos lo cuentan en The Kaggle Book.
Más allá de las competiciones de Kaggle, el libro se extiende a la aplicación de estas habilidades en proyectos de ciencia de datos reales.
Esto incluye una variedad de temas como clasificación binaria y multiclase, detección de objetos, procesamiento del lenguaje natural (NLP), tareas de series temporales, y manejo de competiciones de simulación y optimización en Kaggle.
Cada competición tiene su propia página que proporciona detalles importantes como los premios, el número de equipos participantes y el tiempo que falta para que la competición termine.
Hay competiciones que pueden durar varias semanas.
Una vez que te has apuntado a una competición, puedes acceder a los datos de entrenamiento y empezar a trabajar en tu modelo.
Cada competición tiene un foro de discusión en el que los participantes comparten ideas, lo que a menudo puede llevar a mejorar tu solución o a inspirarte.
Más tarde, durante la competición, puedes ir enviando tus soluciones al motor de evaluación de Kaggle.
Cuando envías tus predicciones sobre los datos de test, lo que obtienes es una puntuación y una posición en el marcador público. Esta posición refleja el rendimiento de tu modelo en una parte del conjunto de datos de prueba y se va actualizando con cada envío.
Normalmente el número de veces que puedes evaluar la solución de tu modelo cada día está limitado y depende de la competición.
Antes de que finalice la competición, tendrías que seleccionar un número determinado de tus soluciones, que depende de cada competición, para la evaluación final en un conjunto de datos de prueba que, esta vez, es privado.
Estos resultados son los que determinan el marcador final y el ranking de la competición.
Una vez se termina la competición y se declara al vencedor, muchos participantes comparten sus estrategias, soluciones y códigos en el foro de discusión, lo cual es súper interesante a nivel de aprendizaje."
Puedes subir cualquier tipo de dataset a Kaggle siempre y cuando esté dentro del marco legal y cumplas los siguientes requisitos:
Puedes subir tu propio dataset a Kaggle desde cualquiera de estas maneras:
Y después siempre puedes usar esos datasets en un Notebook de Kaggle o puedes usarlo en Google Colab siguiendo este tutorial.
El metadataset de Kaggle es un conjunto de datos con toda la información de Kaggle sobre:
🔑 Dataset con la actividad de los usuarios en Kaggle
→ Buscar ejemplos según los objetivos de aprendizaje
⚠️ Actualizado diariamente
Este conjunto de datos es como el mapa de carreteras para guiarte en tu camino por la plataforma.
Por ejemplo, podrías estar buscando problemas similares al que tienes entre manos o que trabajen una métrica concreta.
El meta conjunto de datos de Kaggle puede darte esta información.
🔑 Jupyter Notebooks gratuitos que se ejecutan directamente en el navegador
⚠️ El contador de las horas que se pueden usar las GPU/TPU comienza en el momento que se inicializa el Notebook
En los apartados anteriores te he resumido los 4 primeros capítulos del libro.
A continuación tienes el resto: