The Kaggle Book

El libro de Kaggle (The Kaggle Book) es una guía esencial y completa para aquellos interesados en sumergirse en el mundo de Kaggle, la plataforma líder en competiciones de ciencia de datos.

Aunque este libro gira entorno a Kaggle, reúne en un solo lugar una variedad de técnicas y habilidades muy valiosas para aplicar en proyectos de ciencia de datos en general.

The Kaggle Book explica cómo sacar el máximo partido a la plataforma no sólo a través de las competiciones sino también explicando cómo utilizar todo lo que ofrece esta plataforma para adquirir y entrenar habilidades indispensables para cualquier ninja de los datos 🥷

La gente llega a Kaggle por las competiciones.

Es muy atractivo conseguir premios, muchas veces muy jugosos, gracias al rendimiento de un modelo de Machine Learning que has entrenado por tus propios medios.

Pero Kaggle tiene mucho más que ofrecer y Konrad Banachewicz y Luca Massaron nos lo cuentan en The Kaggle Book.

Más allá de las competiciones de Kaggle, el libro se extiende a la aplicación de estas habilidades en proyectos de ciencia de datos reales.

Esto incluye una variedad de temas como clasificación binaria y multiclase, detección de objetos, procesamiento del lenguaje natural (NLP), tareas de series temporales, y manejo de competiciones de simulación y optimización en Kaggle.

Competiciones

Cada competición tiene su propia página que proporciona detalles importantes como los premios, el número de equipos participantes y el tiempo que falta para que la competición termine.

Hay competiciones que pueden durar varias semanas.

Una vez que te has apuntado a una competición, puedes acceder a los datos de entrenamiento y empezar a trabajar en tu modelo.

Cada competición tiene un foro de discusión en el que los participantes comparten ideas, lo que a menudo puede llevar a mejorar tu solución o a inspirarte.

Más tarde, durante la competición, puedes ir enviando tus soluciones al motor de evaluación de Kaggle.

Cuando envías tus predicciones sobre los datos de test, lo que obtienes es una puntuación y una posición en el marcador público. Esta posición refleja el rendimiento de tu modelo en una parte del conjunto de datos de prueba y se va actualizando con cada envío.

Normalmente el número de veces que puedes evaluar la solución de tu modelo cada día está limitado y depende de la competición.

Antes de que finalice la competición, tendrías que seleccionar un número determinado de tus soluciones, que depende de cada competición, para la evaluación final en un conjunto de datos de prueba que, esta vez, es privado.

Estos resultados son los que determinan el marcador final y el ranking de la competición.

Una vez se termina la competición y se declara al vencedor, muchos participantes comparten sus estrategias, soluciones y códigos en el foro de discusión, lo cual es súper interesante a nivel de aprendizaje."

Datasets

Puedes subir cualquier tipo de dataset a Kaggle siempre y cuando esté dentro del marco legal y cumplas los siguientes requisitos:

Máximo 100GB por dataset privado
- ⚠️ El tamaño del dataset se calcula descomprimido así que comprimirlo sirve para poder transferirlo más rápido pero no para ahorrar espacio
Máximo 100 GB cuota total

Puedes subir tu propio dataset a Kaggle desde cualquiera de estas maneras:

Desde tu propio ordenador en local
Desde una URL
Desde un repo de Github
- ⚠️ Se pueden importar librerías experimentales con este método
Puedes convertira la salida de un notebook en un dataset directamente
Desde Google Cloud Storage

Y después siempre puedes usar esos datasets en un Notebook de Kaggle o puedes usarlo en Google Colab siguiendo este tutorial.

El meta conjunto de datos de Kaggle

El metadataset de Kaggle es un conjunto de datos con toda la información de Kaggle sobre:

Competiciones
Datasets
Notebooks
Discusiones

🔑 Dataset con la actividad de los usuarios en Kaggle

→ Buscar ejemplos según los objetivos de aprendizaje

⚠️ Actualizado diariamente

Este conjunto de datos es como el mapa de carreteras para guiarte en tu camino por la plataforma.

Por ejemplo, podrías estar buscando problemas similares al que tienes entre manos o que trabajen una métrica concreta.

El meta conjunto de datos de Kaggle puede darte esta información.

Notebooks

🔑 Jupyter Notebooks gratuitos que se ejecutan directamente en el navegador

12 horas de ejecución para CPU
- 4 CPU cores
- 16 GB de RAM
12 horas para GPU
- 2 CPU cores
- 13 GB de RAM
9 horas de TPU
- 4 CPU cores
- 16 GB de RAM
20 GB de espacio en disco

Para la creación de un nuevo Notebook puedes elegir una de estas dos opciones.
- Environment
  - Último entorno Docker → Obtiene las actualizaciones más rápido pero las dependencias pueden fallar en nuevas actualizaciones
  - Versión original → Más estable
- Accelerator
  - CPU (sin aceleración)
  - GPU → Para casi cualquier aplicación de Deep Learning. Necesita pequeños ajustes en el código.
  - TPU → Necesita más cambios en el código
  ⚠️ Cada vez que se cambia el acelerador el entorno se reinicia y hay que ejecutar todo el código desde el principio del Notebook
Salvar Notebooks de Kaggle en GitHub
- Puedes salvar tus Notebooks en GitHub enlazando tu cuenta de Kaggle con tu perfil de GitHub y se hará automáticamente

⚠️ El contador de las horas que se pueden usar las GPU/TPU comienza en el momento que se inicializa el Notebook

Es una buena práctica para ahorrar recursos de GPU comenzar con la GPU deshabilitada. Comprobar que el código funciona correctamente en un subconjunto pequeño de datos y utilizar la GPU después
- Nos ayuda a estimar el tiempo de ejecución en la totalidad de los datos
- Minimiza la probabilidad de que obtengamos un fallo por exceder nuestra quota
Si necesitas más potencia o más tiempo de GPU siempre puedes ejecutar los Notebooks de Kaggle en Google Cloud (de pago)