Capítulo 4. El bloque Transformer en la arquitectura GPT

Ya conoces el corazón de la arquitectura basada en el transformers: la capa de atención.

Pero, ¿qué más necesita un bloque Transformer para funcionar de verdad?

En este capítulo, montamos el resto del puzle. 🧩

Verás cómo las capas de normalización (LayerNorm) estabilizan el entrenamiento y por qué la función de activación GELU es clave para el aprendizaje.
Añadiremos una red FeedForward para que el modelo procese la información de forma más rica y usaremos las conexiones residuales como el pegamento que une todo sin que se pierdan los gradientes.

Paso a paso, construiremos la clase TransformerBlock en PyTorch y la apilaremos para crear la arquitectura completa de un modelo GPT, dejándolo listo para cumplir su misión: la generación de texto.

Membresía requerida

Este contenido está disponible únicamente para suscriptores.

Puedes apuntarte a la plataforma en este enlace

¿Ya eres un ninja? Accede aquí

Accede a todo el contenido premium

Ya no necesitas pagar cientos de euros por un Bootcamp para convertirte en ninja de los datos. Por solo 17€/mes (o menos 🤯), obtén acceso al podcast premium, a todos los tutoriales y a los resúmenes de los libros más top sobre Machine Learning y Ciencia de datos y aprende a tu ritmo.

¡Empieza ahora!