Ya conoces el corazón de la arquitectura basada en el transformers: la capa de atención.
Pero, ¿qué más necesita un bloque Transformer para funcionar de verdad?
En este capítulo, montamos el resto del puzle. 🧩
LayerNorm) estabilizan el entrenamiento y por qué la función de activación GELU es clave para el aprendizaje.Paso a paso, construiremos la clase TransformerBlock en PyTorch y la apilaremos para crear la arquitectura completa de un modelo GPT, dejándolo listo para cumplir su misión: la generación de texto.