Hemos llegado al episodio final de nuestra saga sobre LLMs, y lo mejor está por venir.
Después de entender qué es un modelo de lenguaje y cómo las palabras se convierten en vectores con significado, hoy desentrañamos el corazón mismo de la revolución: la arquitectura Transformer. 🧠
¿Te has preguntado alguna vez cómo ChatGPT puede mantener el contexto en conversaciones largas? ¿O cómo sabe que "banco" significa algo diferente cuando hablas del parque que cuando hablas de sangre?
La respuesta tiene un nombre propio: Transformer, y cambió para siempre el campo de la inteligencia artificial en 2017.
Antes de 2017, los modelos de lenguaje funcionaban como nosotros leemos: palabra por palabra, arrastrando un resumen que se iba actualizando.
Suena lógico, ¿verdad?
Pues había un problema.
Imagina leer una novela de 300 páginas.
¿Recuerdas cada detalle del primer capítulo cuando vas por el final?
Yo no.
Las redes neuronales recurrentes sufrían esta misma "amnesia". En frases largas, la información importante se diluía como el azúcar en el café, perdiéndose en un mar de palabras intermedias.
Además, este procesamiento secuencial era terriblemente lento. No se podía aprovechar la potencia de las GPUs modernas, esas bestias del cálculo paralelo que estaban esperando ser liberadas.
En 2017, un grupo de investigadores de Google publicó un paper con un título que era toda una declaración de intenciones: "Attention is All You Need".
Y no exageraban ni un poco.
El Transformer rompió con todo lo anterior con dos ideas revolucionarias que en este episodio exploramos en profundidad:
A diferencia de sus predecesores, el Transformer no procesa el texto palabra por palabra.
Lo mira todo a la vez.
Como si tuvieras visión de rayos X para ver todas las palabras simultáneamente, procesando todos los vectores de embedding al mismo tiempo.
Aquí está la chicha.
Cada palabra puede "prestar atención" a todas las demás palabras de la frase, calculando dinámicamente qué tan relevantes son entre sí.
Es como tener un sistema de GPS lingüístico que conecta palabras sin importar la distancia que las separe.
En el episodio te cuento cómo funciona esto.
Cada token genera tres vectores especiales:
El proceso es fascinante: las queries buscan keys compatibles, y cuando las encuentran, toman sus values correspondientes.
Todo mediante operaciones de álgebra lineal que parecen simples pero crean resultados extraordinarios.
¿Y si te dijera que el Transformer no hace esto una vez, sino múltiples veces en paralelo?
La atención multicabeza es como tener un comité de expertos analizando la misma frase desde diferentes perspectivas:
El Transformer original tenía dos partes: un encoder y un decoder, diseñados para traducción.
Pero los creadores de GPT hicieron una jugada maestra: "No queremos traducir, queremos generar texto".
Se quedaron solo con el decoder, lo apilaron 96 veces (en GPT-3), y crearon un modelo con una única misión en la vida: predecir la siguiente palabra.
Simple en concepto, revolucionario en ejecución.
En este episodio final, conectamos todos los puntos gracias a la arquitectura transformer.
Verás cómo las capas se apilan como un rascacielos neuronal, cómo la información fluye y se transforma, y por qué esta arquitectura específica fue la clave para desbloquear capacidades que parecían ciencia ficción hace apenas unos años.
🎧 Escucha el episodio premium completo para descubrir:
Y un saludo especial a todos los miembros del club de lectura que están profundizando con el libro de Sebastian Raschka.
¡Esta arquitectura es el corazón de todo lo que estamos estudiando!
Nos vemos en Discord para seguir la conversación. 🚀