En este capítulo vemos qué son los embeddings en procesamiento de lenguaje natural, por qué son esenciales para que los modelos de lenguaje funcionen y cómo se generan, desde el texto en bruto hasta los vectores que alimentan las redes neuronales.
Exploramos cómo se tokeniza un texto, cómo se asigna un ID a cada token y cómo se construyen los vectores que representan palabras, frases o documentos completos.
También verás qué papel juegan técnicas como BPE (Byte Pair Encoding), cómo se preparan los datos con ventanas deslizantes para entrenar un LLM y por qué la posición de cada token importa más de lo que parece.
Si quieres entender de verdad qué ocurre antes de que un modelo genere una palabra, este capítulo te va a encantar.
Sigue leyendo para descubrir cómo empieza la magia. ✨