Capítulo 2. Procesamiento de textos para LLMs

En este capítulo vemos qué son los embeddings en procesamiento de lenguaje natural, por qué son esenciales para que los modelos de lenguaje funcionen y cómo se generan, desde el texto en bruto hasta los vectores que alimentan las redes neuronales.

Exploramos cómo se tokeniza un texto, cómo se asigna un ID a cada token y cómo se construyen los vectores que representan palabras, frases o documentos completos.

También verás qué papel juegan técnicas como BPE (Byte Pair Encoding), cómo se preparan los datos con ventanas deslizantes para entrenar un LLM y por qué la posición de cada token importa más de lo que parece.

Si quieres entender de verdad qué ocurre antes de que un modelo genere una palabra, este capítulo te va a encantar.

Sigue leyendo para descubrir cómo empieza la magia. ✨

Membresía requerida

Este contenido está disponible únicamente para suscriptores.

Puedes apuntarte a la plataforma en este enlace

¿Ya eres un ninja? Accede aquí

Accede a todo el contenido premium

Ya no necesitas pagar cientos de euros por un Bootcamp para convertirte en ninja de los datos. Por solo 17€/mes (o menos 🤯), obtén acceso al podcast premium, a todos los tutoriales y a los resúmenes de los libros más top sobre Machine Learning y Ciencia de datos y aprende a tu ritmo.

¡Empieza ahora!