23. Qué son los embeddings y la tokenización

Membresía requerida

Este contenido está disponible únicamente para suscriptores.

Puedes apuntarte a la plataforma en este enlace

¿Ya eres un ninja? Accede aquí

En el episodio anterior de esta saga sobre LLMs vimos el mapa general de los grandes modelos del lenguaje (LLM).

Pero quedó en el aire un tema: si una red neuronal solo entiende de matemáticas y números,

¿cómo hacemos para que comprenda nuestras palabras? 🤔

La respuesta es un proceso de traducción bastante guay, casi un truco de magia, que convierte el lenguaje humano en algo que una máquina puede interpretar.

En este nuevo episodio del podcast premium, te cuento el secreto mejor guardado de un LLM (y muchas veces uno que resulta difícil de comprender):

El viaje que hace una palabra hasta convertirse en un concepto que el modelo puede utilizar (numeritos 🙃).

Aquí encontrarás...

La Tokenización: Divide y vencerás

Antes de que un modelo como GPT pueda hacer nada, tiene que "leer" el texto.

Pero no puede procesar frases enteras de golpe. Primero, debe romperlas en piezas más pequeñas, como si fueran bloques de Lego.

Este proceso se llama tokenización.

El método más obvio para hacer esto es separar las palabras pero esto no funciona muy bien porque...

¿Qué pasa cuando el modelo se encuentra con una palabra que no ha visto nunca, un nombre propio o un simple error tipográfico?

El e algoritmo BPE (Byte-Pair Encoding) lo resuelve, permitiendo al modelo entender cualquier palabra, incluso las inventadas.

¿Qué son los Embeddings?

Una vez que tenemos el texto dividido en tokens, si únicamente les asignamos un ID numérico, nos enfrentamos a un problema aún más gordo: los números en sí no significan nada.

El ID 5025 no tiene ninguna relación matemática con el 5026. Entonces, ¿cómo sabe el modelo que "perro" y "gato" son conceptos similares?

Aquí es donde entra en juego el verdadero secreto detrás de GPT-5 (y todos los demás): los embeddings.

Un embedding es un vector (lo puedes ver como una lista de números) que representa el significado de un token.

Peeero no es solo una etiqueta, es una coordenada dentro de un "mapa de significados" multidimensional.

En este episodio te lo cuento con una analogía de una galaxia de estrellas, donde:

Las relaciones se convierten en geometría: El "viaje" vectorial para ir de "hombre" a "rey" es casi idéntico al que hay que hacer para ir de "mujer" a "reina".
Palabras similares forman cúmulos: "Perro", "gato" y "mascota" están cerca unas de otras.

El orden sí importa: Qué es un embedding posicional

Ya tenemos piezas con significado, pero nos falta algo importante.

La frase "el gato persigue al perro" no es lo mismo que "el perro persigue al gato".

Aunque las palabras (y sus embeddings) son las mismas, el orden lo cambia todo.

¿Cómo hacemos que el modelo diferencie una de otra?

Existe una capa de información final, los Embeddings Posicionales, que soluciona este problema.

Es el toque final que permite al modelo comprender no solo el QUÉ (el significado de las palabras), sino también el DÓNDE (su lugar en la frase).

Este viaje, desde un simple texto hasta una secuencia de vectores cargados de información, es la base sobre la que se construye toda la inteligencia artificial generativa.

🎧 Escucha el episodio premium para descubrir los secretos de la tokenización y la asombrosa geometría que se esconde detrás de los embeddings. Te prometo que no volverás a ver a ChatGPT de la misma manera.

Accede a todo el contenido premium

Ya no necesitas pagar cientos de euros por un Bootcamp para convertirte en ninja de los datos. Por solo 17€/mes (o menos 🤯), obtén acceso al podcast premium, a todos los tutoriales y a los resúmenes de los libros más top sobre Machine Learning y Ciencia de datos y aprende a tu ritmo.

¡Empieza ahora!

👩🏻‍🦱 Sobre mí

💼 Aviso legal y cookies

📬 Contactar