🎙️ Episodio 106. Grandes éxitos de la Inteligencia Artificial [Edición 2025]

En el episodio de hoy repasamos el estado de la Inteligencia Artificial en 2025 basándonos en el informe State of AI Report de Air Street Capital.

Aquí encontrarás...

Modelos de razonamiento

Chain of Thought: De técnica de prompting a capacidad nativa

La técnica de Chain of Thought (cadena de pensamiento) ha evolucionado radicalmente.

Antes de 2025, pedíamos a los modelos "piensa paso a paso" o "explica tu razonamiento" como parte del prompt.

Ahora, esta capacidad está integrada nativamente gracias al inference-time scaling.

A finales de 2024, OpenAI lanzó o1, el primer modelo que implementaba razonamiento interno sin necesidad de instrucciones explícitas.

El modelo dedica más cómputo durante la inferencia y usa aprendizaje por refuerzo para aprender qué cadenas de pensamiento llevan a respuestas correctas.

DeepSeek R1

Apenas dos meses después del lanzamiento de o1, DeepSeek, una startup china proveniente de una firma de trading, sacudió el mercado con su modelo R1.

Este modelo superó a o1 en el benchmark AIME (American Invitational Mathematics Examination), una competición de matemáticas para estudiantes de secundaria que se usa para evaluar modelos de lenguaje.

La arquitectura de DeepSeek R1

DeepSeek construyó su modelo de razonamiento el modelo base DeepSeek V3:

DeepSeek V3: Modelo base con 671 mil millones de parámetros usando arquitectura Mixture of Experts (MoE), donde no todos los parámetros se activan para cada token, solo un subconjunto de "expertos".
R1-Zero: Se entrenó con aprendizaje por refuerzo puro directamente sobre V3-Base sin ajuste fino supervisado previo. Resultado: la puntuación en AIME 2024 pasó del 15.6% inicial al 71.0%, demostrando que las capacidades de razonamiento pueden emerger espontáneamente.

Las cuatro etapas de entrenamiento de DeepSeek R1

Para convertir R1-Zero en un modelo de producción, DeepSeek diseñó un pipeline de cuatro fases:

Cold Start: Ajuste fino con miles de ejemplos curados de chain-of-thought, salidas filtradas de R1-Zero y anotaciones humanas.
Aprendizaje por refuerzo orientado a razonamiento: Uso de recompensas verificables focalizadas en matemáticas, código, ciencia y lógica. Aquí emergen las capacidades de auto-verificación y los momentos donde el modelo reconoce errores y reconstruye su razonamiento.
Ajuste fino supervisado: Se generaron ~600,000 muestras de razonamiento evaluadas por V3, y se quedaron solo con las mejores para reentrenar el modelo mediante ajuste fino supervisado.
Aprendizaje por refuezo para todos los escenarios: Se utilizó un sistema de recompensas híbridas que combinaba recompensas verificables (para tareas con respuesta correcta) y modelos de recompensa neuronales (para aspectos subjetivos como utilidad y seguridad).

Estas fases de pre-entrenamiento y post-entrenamiento son conceptos que hemos explorado en profundidad en la Comunidad Ninja.

Si quieres entender todos los detalles técnicos, puedes acceder al episodio premium del podcast de casi una hora donde explicamos paso a paso todo este proceso.

A lo largo de 2025, todos los laboratorios importantes han lanzado sus modelos razonadores:

OpenAI: o3 y o4-mini en abril, GPT-5 en agosto
Google: Gemini 2.0 Flash Thinking, Gemini 2.5 Pro Thinking en junio y Gemini 3.0 Pro en noviembre.
Anthropic: Extended thinking en Claude 3.7 en febrero

Hoy, prácticamente todos los modelos integran cadena de pensamiento por defecto.

Razonamiento paralelo

Una innovación emergente es el razonamiento paralelo, donde los modelos ramifican su pensamiento en múltiples caminos simultáneos:

Etapa de exploración: El modelo lanza múltiples hilos independientes cuando detecta un paso crítico
Etapa de resumen: Agrega los resultados para formar una conclusión antes de continuar

Esta aproximación permite explorar más soluciones y reduce significativamente las alucinaciones.

La revolución de los modelos abiertos

Qwen destrona a Llama como rey del Open Source

Si en 2024 Meta con Llama era el líder indiscutible del código abierto, en 2025 ese reinado ha terminado.

Qwen de Alibaba ha pasado de representar un 10-30% de los modelos derivados en Hugging Face a principios de 2024 a más del 40% ahora.

Mientras tanto, Llama ha caído del 50% al 15%.

¿Por qué ha sucedido este cambio?

Calidad superior: Los modelos chinos han mejorado dramáticamente
Variedad de tamaños: Desde pequeños para móviles hasta muy grandes
Licencias permisivas: Sin restricciones complicadas
Herramientas de entrenamiento: Están liberando frameworks de aprendizaje por refuerzo excelentes

Kimi K2

Kimi K2 de Moonshot AI se ha convertido en el número uno en modelos abiertos en LMArena.

Con un billón de parámetros totales (32.000 millones activos por token), está diseñado específicamente para flujos de trabajo agénticos y ocupa el puesto 20 en el ranking general, el más alto jamás alcanzado por un modelo abierto.

El año complicado de Meta

Meta ha enfrentado múltiples controversias:

Contaminación de datos: Acusaciones de incluir benchmarks en datos de entrenamiento
Optimización selectiva: Versiones específicas optimizadas para LMArena mientras liberaban versiones inferiores
Dimisión sospechosa: La jefa de investigación de IA dimitió 4 días antes del lanzamiento de su último modelo

Desde entonces, Meta ha mantenido un perfil bajo mientras los modelos chinos mantienen el ritmo de los privados.

OpenAI regresa al Open Source con GPT-OSS

Después de años sin liberar modelos desde GPT-2, OpenAI lanzó en agosto de 2025 gpt-oss con versiones de 120.000 y 20.000 millones de parámetros.

Características técnicas de GPT-OSS

Arquitectura MoE: 5.100 y 3.600 millones de parámetros activos por token respectivamente
Grouped Multi-Query Attention: Mecanismo que reduce drásticamente el uso de memoria sin perder calidad.
Post-training híbrido: Combina ajuste fino supervisado con aprendizaje por refuerzo
Razonamiento visible: Al estilo o1, con control de esfuerzo de razonamiento ajustable

Sin embargo, estos modelos aparentemente tienen problemas de generalización similares a los modelos Phi de Microsoft, y su adopción real permanece incierta.

Las limitaciones del razonamiento

Investigadores han descubierto vulnerabilidades preocupantes. Al añadir información irrelevante en medio de un problema matemático (como "dato curioso: los gatos duermen la mayor parte de sus vidas"), la tasa de error puede multiplicarse por siete.

Para modelos destilados, esta información random hace que generen un 50% más de tokens de los necesarios, sugiriendo que confían más en reconocimiento de patrones superficial que en razonamiento algebraico real.

El dilema del idioma

Forzar al modelo a razonar en el idioma del usuario mejora la legibilidad del razonamiento, pero reduce la precisión entre 9 y 13 puntos. Los modelos "piensan" mejor en inglés aunque luego respondan en español.

Modelos del mundo y generación de vídeo

Un modelo del mundo predice qué va a pasar después dado un estado actual y una acción. Es la diferencia entre ver una película (vídeo fijo) y jugar a un videojuego (fotogramas interactivos que responden a tus acciones).

Genie 3 de Google DeepMind

Genie 3 genera entornos explorables a partir de prompts de texto que son consistentes durante varios minutos. Puedes cambiar el clima, hacer aparecer objetos, y estos persisten de forma coherente.

Avances en generación de vídeo tradicional

Google Veo 3.1: Calidad alucinante con resultados fotorrealistas. De hecho, puedes ver algunas pruebas interesantes en Instagram y TikTok (@datos.ninja), donde mostramos cómo generar tu propio doble de acción gratis.
OpenAI Sora 2: Audio sincronizado y posibilidad de insertar "cameos" de personas reales

La diferencia entre un vídeo generado hace 12 meses y uno actual es abismal. Parecen haber pasado 12 años, no 12 meses.

El colapso de las conferencias de IA

El volumen de investigación ha saturado el sistema académico:

AAAI 2026: 29.000 papers recibidos (casi el doble que el año anterior), 28.000 miembros del comité de programa
CoRL: Duplicó capacidad de 1.500 a 3.000 plazas y se agotó antes de aceptar papers
NeurIPS: Pidió a revisores rechazar 300-400 papers originalmente recomendados simplemente para cuadrar números

Si alguna vez te sientes sobrepasado por los avances de la IA, piensa en quienes tienen que elegir qué publicar entre cientos de miles de papers.

Agentes

En lugar de consolidarse, el ecosistema de frameworks para desarrollar agentes ha explotado con docenas de opciones:

LangChain: Sigue popular pero ya es "uno más"
AutoGen y CAMEL: Orientados a investigación
MetaGPT: Ingeniería de software
LlamaIndex: RAG sobre documentos empresariales
LangGraph: Orquestación basada en grafos con observabilidad
Letta (MemGPT): Arquitecturas con memoria persistente como primitiva

Las principales líneas de investigación en agentes

Herramientas: Evolución desde plugins simples hacia orquestación multi-herramienta. El Model Context Protocol (MCP) se ha convertido en el estándar de facto, adoptado por OpenAI, Google y Microsoft.
Planificación: Descomposición de tareas, razonamiento jerárquico y auto-mejora.
Memoria: Tracking de estado, memoria episódica y persistencia entre sesiones.
Sistemas Multi-Agente: Colaboración, inteligencia colectiva y simulaciones adaptativas.

Los mejores modelos de 2025

A día de hoy, los mejores modelos siguen siendo cerrados:

Gemini 3 Pro
Grok 4.1
Claude Opus 4.5
GPT-5.1

Sin embargo, Kimi K2 ha logrado entrar en el top 20 como primer modelo abierto, marcando un hito histórico.

2025 ha demostrado que el ritmo de avance en inteligencia artificial no solo no se ralentiza, sino que se acelera. Los modelos de razonamiento han transformado lo que es posible, los modelos chinos han democratizado el acceso a IA de vanguardia, y los modelos del mundo están redefiniendo la interacción con contenido generado.

Si pestañeas, te lo pierdes.

Espero que te guste el episodio.

Si es así, no olvides dejar un «Me gusta» y algún comentario al episodio en Ivoox o una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Youtube o donde quiera que escuches el podcast.

Recuerda que si tienes cualquier duda o pregunta puedes contactar conmigo a través del formulario de contacto o podemos seguir la conversación en LinkedIn.

Muchas gracias por estar ahí y te espero en el próximo episodio de Un Podcast Ninja sobre Big Data.