En el episodio de hoy repasamos el estado de la Inteligencia Artificial en 2025 basándonos en el informe State of AI Report de Air Street Capital.
La técnica de Chain of Thought (cadena de pensamiento) ha evolucionado radicalmente.
Antes de 2025, pedíamos a los modelos "piensa paso a paso" o "explica tu razonamiento" como parte del prompt.
Ahora, esta capacidad está integrada nativamente gracias al inference-time scaling.
A finales de 2024, OpenAI lanzó o1, el primer modelo que implementaba razonamiento interno sin necesidad de instrucciones explícitas.
El modelo dedica más cómputo durante la inferencia y usa aprendizaje por refuerzo para aprender qué cadenas de pensamiento llevan a respuestas correctas.
Apenas dos meses después del lanzamiento de o1, DeepSeek, una startup china proveniente de una firma de trading, sacudió el mercado con su modelo R1.
Este modelo superó a o1 en el benchmark AIME (American Invitational Mathematics Examination), una competición de matemáticas para estudiantes de secundaria que se usa para evaluar modelos de lenguaje.
DeepSeek construyó su modelo de razonamiento el modelo base DeepSeek V3:
Para convertir R1-Zero en un modelo de producción, DeepSeek diseñó un pipeline de cuatro fases:
Estas fases de pre-entrenamiento y post-entrenamiento son conceptos que hemos explorado en profundidad en la Comunidad Ninja.
Si quieres entender todos los detalles técnicos, puedes acceder al episodio premium del podcast de casi una hora donde explicamos paso a paso todo este proceso.
A lo largo de 2025, todos los laboratorios importantes han lanzado sus modelos razonadores:
Hoy, prácticamente todos los modelos integran cadena de pensamiento por defecto.
Una innovación emergente es el razonamiento paralelo, donde los modelos ramifican su pensamiento en múltiples caminos simultáneos:
Esta aproximación permite explorar más soluciones y reduce significativamente las alucinaciones.
Si en 2024 Meta con Llama era el líder indiscutible del código abierto, en 2025 ese reinado ha terminado.
Qwen de Alibaba ha pasado de representar un 10-30% de los modelos derivados en Hugging Face a principios de 2024 a más del 40% ahora.
Mientras tanto, Llama ha caído del 50% al 15%.
Kimi K2 de Moonshot AI se ha convertido en el número uno en modelos abiertos en LMArena.
Con un billón de parámetros totales (32.000 millones activos por token), está diseñado específicamente para flujos de trabajo agénticos y ocupa el puesto 20 en el ranking general, el más alto jamás alcanzado por un modelo abierto.
Meta ha enfrentado múltiples controversias:
Desde entonces, Meta ha mantenido un perfil bajo mientras los modelos chinos mantienen el ritmo de los privados.
Después de años sin liberar modelos desde GPT-2, OpenAI lanzó en agosto de 2025 gpt-oss con versiones de 120.000 y 20.000 millones de parámetros.
Sin embargo, estos modelos aparentemente tienen problemas de generalización similares a los modelos Phi de Microsoft, y su adopción real permanece incierta.
Investigadores han descubierto vulnerabilidades preocupantes. Al añadir información irrelevante en medio de un problema matemático (como "dato curioso: los gatos duermen la mayor parte de sus vidas"), la tasa de error puede multiplicarse por siete.
Para modelos destilados, esta información random hace que generen un 50% más de tokens de los necesarios, sugiriendo que confían más en reconocimiento de patrones superficial que en razonamiento algebraico real.
Forzar al modelo a razonar en el idioma del usuario mejora la legibilidad del razonamiento, pero reduce la precisión entre 9 y 13 puntos. Los modelos "piensan" mejor en inglés aunque luego respondan en español.
Un modelo del mundo predice qué va a pasar después dado un estado actual y una acción. Es la diferencia entre ver una película (vídeo fijo) y jugar a un videojuego (fotogramas interactivos que responden a tus acciones).
Genie 3 genera entornos explorables a partir de prompts de texto que son consistentes durante varios minutos. Puedes cambiar el clima, hacer aparecer objetos, y estos persisten de forma coherente.
La diferencia entre un vídeo generado hace 12 meses y uno actual es abismal. Parecen haber pasado 12 años, no 12 meses.
El volumen de investigación ha saturado el sistema académico:
Si alguna vez te sientes sobrepasado por los avances de la IA, piensa en quienes tienen que elegir qué publicar entre cientos de miles de papers.
En lugar de consolidarse, el ecosistema de frameworks para desarrollar agentes ha explotado con docenas de opciones:
A día de hoy, los mejores modelos siguen siendo cerrados:
Sin embargo, Kimi K2 ha logrado entrar en el top 20 como primer modelo abierto, marcando un hito histórico.
2025 ha demostrado que el ritmo de avance en inteligencia artificial no solo no se ralentiza, sino que se acelera. Los modelos de razonamiento han transformado lo que es posible, los modelos chinos han democratizado el acceso a IA de vanguardia, y los modelos del mundo están redefiniendo la interacción con contenido generado.
Si pestañeas, te lo pierdes.
Espero que te guste el episodio.
Si es así, no olvides dejar un «Me gusta» y algún comentario al episodio en Ivoox o una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Youtube o donde quiera que escuches el podcast.
Recuerda que si tienes cualquier duda o pregunta puedes contactar conmigo a través del formulario de contacto o podemos seguir la conversación en LinkedIn.
Muchas gracias por estar ahí y te espero en el próximo episodio de Un Podcast Ninja sobre Big Data.