En el episodio de hoy de Un podcast ninja sobre Big Data vamos a hablar de todas las cosas que han pasado en el mundo de la inteligencia artificial en 2023.
Parece que ha sido más pero han pasado sólo 12 meses desde que ChatGPT entró en nuestras vidas y la Inteligencia Artificial se convirtió en algo de lo que todo el mundo habla.
Y es precisamente ChatGPT quien ha marcadola tendencia de estos últimos tiempos en el avance de la IA, porque 2023 ha sido claramente el año de los grandes modelos del lenguaje.
OpenAI ha lanzado GPT-4 durante este 2023.
Un modelo que presuntamente ha sido entrenado en unos 13 billones de tokens (13 trillones americanos) y que tiene casi 2 billones de parámetros (trillones americanos).
GPT-3.5, el modelo del lenguaje detrás de ChatGPT, tenía 175 mil millones de parámetros.
Es decir, GPT-4 es aproximadamente 10 veces más grande que su antecesor.
Además, la arquitectura también es presuntamente un poco diferente porque en vez de ser un modelo monolítico es una combinación de varios modelos, cada uno experto en una cosa.
Y todo esto, como digo, presuntamente.
Porque una cosa que también ha pasado en OpenAI en 2023 es que ya no es tan open.
Ya no publican detalles sobre la arquitectura, el tamaño del modelo, los recursos que han sido necesarios para su entrenamiento, el conjunto de datos que han usado, ni nada de nada.
Todo esto que os he dicho sobre GPT-4 son rumores, filtraciones y cotilleos que ni se confirman, ni se desmienten oficialmente desde OpenAI.
Pero no creáis que lo de no publicar detalles sobre los últimos modelos del lenguaje es solo cosa de OpenAI.
Google con su modelo PaLM 2 y Anthropic con Claude también han evitado dar detalles sobre su trabajo.
Todo muy secreto 🤫
Por otro lado Meta lanzó en febrero su gran modelo del lenguaje, LLaMa.
Un modelo entrenado únicamente con datos disponibles de manera pública y accesible a investigadores.
En principio, solo los ibvestigadores tendrían acceso a los coeficientes de LLaMa pero el modelo se filtró a todo el mundo en cuestión de horas.
La gente de Meta publica directamente que su modelo tiene 65 mil millones de parámetros y que ha sido entrenado sobre un dataset de 1.4 billones de tokens en 2048 GPUs A100 de Nvidia durante 21 días.
Pocos meses más tarde, en julio, aparece LLaMa-2, que ya nace como modelo de código abierto accesible a todo el mundo.
LLaMa-2 se entrena sobre un dataset más grande, un 40% más de tokens que en el caso de su predecesor, y para ajustarlo se utiliza aprendizaje por refuerzo basado en feedback de humanos (RLHF), igual que ChatGPT.
Por si no lo recordáis esta técnica para ajustar LLMs, está basada en aprendizaje por refuerzo y en feedback de personas que guían el aprendizaje del agente de Inteligencia Artificial.
Después de Meta con LLaMa y LLaMa-2 otras organizaciones se han animado a liberar sus grandes modelos del lenguaje a todo el mundo.
Hemos visto modelos como Mistral con 7000 millones de parámetros, Falcon-40B con 40000 millones de parámetros y Falcon-180B entre otros.
Así que, como véis un montón de grandes modelos del lenguaje, cada uno con más parámetros que el anterior y dos corrientes completamente opuestas.
Una, la que sigue Meta liberando sus modelos y la otra, la del secretismo más secreto de OpenAI, Google y Anthropic.
Así que en 2023 las distintas empresas han mejorado sus grandes modelos del lenguaje bajo el pretexto de “el mío es más grande”.
Está claro que el tamaño importa en los modelos del lenguaje.
El número de parámetros del modelo está ligado a las capacidades del modelo.
Peeero hay otro tema que también hay que tener en cuenta: El contexto
Es decir, cómo de largo es el prompt que le podemos pasar al LLM.
Porque está muy bien eso de que nos responda a preguntas genéricas para pasar un rato pero lo que todos realmente queremos es que sea capaz de respondernos cosas sobre nuestros propios documentos o sobre lo que sea que estamos trabajando en este momento con la documentación que tenemos por leer.
Y podríamos ajustar uno de estos modelos sobre nuestros propios documentos y conseguir esto mismo.
Bueno, en realidad, de los grandes modelos de este año sólo podríamos usar los abiertos como LLaMa y suponiendo que tenemos suficiente capacidad de computación para gestionarlo.
De ajustar GPT-4 nos podemos olvidar…
O podríamos enchufarle en el prompt toda la documentación que tenemos por leer y luego hacerle preguntas al modelo sobre eso.
Para poder hacer esto que digo el contexto que admite el modelo tiene que ser lo suficientemente grande.
Y este ha sido uno de elos avances de la IA en 2023:
Aumentar las ventanas de contexto de los modelos.
Por ejemplo la última versión de GPT-4 admite un contexto de 128K tokens, que equivale como a 300 páginas de texto que le podemos enchufar a chatgpt en un prompt.
Por otro lado, el modelo de Anthropic admite un contexto aún mayor, 200K tokens.
O sea, que es como si le pides al modelo algo así como “resume las ideas principales de este libro” y le pegas el libro entero.
Lo que pasa es que hay un problemita con esto…
Algunas investigaciones indican que si el texto que le introducimos al modelo en el prompt es muy largo, éste se queda con la información del principio y del final y el rendimiento del modelo decrece.
Especialmente si la información relevante para la tarea está como por en medio del prompt larguísimo.
Y luego, tenemos otro problema con los grandes modelos del lenguaje que son demasiado grandes… y es que cuestan mucho dinero en capacidad de cálculo.
Son muchos millones de operaciones matemáticas.
Tantas que OpenAI ha tenido que pausar las nuevas altas de su servicio de ChatGPT plus porque han excedido sus capacidades.
Una línea de investigación que han tomado en Microsoft es la de entrenar modelos más pequeños sobre datos de mayor calidad.
Calidad antes que cantidad.
De momento, los primeros resultados indican que si los datasets de entrenamiento están bien seleccionados, los resultados de estos modelos pueden competir con los de modelos hasta 50 veces más grandes.
Otra cosita muy interesante que ha sucedido este 2023 es la integración de capacidades visuales dentro de los modelos del lenguaje.
Es decir, que estos modelos son también capaces de interpretar imágenes.
Esto, a parte de estar bastante guay para usarlo con chatgpt, le da un empujón a campo de la robótica y de los coches autónomos.
Por ejemplo, la empresa Wayve, que se dedica a la conducción autónoma, está explorando modelos combinados de visión con lenguaje y con acción.
Es decir, modelos que integran imágenes, datos de conducción y lenguaje.
Su idea es incorporar el lenguaje para mejorar la interpretación y entrenamiento de sus modelos de conducción. Al final, el lenguaje ayuda a explicar qué está pasando en escenas de conducción y hace posible que el entrenamiento sea más rápido.
Y otro ejemplo, el de PaLM-E, que es un modelo desarrollado por Google y la universidad de Berlin que combina capacidades de procesamiento de lenguaje, visión y control de robots.
Lo interesante de PaLM-E es que integra dos modelos muy poderosos:
Palm-E funciona a partir de órdenes textuales, datos de sensores e imágenes de su entorno.
Transforma todo esto en una serie de subcomandos robóticos que otro sistema se encarga de traducir a señales de control robóticas.
Lo guay de esto es que utiliza la parte de modelo del lenguaje para suplementar la falta de datos de entrenamiento que haría falta para conseguir este mismo funcionamiento con señales de los sensores del robot en un momento dado y las acciones que tiene que tomar asociadas a esas señales.
De estos tipos de modelos que integran lenguaje, con imagen y robótica han aparecido también este año RoboCat y RT-2 de DeepMind.
Y ya para terminar, de mis campos favoritos de aplicación de la Inteligencia Artificial.
El campo de la salud y la medicina.
Y es que los avances de la IA en medicina durante 2023 han sido significativos y diversos, abarcando desde el diseño de proteínas hasta el diagnóstico asistido por ordenador.
Se han utilizado modelos de difusión para crear proteínas con las características deseadas.
Además ha habido avances en la predicción de la estructuras de las proteínas, desarrollando modelos que permiten una predicción más rápida que las técnicas que había hasta ahora.
Por otro lado, DeepMind ha combinado su modelo AlphaFold con modelos del lenguaje para clasificar variantes de secuencias de aminoácidos presentes en proteínas humanas en patogénicas o benignas.
Google ha desarrollado Med-PaLM 2, el modelo del lenguaje diseñado para mejorar la asistencia en el diagnóstico médico.
Lo que hace es responder preguntas médicas con un alto grado de precisión. Puede abordar una amplia gama de consultas relacionadas con la salud, ofreciendo respuestas que son comparables e incluso preferidas sobre las respuestas dadas por médicos humanos en algunos casos.
Además, el modelo puede analizar información médica compleja y proporcionar evaluaciones que pueden ser útiles tanto para profesionales de la salud como para pacientes.
O sea, que es capaz de interpretar síntomas, sugerir posibles diagnósticos y recomendar tratamientos.
Pero no solo eso sino que puede interpretar imágenes médicas y generar y resumir informes radiológicos.
Para responder a esto, Google ha creado CoDoc, un sistema de IA que decide cuándo confiar en un modelo de Inteligencia Artificial para el diagnóstico y cuándo hacer un diagnóstico clínico tradicional.
Con esto, se consigue reducir significativamente los falsos positivos y la carga de trabajo clínica en pruebas.
Como véis Google está bastante activa en la aplicación de IA en el campo de la salud.
Este 2023 ha habido mucho curro en modelos del lenguaje, entrenando modelos más grandes, con más contexto e incluyendo imágenes para darles la capacidad de visión.
Hace apenas un año aparecía ChatGPT y abría las puertas de la IA a cualquier usuario con acceso a internet.
El único modelo que permitía esto.
Un año más tarde hay numerosos modelos que hacen lo mismo al alcance de cualquiera, incluso algunos de código abierto.
A la vez se está viendo cómo aplicar todo esto de los modelos del lenguaje en el campo de la robótica, de los coches autónomos, de la medicina…
Vamos, ¡en todas partes!
Os dejo el enlace al informe sobre el estado de la Inteligencia Artificial en 2023.
Espero que el episodio de hoy os sea de provecho y que aprendáis algo de valor.
Si es así, no olvidéis dejar una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Ivoox o donde quiera que escuchéis el podcast.
Recordad que si tenéis cualquier duda o pregunta podéis contactar conmigo a través del formulario de contacto o podemos seguir la conversación en Twitter.
Muchas gracias por estar ahí y os espero en el próximo episodio de Un Podcast Ninja sobre Big Data.