En el episodio de hoy de Un podcast ninja sobre Big Data vamos a hablar de drogas, peeero no de las que estáis pensando sino de las drogas que sirven para curar enfermedades.
Vamos a hablar de cómo se utiliza el Big Data y la Inteligencia Artificial en la industria farmacéutica.
Posiblemente el sector farmacéutico sea uno de los sectores en los que el big data y la inteligencia artificial han provocado más movimiento.
Y no precisamente gracias a chatgpt.
Los grandes players dentro de la industria farmacéutica como J&J, AstraZeneca o Pfizer entre otro han invertido bastantes millones en la adopción de Inteligencia Artificial para sus procesos.
Y mucha, mucha inversión.
También Google, Meta, Microsoft, Amazon e IBM han entrado en el sector. Quieren un trozo del pastel 🍰
¿Pero cómo se puede usar la Inteligencia Artificial en el sector farmacéutico?
Primero, os voy a dar un poco de contexto sobre todas las cosas que pasan antes de que un medicamento llegue a las farmacias y luego vemos dónde metemos nuestros conocimientos ninjas de big data e inteligencia artificial.
Para que un nuevo medicamento llegue a nuestra farmacia de confianza tiene que recorrer un largo y arduo camino de investigación, pruebas y controles.
Lo cual tiene todo el sentido porque si estamos enfermos preferimos tomar algo que sea efectivo y nos cure sin estropearnos por otro lado.
Entonces, desde que se desarrolla un medicamento hasta que se comercializa en farmacias hay varias etapas.
En las primeras fases, que duran entre 5 y 7 años, se identifica la molécula que podría dar lugar al nuevo medicamento y se estudia la viabilidad del potencial medicamento.
Aquí se analiza la toxicidad para ver si podría ser un medicamento seguro y así reducir riesgos antes de seguir con las siguientes fases y por supuesto, antes de administrárselo a nadie.
Después, el aspirante a medicamento entra en la etapa de ensayos clínicos, que es cuando empieza a probarse en personas.
Esta etapa tiene normalmente tres fases y se alarga unos 6 años.
La primera fase está enfocada sobre todo a la seguridad. Se prueba la tolerancia al medicamento y se analiza el tiempo entre tomas sobre un grupo de personas sanas.
Normalmente se necesita menos de un centenar de candidatos, para que os hagáis una idea.
En la segunda fase se investiga la eficacia y se va ajustando la dosis para que sea adecuada.
Aquí, para ver si nuestro aspirante a medicamento funciona, hacen falta entre 100 y 300 voluntarios con la patología a tratar.
Y ya, en la tercera fase del ensayo clínico se compara la efectividad frente a otros medicamentos que ya estén en el mercado o frente a un placebo.
En esta fase las pruebas se escalan y ya se necesita un grupo grande de voluntarios, varios miles.
Si todo va bien, se presentan los resultados a las autoridades sanitarias que dan el OK para que se comercialice.
Después se seguirán haciendo pruebas y ensayos clínicos pero el medicamento ya está disponible en farmacias.
Muchas veces es complicado encontrar a las personas adecuadas para llevar a cabo las fases 2 y 3 del ensayo clínico.
Históricamente, los pacientes se seleccionan para los ensayos clínicos en base a características como la edad, el género y que tenían la enfermedad que trataba el aspirante a fármaco.
Para añadir más precisión al proceso de ensayo clínico comenzó a usarse la analítica de datos.
Pero no sólo eso sino que empezaron a combinar diversas fuentes de datos que hasta entonces habían permanecido separadas.
Empezaron a alimentar los datasets no solo con las características más genéricas como edad y género sino con otras características más relevantes como datos genéticos, marcadores serológicos o, incluso, características clínicas de registros médicos electrónicos.
Por ejemplo, imaginad que queremos sacar al mercado un fármaco cardiovascular y hacemos una primera selección de candidatos para el ensayo clínico según edad, género, etc.
Bien.
A partir de ahí incorporamos al dataset de candidatos el historial sanitario digitalizado y lo combinamos con información genética, metabólica y de estilo de vida.
Analizando el nuevo conjunto de datos enriquecido podríamos descubrir ciertos patrones como que si el paciente tiene un microbioma saludable pues tendrá una probabilidad mayor de responder al tratamiento cardiovascular, por ejemplo… no sé
Como véis, gracias al Big Data se puede llevar a cabo un ensayo clínico obteniendo muchísima más información sobre los casos en los que el medicamento es más efectivo y los casos en los que puede haber problemas.
Esta información permite a los investigadores ir adaptando el ensayo basándose en resultados de los análisis de big data.
Otra ventaja muy grande de incorporar Big Data a los ensayos clínicos está en aquellos casos en los que el ensayo no cuaja por no conseguir suficientes candidatos.
De hecho, muchos ensayos clínicos fracasan por esta razón.
Por un lado, si nos encontramos ante enfermedades raras, ya de por sí podemos descartar encontrar miles de personas con la patología.
Y por otro lado, en el caso de enfermedades muy chungas, los pacientes necesitan algo que les ayude y que les ayude rápido.
La posibilidad de entrar en un ensayo clínico y que te toque el grupo de control al que le dan placebo pues es complicada.
Aquí entran los grupos de control virtuales.
Estos grupos de control se crean igual que se haría con un grupo de control tradicional pero usando datos generados en ensayos clínicos pasados.
Incluso se está investigando el uso de deep learning para predecir los resultados de los pacientes en ensayos clínicos.
Es decir, se entrena el modelo de deep learning con datos históricos de pacientes de control de esa patología y ese mismo modelo se utiliza para predecir la evolución de los candidatos del ensayo en el caso de que fueran seleccionados como grupo de control (al fin y al cabo al grupo de control solo se le administra placebo).
Sin embargo, todos los candidatos reciben el tratamiento por lo que cada paciente podría ser su propio sujeto de control.
Todo esto, que no es poco, durante el ensayo clínico… ¿pero y antes?
Para encontrar nuevos fármacos una de las cosas que se hace es buscar una molécula biológica específica en el cuerpo, como una proteína o un ácido nucleico, que se haya identificado como un punto clave en el que se podría intervenir durante un proceso patológico.
Estas moléculas se llaman objetivos farmacológicos o blancos terapéuticos.
La idea es que al interactuar con este blanco terapéutico mediante un fármaco, se puede modificar el curso de la enfermedad.
Por ejemplo, en el caso de enfermedades como el cáncer, un blanco terapéutico podría ser una proteína que las células cancerosas necesitan para crecer.
Al diseñar un medicamento que se dirija específicamente a esta proteína, se puede inhibir el crecimiento del cáncer sin afectar tanto a las células sanas.
Os imaginareis que los blancos terapéuticos son fundamentales en el desarrollo de tratamientos efectivos, y que su identificación es un paso clave en el proceso de descubrimiento de fármacos.
Pues bien, la Inteligencia Artificial y el Big Data también tienen su aplicación aquí.
En este proceso de encontrar blancos terapéuticos los investigadores vuelven a utilizar la combinación de diversas fuentes de datos gracias a técnicas de big data.
Estos conjuntos de datos, que además son públicos, incluyen:
Todos ellos clave para identificar objetivos farmacológicos.
Al final, saber cómo se activan o desactivan los genes en las células, lo que influye en la producción de proteínas y otras moléculas es lo que hace que los investigadores puedan identificar los genes que están alterados en enfermedades y dirigir sus esfuerzos para desarrollar fármacos que apunten específicamente a esos genes o las proteínas que producen.
El análisis de datos en estos datasets enormes descubren estos patrones que facilitan la identificación de nuevos blancos terapéuticos.
Un ejemplo suuuper claro de cómo el Big Data y la IA ayudan a acelerar los procesos de diseño de fármacos fue el caso del COVID.
Tan pronto como el genoma del SARS-CoV-2 fue secuenciado y compartido públicamente, investigadores de todo el mundo utilizaron modelos de IA para analizar rápidamente su estructura, que era clave en el contagio de las células por el virus.
Gracias a la comprensión de cómo el virus se replicaba a sí mismo y contagiaba otras células se identificaron otros blancos terapéuticos además de la famosa proteína espiga.
Cada blanco terapéutico es un punto clave en el que se puede intervenir para interrumpir el proceso patológico del virus por lo que supone una oportunidad para crear un nuevo fármaco.
El siguiente paso era investigar, gracias también al análisis de datos posibles moléculas que dieran lugar a potenciales fármacos.
Por un lado, la idea era buscar fármacos que ya estuvieran en el mercado y que pudieran utilizarse para neutralizar los blancos terapéuticos ya que si estaban ya en el mercado, no era necesario pasar por el proceso completo de ensayo clínico.
Había prisa, como recordaréis.
Y por otro, los modelos de Machine Learning eran capaces de predecir potenciales componentes para nuevos fármacos capaces de crear una respuesta inmunológica potente.
Una vez se localizaban los nuevos aspirantes a fármacos/vacunas para acabar con el COVID-19, quedaba la parte de los ensayos clínicos.
Como recordaréis, en teoría son unos 7 años.
Gracias al uso del análisis de datos en un entorno de big data, AstraZeneca fue capaz de optimizar el reclutamiento de candidatos para los ensayos gracias a los historiales clínicos electrónicos.
Por otro lado, la técnica que utilizó Janssen para conseguir datos para sus ensayos clínicos consistía en utilizar Machine Learning para predecir el lugar donde se iba a producir el siguiente pico de contagios.
De esta manera, configuraron sus ensayos clínicos en puntos críticos y acumularon rápidamente eventos relevantes para la enfermedad, acelerando el ensayo y enriqueciendo su dataset.
Tened en cuenta que durante estos ensayos clínicos, los laboratorios farmacéuticos tenían grandes cantidades de datos.
Pfizer contaba con los datos de 44000 candidatos en su ensayo clínico y gracias a técnicas de análisis de datos masivos fueron capaces de buscar patrones en estos datos sobre las respuestas inmunológicas o efectos secundarios, para evaluar la eficacia y seguridad de su vacuna.
Y lo hicieron en un tiempo de 22 horas solamente.
De esta manera los ensayos clínicos se realizaron de una manera mucho más eficiente.
En vez de 10 años, apenas se tardó uno en hacer llegar la vacuna al mercado.
Y bueno, ahí también hay que tener en cuenta que había mucha urgencia por conseguir vacunas.
En resumen, me gustaría que os quedarais con las aplicaciones del big data y los modelos de Machine Learning en la industria farmaceutica que hemos tratado hoy.
Como gracias a la incorporación de diversas fuentes de datos y al análisis big data es posible identificar nuevos blancos terapéuticos a los que disparar con nuevos componentes, que luego se convierten en medicamentos.
Y también cómo es posible optimizar los ensayos clínicos para tener en cuenta la eficacia de los potenciales fármacos en distintos segmentos de la población e incluso en conseguir que lleguen a buen puerto aquellos casos en los que es complicado reclutar suficientes voluntarios por la naturaleza de la enfermedad.
Quien sabe, quizá sea un ninja de los datos quien ayude a acabar con alguna enfermedad que hoy no tiene cura todavía 🙂
Espero que el episodio de hoy os sea de provecho y que aprendáis algo de valor.
Si es así, no olvidéis dejar una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Ivoox o donde quiera que escuchéis el podcast.
Recordad que si tenéis cualquier duda o pregunta podéis contactar conmigo a través del formulario de contacto o podemos seguir la conversación en Twitter.
Muchas gracias por estar ahí y os espero en el próximo episodio de Un Podcast Ninja sobre Big Data.