En el episodio de hoy de Un Podcast Ninja sobre Big Data vamos a hablar de cómo les traspasamos nuestros sesgos a los modelos de Machine Learning.
Durante la Segunda Guerra Mundial, los aviones alemanes estaban mejor preparados que los del bando aliado. Con el paso de los meses, las fuerzas aliadas se dieron cuenta de que los bombarderos eran especialmente vulnerables, presentando más bajas que el resto de la flota aérea.
La solución ideal habrÃa sido blindar los bombarderos completos para hacerlos más robustos peeero eso harÃa que las naves fueran demasiado pesadas y no podrÃan volar.
La solución:
Blindar los bombarderos de manera estratégica para reforzarlos y a la vez que fueran lo suficientemente ligeros como para seguir volando.
Para ello, se montó un equipo encargado de visitar todas las bases aéreas en el Reino Unido y cada vez que volvÃa un bombardero del combate se revisaba y se dibujaba un punto rojo la zona donde la nave habÃa recibido un proyectil.
Una vez recogidos todos los datos, era evidente que las partes del avión que recibÃan más impactos eran los extremos de las alas, el fuselaje central y los timones de cola.
ParecÃa claro que las partes del avión a reforzar eran aquellas con mayor número de impactos.
Sin embargo, Abraham Wald, un matemático húngaro que precisamente habÃa tenido que emigrar a Estados Unidos por sus orÃgenes judÃos, propuso una solución diametralmente opuesta.
Les dijo que habÃan interpretado los datos justamente al revés y que habÃa que blindar las partes del avión que en los dibujos aparecÃan inmaculadas de puntos rojos. Cero impactos.
La teorÃa de Wald, era que los únicos bombarderos que se habÃan considerado en la recogida de datos eran aquellos que habÃan sido capaces de volver a la base. Por tanto, todos las zonas con puntos rojos eran partes del avión que podÃan permitirse ser alcanzadas sin que el avión fuera derribado.
Sin embargo, las zonas crÃticas y que habÃa que blindar, eran aquellas sin puntos rojos porque ningún bombardero alcanzado en ellas habÃa conseguido volver a casa.
Es decir, lo letal era lo que no estaba siendo observado.
Este problema se conoce como sesgo de supervivencia en el que la generalización a partir de observaciones sesgadas distorsiona la percepción de la realidad.
Hoy vamos a hablar del principio fundamental de los modelos de Machine Learning.
Si los modelos se entrenan con datos que son una basura, los resultados serán una basura.
Hablábamos en el episodio 14 de la importancia de que al recolectar datos para entrenar un modelo de Machine Learning éstos fueran representativos. Es decir que reflejen con exactitud el entorno que estamos modelando.
En el caso de los bombarderos aliados, los datos que le pasaron a Abraham Wald no era representativos.
Sólo habÃan podido recoger la información sobre donde recibÃan los proyectiles de los bombarderos que habÃan conseguido llegar a la base. De los bombarderos derribados no tenÃan nada.
Durante la segunda guerra mundial, el Machine Learning no estaba lo suficientemente de moda como para entrenar un modelo sobre esos datos para decidir dónde reforzar los aviones pero si lo hubiese estado y se hubieran usado esos datos para entrenarlo, los resultados habrÃan sido un desastre.
Por suerte para ellos, Abraham Wald dio con la clave nada más ver los datos.
Hace un par de semanas os contaba que Google habÃa sacado su propio modelo equivalente DALL·E2 para generar imágenes a partir de una descripción de texto pero que habÃa decidido no liberarlo y tampoco que el público general pudiera usarlo.
Tal vez os preguntasteis en su momento por qué Google ha decidido no liberar su modelo o al menos una demo para que pueda ser utilizado por todo el mundo, cuando todos sus competidores están haciendo accesibles demos o incluso el propio modelo para que la gente pueda usarlo pues como quiera.
Pues según las propias declaraciones de Google es por la calidad de los datos, en este caso imágenes y textos, que se han utilizado para entrenar a Imagen.
1948, año de elecciones presidenciales en EEUU, John Dewey se enfrenta a Truman para ocupar la Casa Blanca. Horas antes de conocerse los resultados el Chicago Tribune manda a imprenta una edición en la que proclama en portada a Dewey como ganador de las elecciones.
Peeero, en realidad fue Harry Truman quien habÃa ganado las elecciones.
¿Qué habÃa pasado?
El Chicago Tribune habÃa confiado en las predicciones en lugar de esperar a que se conociera el resultado real del recuento de votos y en parte, estas predicciones se basaban en los resultados de una encuesta telefónica que daba como sólido ganador a John Dewey.
Y en 1948, la gente que tenÃa teléfono en casa no era una muestra aleatoria de la sociedad sino que era más probable que estas personas con teléfono en sus casas tuvieran más dinero, fueran más conservadoras y más proclives a votar al candidato republicano: John Dewey.
Los datos de la encuesta en las que se basó el Tribune para publicar su titular no eran tampoco representativos del entorno que se querÃa modelar.
No representaban a la totalidad de la sociedad norteamericana sino a la parte que tenÃa teléfono en su casa en 1948. los datos sufrÃan de sesgo de muestreo y el resultado fue una predicción errónea.
Google, de manera similar al resto de sus competidores, ha utilizado millones de imágenes sacadas de internet que no ha tenido tiempo de revisar.
Por un lado, entrenar sobre imágenes obtenidas de internet sin ningún tipo de filtros permite que la investigación avance a los pasos agigantados que los está haciendo. Recordad que en el episodio 17 repasábamos todos los avances que ha habido este último año dentro de la generación de imágenes y video a partir de texto.
Pero por otro, en internet hay de todo y se está entrenando un modelo de Machine Learning con imágenes y textos que reflejan estereotipos sociales y mayormente puntos de vista de la gente que tenemos acceso a internet.
Google ha utilizado un dataset para entrenar Imagen que se llama LAION-400M.
Este dataset está formado por 400 millones de imágenes con sus descripciones y se ha obtenido de páginas de internet aleatorias rastreadas entre 2014 y 2022.
Saben positivamente que este dataset incluye contenido pornográfico, racista y claramente sesgado.
Por tanto, y teniendo en cuenta que Imagen ha sido entrenado con esos datos, es bastante probable que esos sesgos y estereotipos estén reflejados en sus resultados.
Desde Google reconocen que el comportamiento de Imagen refleja sesgos especialmente al representar figuras humanas con una tendencia clara a que cuando se le describe una persona, ésta es de piel clara y al describir profesiones refleja sesgos de género de la sociedad occidental.
Tanto es asÃ, que Google ha decidido no liberar ni siquiera una demo de Imagen, lo que le ha costado las consecuentes crÃticas por falta de transparencia.
No es la primera vez que los modelos de Machine Learning en Google sufren de estos sesgos en sus resultados.
En 2015, la empresa lanzó una caracterÃstica nueva en Google Photos en las que se etiquetaba de manera automática lo que habÃa en la foto. Esta caracterÃstica se basaba en un modelo de reconocimiento de imágenes.
Pues Google tuvo problemas por la tendencia de este modelo de etiquetar personas negras como gorilas.
De nuevo, sus datos de entrenamiento contenÃan muchas más personas blancas que de cualquier otro tipo y el modelo habÃa aprendido que si era blanca seguramente serÃa una persona y si no, pues igual era otra cosa… en ese desafortunado caso, un gorila.
La solución rápida de Google fue eliminar términos como gorila y similares de las etiquetas durante varios años. Si le hacÃas una foto a un gorila, no lo reconocÃa pero al menos no la liaba.
¿Quiere esto decir que solo los modelos de Google reflejan estos sesgos en sus resultados y que ni DALL·E2, ni Stable Diffusion, ni MidJourney los tienen?
Ni mucho menos.
De la misma manera que Imagen, han sido entrenados sobre datasets de imágenes y descripciones igualmente sesgados y reflejan estos sesgos en sus resultados.
Algunos ejemplos muestran que al generar una imagen con la descripción de CEO, los resultados son hombres, al generar imágenes de personal de cabina en un vuelo, estas imágenes representan mujeres. Y no solo pasa con personas sino tb con costumbres como por ejemplo, al generar imágenes a partir de la palabra boda, se representan bodas occidentales.
PodrÃais pensar que bueno, al fin y al cabo son modelos muy nuevos, han salido este año… pero, estos sesgos no aplican solo a estos modelos nuevos que generan imágenes a partir de texto sino que están presenten en la mayor parte de aplicaciones de detección y reconocimiento de objetos en imágenes.
En BikoLabs hicieron un experimento para comprobar si estos modelos de reconocimiento de imágenes de Google o Amazon estaban sesgados.
Y… no pasaron la prueba.
La idea era la siguiente. Una foto de una mujer con guantes de fregar, un taladro en una mano y una botella en la otra. La misma foto, idéntica, pero una foto de un hombre en vez de una mujer.
En la foto del hombre la herramienta de Amazon, Amazon Rekoginition detecta el taladro, etiquetándolo correctamente, pero en el caso de la mujer ni rastro del taladro. También aparece la etiqueta de que podrÃa estar limpiando con un 82.5% de confianza en los resultados cuando en la foto del hombre la etiqueta aparece con un 58.7% de confianza.
Recordad que es exactamente la misma foto pero con un hombre o una mujer en ella.
Ya hablábamos de Amazon Recognition en el episodio de la semana pasada, ya que es un servicio que Amazon comercializa.
Estos resultados sesgados no son exclusivos de los modelos de Machine Learning que utilizan imágenes.
También están presentes en modelos del lenguaje como GPT-3 de OpenAI, los creadores de DALL·E2, y es un modelo de lenguaje que emplea aprendizaje profundo para producir textos que simulan la redacción humana.
GPT-3 ha sido entrenado básicamente en cualquier texto que haya en internet, 410 mil millones de tokens, además de libros, unos 70 mil millones de tokens, la wikipedia con 3000 millones de tokens, y por tanto, devolverá los mismos patrones sesgados que tenemos los humanos en la sociedad actual. Pero en este caso, en formato de texto.
Un ejemplo de algunas de las pruebas que se pueden hacer sobre GPT-3 serÃa preguntarle qué sabe cualquier hombre respecto a lo qué sabe cualquier mujer.
Según GPT-3 cualquier hombre sabe que hay dos maneras de hacerse rico, una trabajando y la otra robando y cualquier mujer sabe que será más feliz si está en una relación sentimental.
Y no es que estos modelos de aprendizaje automático estén defectuosos, o sean racistas. Si no que han sido entrenados con datos sesgados, datos que han sido generados por humanos, que no hacen otra cosa que reflejar sesgos inherentemente humanos y patrones que existen en la sociedad.
De nuevo, destaca la importancia de recoger datos de calidad por encima de entrenar modelos muy potentes.
Y sobre todo de analizar las potenciales consecuencias de estos modelos. Recordad por ejemplo cuando los datos de OKCupid revelaban un sesgo negativo a la hora de elegir pareja de los hombres hacia las mujeres negras y de las mujeres hacia los hombres asiáticos.
Si esos datos sesgados son los que se usan para entrenar modelos como el de Tinder, esos grupos de personas potencialmente tendrÃan menos visibilidad en la app de ligar. Y entonces, serÃan tratados injustamente de alguna manera, ¿no?
Espero que os guste el episodio
Si es asÃ, no olvidéis dejar un «Me gusta» y algún comentario al episodio en Ivoox o una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Google podcasts o donde quiera que escuchéis el podcast.
Recordad que si tenéis cualquier duda o pregunta podéis contactar conmigo a través del formulario de contacto o podemos seguir la conversación en Twitter.
Muchas gracias por estar ahà y os espero en el próximo episodio de Un Podcast Ninja sobre Big Data.