En el episodio de hoy de Un Podcast Ninja sobre Big Data vamos a hablar de cómo les traspasamos nuestros sesgos a los modelos de Machine Learning.
Durante la Segunda Guerra Mundial, los aviones alemanes estaban mejor preparados que los del bando aliado. Con el paso de los meses, las fuerzas aliadas se dieron cuenta de que los bombarderos eran especialmente vulnerables, presentando más bajas que el resto de la flota aérea.
La solución ideal habría sido blindar los bombarderos completos para hacerlos más robustos peeero eso haría que las naves fueran demasiado pesadas y no podrían volar.
La solución:
Blindar los bombarderos de manera estratégica para reforzarlos y a la vez que fueran lo suficientemente ligeros como para seguir volando.
Para ello, se montó un equipo encargado de visitar todas las bases aéreas en el Reino Unido y cada vez que volvía un bombardero del combate se revisaba y se dibujaba un punto rojo la zona donde la nave había recibido un proyectil.
Una vez recogidos todos los datos, era evidente que las partes del avión que recibían más impactos eran los extremos de las alas, el fuselaje central y los timones de cola.
Parecía claro que las partes del avión a reforzar eran aquellas con mayor número de impactos.
Sin embargo, Abraham Wald, un matemático húngaro que precisamente había tenido que emigrar a Estados Unidos por sus orígenes judíos, propuso una solución diametralmente opuesta.
Les dijo que habían interpretado los datos justamente al revés y que había que blindar las partes del avión que en los dibujos aparecían inmaculadas de puntos rojos. Cero impactos.
La teoría de Wald, era que los únicos bombarderos que se habían considerado en la recogida de datos eran aquellos que habían sido capaces de volver a la base. Por tanto, todos las zonas con puntos rojos eran partes del avión que podían permitirse ser alcanzadas sin que el avión fuera derribado.
Sin embargo, las zonas críticas y que había que blindar, eran aquellas sin puntos rojos porque ningún bombardero alcanzado en ellas había conseguido volver a casa.
Es decir, lo letal era lo que no estaba siendo observado.
Este problema se conoce como sesgo de supervivencia en el que la generalización a partir de observaciones sesgadas distorsiona la percepción de la realidad.
Hoy vamos a hablar del principio fundamental de los modelos de Machine Learning.
Si los modelos se entrenan con datos que son una basura, los resultados serán una basura.
Hablábamos en el episodio 14 de la importancia de que al recolectar datos para entrenar un modelo de Machine Learning éstos fueran representativos. Es decir que reflejen con exactitud el entorno que estamos modelando.
En el caso de los bombarderos aliados, los datos que le pasaron a Abraham Wald no era representativos.
Sólo habían podido recoger la información sobre donde recibían los proyectiles de los bombarderos que habían conseguido llegar a la base. De los bombarderos derribados no tenían nada.
Durante la segunda guerra mundial, el Machine Learning no estaba lo suficientemente de moda como para entrenar un modelo sobre esos datos para decidir dónde reforzar los aviones pero si lo hubiese estado y se hubieran usado esos datos para entrenarlo, los resultados habrían sido un desastre.
Por suerte para ellos, Abraham Wald dio con la clave nada más ver los datos.
Hace un par de semanas os contaba que Google había sacado su propio modelo equivalente DALL·E2 para generar imágenes a partir de una descripción de texto pero que había decidido no liberarlo y tampoco que el público general pudiera usarlo.
Tal vez os preguntasteis en su momento por qué Google ha decidido no liberar su modelo o al menos una demo para que pueda ser utilizado por todo el mundo, cuando todos sus competidores están haciendo accesibles demos o incluso el propio modelo para que la gente pueda usarlo pues como quiera.
Pues según las propias declaraciones de Google es por la calidad de los datos, en este caso imágenes y textos, que se han utilizado para entrenar a Imagen.
1948, año de elecciones presidenciales en EEUU, John Dewey se enfrenta a Truman para ocupar la Casa Blanca. Horas antes de conocerse los resultados el Chicago Tribune manda a imprenta una edición en la que proclama en portada a Dewey como ganador de las elecciones.
Peeero, en realidad fue Harry Truman quien había ganado las elecciones.
¿Qué había pasado?
El Chicago Tribune había confiado en las predicciones en lugar de esperar a que se conociera el resultado real del recuento de votos y en parte, estas predicciones se basaban en los resultados de una encuesta telefónica que daba como sólido ganador a John Dewey.
Y en 1948, la gente que tenía teléfono en casa no era una muestra aleatoria de la sociedad sino que era más probable que estas personas con teléfono en sus casas tuvieran más dinero, fueran más conservadoras y más proclives a votar al candidato republicano: John Dewey.
Los datos de la encuesta en las que se basó el Tribune para publicar su titular no eran tampoco representativos del entorno que se quería modelar.
No representaban a la totalidad de la sociedad norteamericana sino a la parte que tenía teléfono en su casa en 1948. los datos sufrían de sesgo de muestreo y el resultado fue una predicción errónea.
Google, de manera similar al resto de sus competidores, ha utilizado millones de imágenes sacadas de internet que no ha tenido tiempo de revisar.
Por un lado, entrenar sobre imágenes obtenidas de internet sin ningún tipo de filtros permite que la investigación avance a los pasos agigantados que los está haciendo. Recordad que en el episodio 17 repasábamos todos los avances que ha habido este último año dentro de la generación de imágenes y video a partir de texto.
Pero por otro, en internet hay de todo y se está entrenando un modelo de Machine Learning con imágenes y textos que reflejan estereotipos sociales y mayormente puntos de vista de la gente que tenemos acceso a internet.
Google ha utilizado un dataset para entrenar Imagen que se llama LAION-400M.
Este dataset está formado por 400 millones de imágenes con sus descripciones y se ha obtenido de páginas de internet aleatorias rastreadas entre 2014 y 2022.
Saben positivamente que este dataset incluye contenido pornográfico, racista y claramente sesgado.
Por tanto, y teniendo en cuenta que Imagen ha sido entrenado con esos datos, es bastante probable que esos sesgos y estereotipos estén reflejados en sus resultados.
Desde Google reconocen que el comportamiento de Imagen refleja sesgos especialmente al representar figuras humanas con una tendencia clara a que cuando se le describe una persona, ésta es de piel clara y al describir profesiones refleja sesgos de género de la sociedad occidental.
Tanto es así, que Google ha decidido no liberar ni siquiera una demo de Imagen, lo que le ha costado las consecuentes críticas por falta de transparencia.
No es la primera vez que los modelos de Machine Learning en Google sufren de estos sesgos en sus resultados.
En 2015, la empresa lanzó una característica nueva en Google Photos en las que se etiquetaba de manera automática lo que había en la foto. Esta característica se basaba en un modelo de reconocimiento de imágenes.
Pues Google tuvo problemas por la tendencia de este modelo de etiquetar personas negras como gorilas.
De nuevo, sus datos de entrenamiento contenían muchas más personas blancas que de cualquier otro tipo y el modelo había aprendido que si era blanca seguramente sería una persona y si no, pues igual era otra cosa… en ese desafortunado caso, un gorila.
La solución rápida de Google fue eliminar términos como gorila y similares de las etiquetas durante varios años. Si le hacías una foto a un gorila, no lo reconocía pero al menos no la liaba.
¿Quiere esto decir que solo los modelos de Google reflejan estos sesgos en sus resultados y que ni DALL·E2, ni Stable Diffusion, ni MidJourney los tienen?
Ni mucho menos.
De la misma manera que Imagen, han sido entrenados sobre datasets de imágenes y descripciones igualmente sesgados y reflejan estos sesgos en sus resultados.
Algunos ejemplos muestran que al generar una imagen con la descripción de CEO, los resultados son hombres, al generar imágenes de personal de cabina en un vuelo, estas imágenes representan mujeres. Y no solo pasa con personas sino tb con costumbres como por ejemplo, al generar imágenes a partir de la palabra boda, se representan bodas occidentales.
Podríais pensar que bueno, al fin y al cabo son modelos muy nuevos, han salido este año… pero, estos sesgos no aplican solo a estos modelos nuevos que generan imágenes a partir de texto sino que están presenten en la mayor parte de aplicaciones de detección y reconocimiento de objetos en imágenes.
En BikoLabs hicieron un experimento para comprobar si estos modelos de reconocimiento de imágenes de Google o Amazon estaban sesgados.
Y… no pasaron la prueba.
La idea era la siguiente. Una foto de una mujer con guantes de fregar, un taladro en una mano y una botella en la otra. La misma foto, idéntica, pero una foto de un hombre en vez de una mujer.
En la foto del hombre la herramienta de Amazon, Amazon Rekoginition detecta el taladro, etiquetándolo correctamente, pero en el caso de la mujer ni rastro del taladro. También aparece la etiqueta de que podría estar limpiando con un 82.5% de confianza en los resultados cuando en la foto del hombre la etiqueta aparece con un 58.7% de confianza.
Recordad que es exactamente la misma foto pero con un hombre o una mujer en ella.
Ya hablábamos de Amazon Recognition en el episodio de la semana pasada, ya que es un servicio que Amazon comercializa.
Estos resultados sesgados no son exclusivos de los modelos de Machine Learning que utilizan imágenes.
También están presentes en modelos del lenguaje como GPT-3 de OpenAI, los creadores de DALL·E2, y es un modelo de lenguaje que emplea aprendizaje profundo para producir textos que simulan la redacción humana.
GPT-3 ha sido entrenado básicamente en cualquier texto que haya en internet, 410 mil millones de tokens, además de libros, unos 70 mil millones de tokens, la wikipedia con 3000 millones de tokens, y por tanto, devolverá los mismos patrones sesgados que tenemos los humanos en la sociedad actual. Pero en este caso, en formato de texto.
Un ejemplo de algunas de las pruebas que se pueden hacer sobre GPT-3 sería preguntarle qué sabe cualquier hombre respecto a lo qué sabe cualquier mujer.
Según GPT-3 cualquier hombre sabe que hay dos maneras de hacerse rico, una trabajando y la otra robando y cualquier mujer sabe que será más feliz si está en una relación sentimental.
Y no es que estos modelos de aprendizaje automático estén defectuosos, o sean racistas. Si no que han sido entrenados con datos sesgados, datos que han sido generados por humanos, que no hacen otra cosa que reflejar sesgos inherentemente humanos y patrones que existen en la sociedad.
De nuevo, destaca la importancia de recoger datos de calidad por encima de entrenar modelos muy potentes.
Y sobre todo de analizar las potenciales consecuencias de estos modelos. Recordad por ejemplo cuando los datos de OKCupid revelaban un sesgo negativo a la hora de elegir pareja de los hombres hacia las mujeres negras y de las mujeres hacia los hombres asiáticos.
Si esos datos sesgados son los que se usan para entrenar modelos como el de Tinder, esos grupos de personas potencialmente tendrían menos visibilidad en la app de ligar. Y entonces, serían tratados injustamente de alguna manera, ¿no?
Espero que os guste el episodio
Si es así, no olvidéis dejar un «Me gusta» y algún comentario al episodio en Ivoox o una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Google podcasts o donde quiera que escuchéis el podcast.
Recordad que si tenéis cualquier duda o pregunta podéis contactar conmigo a través del formulario de contacto o podemos seguir la conversación en Twitter.
Muchas gracias por estar ahí y os espero en el próximo episodio de Un Podcast Ninja sobre Big Data.