En el episodio de hoy de Un Podcast Ninja sobre Big Data vamos a hablar de Tinder y cómo utilizan Machine Learning para encontrarnos pareja.
Tinder, por si hay alguien que no lo sepa todavía, es una aplicación para conocer gente.
Básicamente te das de alta con una información muy básica, subes unas cuantas fotos, en las que salgas guapo o guapa y ya está… La app se encarga de buscarte gente, que en principio esté cerca de tu ubicación, y te va mostrando fotos. Sólo tienes que deslizar a la derecha si te gusta y a la izquierda si no te gusta la persona que te enseña.
Fácil. Nada de rellenar cuestionarios de personalidad.
De hecho este principio tan sencillo es una de las claves del éxito de Tinder.
El otro es que evita la sensación de rechazo que había en otras aplicaciones de buscar pareja más basadas en rellenar perfiles muy completos y en contactar directamente a través de mensajes.
En Tinder no se puede escribir directamente a nadie hasta que los dos han mostrado interés, el uno por el otro.
¿Cómo?
Pues deslizando la foto hacia la derecha. En ese momento hay un match y ya cualquiera de los dos puede escribir al otro y quedar o lo que surja.
Tinder nació en el año 2012 en una incubadora de Startups en Nueva York. Ese mismo año comenzó a utilizarse en campuses universitarios.
Para el lanzamiento los fundadores de Tinder organizaron fiestas en colleges específicos y la gente solo podía entrar si se descargaba la app. En febrero de 2013 alcanzaron 100000 usuarios.
Esas cifras son minucias comparadas con los 75 millones de usuarios activos que tuvieron en 2021.
Desde 2012 la aplicación de Tinder ha tenido más de 400 millones de descargas y está disponible en más de 190 países.
En 2021, Tinder facturó 1600 millones de dólares. Su modelo de negocio se basa en suscripción y publicidad, aunque principalmente es suscripción. Tinder dice que sólo el 3% de sus ingresos son debidos a publi.
Pues bien, los distintos niveles de suscripción de Tinder permiten el acceso a características premium:
Bueno, esas son solo algunas de las características premium. Hay más.
Pues a día de hoy Tinder tiene más de 10 millones de usuarios pagando una suscripción mensual.
Para que eso siga siendo así, el problema principal a resolver por la gente de Tinder es elegir qué perfiles te enseña cuando abres la aplicación.
¿A quién te gustaría ver? ¿A quién le gustaría verte a ti? ¿Con quién tienes probabilidades de hacer un match?
No cogen aleatoriamente a gente cerca tu ubicación y te la muestran sin más. No.
En 2016 salió a la luz que Tinder almacenaba una puntuación interna de “deseabilidad” que calculaban de la misma manera en la que se calcula la habilidad relativa de los ajedrecistas.
El sistema de puntuación Elo, que así se llama el método matemático en el que se basaban, funcionaba de la siguiente manera:
Cada vez que le interesabas a alguien te daban puntos de deseabilidad. Y si le gustaba tu perfil a alguien de puntuación alta, eso sube tu posición en el ranking más que si le interesabas a alguien de puntuación más baja. Después, Tinder te mostraba perfiles que se encontraban en tu mismo rango dentro del ranking. Lo que se suponía que aumentaba las posibilidades de hacer un match.
Esta idea de ordenar a sus usuarios según una puntuación de “deseabilidad” y mostrarle a la gente principalmente otros perfiles que Tinder consideraba que estaban en su nivel, pues no tuvo muy buena acogida al hacerse pública. Esto era 2016.
Desde entonces Tinder no ha vuelto a revelar de manera exacta en la que funciona su algoritmo pero afirma que ya no usan la puntuación Elo.
Entonces, según el propio Tinder, lo que es realmente importante a la hora de ordenar los perfiles que recomiendan cuando alguien abre la app es - oh sorpresa - que sean perfiles que estén muy activos en la aplicación. Otra cosa que también priorizan es que en cuanto ocurre el match se inicie la conversación.
El objetivo de Tinder es que se use Tinder.
Pero el problema a resolver por Tinder siguen siendo el mismo, con puntuación Elo o sin ella,
¿A quién te gustaría ver al abrir la aplicación? ¿A quién le gustaría verte a ti? ¿Con quién tienes probabilidades de hacer un match?
Y ahora viene lo interesante para nosotros, ninjas del Big Data.
Cada día se deslizan perfiles a izquierda o derecha más de 2000 millones de veces, se producen más de 26 millones de matches - al día - y se descargan más de 10 mil millones de fotos.
¿Y esto qué significa?
Que la aplicación ingesta más de 40 TB de datos. Diariamente.
Big Data del bueno.
Después del Elo-gate, Tinder se ha esforzado un poco en intentar desligarse de la idea de puntuación de “deseabilidad”.
Lo que está claro es que sigue teniendo que decidir qué perfiles muestra y en qué orden y a quien se los muestra. Y sí, utiliza Machine Learning para la recomendación de perfiles.
Técnicas como el filtrado colaborativo, un clásico de los sistemas de recomendación y al que le dedicaremos un episodio completo más adelante.
La idea básica del filtrado colaborativo (muy resumida) es que si una persona A, María, por ejemplo, tiene la misma opinión sobre un tema que otra persona B, Ana. Es más probable que María y Ana tengan la misma opinión sobre otro tema diferente que una tercera persona, elegida al azar.
Es decir, y aplicado a Tinder… Si a María le gusta Juan y a Ana también le gusta Juan, pues si a María le gusta Paco, es posible que a Ana le guste Paco.
Esta es la idea de filtrado colaborativo muy - MUY - simplificada.
Además del filtrado colaborativo, utiliza procesado de lenguaje natural para intentar entender de manera automática las biografías de los usuarios y poder sacar información relevante sobre ellos. Por ejemplo, si dos usuarios mencionan en su biografía que les gustan los animales pues hay más posibilidades de que Tinder les presente.
A parte de estas dos técnicas, Tinder ha desarrollado su propio modelo basado en redes neuronales al que ha llamado TinVec.
Para ello, utiliza únicamente la información sobre los deslizamientos a derecha e izquierda que hace y recibe cada usuario.
De cara al modelo TinVec todos los usuarios están divididos en dos categorías: los que eligen y los que son elegidos. Obviamente todos los usuarios forman parte de las dos categorías.
Entonces, imaginaros que podemos meter a todos los usuarios que potencialmente pueden ser mostrados a alguien en una habitación. El modelo lo que haría es poner cerca a usuarios que son similares y lejos a los que son muy diferentes entre sí.
No de una manera explícita, en plan rubios por un lado y morenos por otro sino aprendiendo a partir de los me gusta esta persona o no me gusta esta otra que les da quién está eligiendo. Es decir, el modelo aprende implícitamente las características de las personas sin necesidad de que sea algo explicable como que es rubio o es moreno. Un ejemplo podría ser que al usuario le gustara gente que se hace las fotos en exteriores, entonces esa sería una de los cientos de características que tienen esos perfiles. Pero repito que en estos modelos no todas las características que definen a un usuario pueden ser fácilmente explicadas.
De hecho, TinVec se basa en un modelo de procesado de lenguaje natural que se llama word2vec y que hace básicamente lo mismo pero con palabras. Representa las palabras como vectores de manera que las palabras que significan cosas parecidas están cerca y las que significan cosas muy distintas están lejos.
Aunque igual con palabras, el concepto de distancia según se parezcan o no, es más difícil de visualizar que con usuarios de Tinder.
Entonces si Tinder le quiere recomendar un usuario a Ana que ya ha deslizado hacia la derecha sobre Matias, Pepe y Luis pues hay varias maneras… una de ellas es:
Todo este proceso de deslizar a izquierda a derecha al final esta ayudando a mejorar el propio entrenamiento del modelo y dar mejores resultados y es por ello que la primera cosa que premia Tinder es el propio uso de la aplicación.
A parte de los modelos que seleccionan qué perfiles recomendar. Tinder tiene más modelos de Machine Learning implementados bajo la manga.
Una de sus características es decidir qué foto muestra de todas las que sube el usuario. Para ello va mostrando las diferentes alternativas y cuando tiene suficientes datos sobre los “me gusta” que recibe cada foto decide cuál es la que se debería mostrar para obtener mejores resultados.
Además utiliza Rekognition, una herramienta de Amazon Web Services, para el análisis de imágenes mediante Machine Learning.
Rekognition no solo es capaz de detectar si las fotos enviadas en los chats son explícitas o no lo son si no que además es capaz de clasificar lo que aparece en la fotografía.
De nuevo, este uso de la tecnología de detección y clasificación de imágenes de Amazon se compagina con técnicas de procesado de lenguaje natural que analizan los chats para detectar personas que podrían ser peligrosas o que pueden tener comportamientos abusivos.
Como veis, Tinder es una empresa que utiliza los datos que obtiene de una manera muy intensiva y que tiene un impacto directo y cada vez mayor en la sociedad. Recordad que son más 75 millones de personas las que usan Tinder activamente a día de hoy.
El mismo Jonathan Badeen, co-fundador de Tinder, hizo unas declaraciones en las que decía que le daba miedo pensar en todo lo que afecta Tinder a la vida de las personas y que habían llegado a un punto en el que tenían una gran responsabilidad por la manera en la que Tinder influye en la sociedad.
En cierto modo es como si hubiéramos relegado parte de nuestras decisiones sentimentales a un conjunto de modelos de Machine Learning.
Y aunque el sistema de puntuación Elo que fue tan criticado cuando se publicó ya no se utiliza, los modelos de Machine Learning basados en embeddings, como es TinVec, al final están utilizando unas características implícitas.
Usar estas características, que no son fáciles de descifrar por una persona, no quiere decir que los modelos no estén trasladando los sesgos y estereotipos de la sociedad a sus decisiones. Porque lo hacen.
De hecho, su principal manera de aprender cómo recomendar es a partir de los patrones de deslizamiento a izquierda y derecha de los propios usuarios. Más de 2000 millones de swipes.
En 2014 apareció una noticia de OkCupid acerca de un análisis de datos sobre los comportamientos de sus usuarios y las conclusiones eran, como poco, incómodas.
Las conclusiones del análisis de OkCupid mostraban un sesgo negativo de las mujeres hacia los hombres asiáticos y de los hombres hacia las mujeres negras. Y como os he contado antes, las interacciones con la app determinan el orden de las recomendaciones de los usuarios.
Por tanto, si las mujeres tienden a deslizar a la izquierda a los hombres asiáticos, el modelo podría llegar a aprender que tiene que mostrar menos a este grupo de usuarios. No directamente usando la característica de la raza o procedencia, que Tinder afirma que no utiliza de manera directa informaciónsobre raza o religión, sino a partir de lo que el modelo aprende de manera implícita.
Francamente me gustaría saber como Tinder aborda esto exactamente.
Por otro lado, también es verdad que Tinder cumple la función que promete y es la posibilidad de conectar… y tal vez algo más. De conocer gente nueva, de ampliar tu red de contactos, acercarte a los lugareños cuando estás de viaje o simplemente una manera de ligardivertida y fácil de usar.
Un estudio de 2018 afirmaba que las aplicaciones de citas online está cambiando la naturaleza de la sociedad y lo relaciona directamente con el aumento de parejas interraciales.
Así que tal vez, en el futuro la respuesta más frecuente cuando un crío le pregunte a sus padres cómo se conocieron sea…
En Tinder.
Espero que os guste el episodio
Si es así, no olvidéis dejar un «Me gusta» y algún comentario al episodio en Ivoox o una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Google podcasts o donde quiera que escuchéis el podcast.
Recordad que si tenéis cualquier duda o pregunta podéis contactar conmigo a través del formulario de contacto o podemos seguir la conversación en Twitter.
Muchas gracias por estar ahí y os espero en el próximo episodio de Un Podcast Ninja sobre Big Data.