Automatizando el sesgo: cuando las máquinas aprenden sobre género

Las grandes innovaciones en el aprendizaje automático nos dejaron varios titulares inquietantes el año pasado y reflejan nuestros propios prejuicios, aún persistentes, al adoptarlas. Cuando se trata de estereotipos de género, hay un doble riesgo en la forma en que las máquinas aprenden idiomas. La lingüista computacional de Babbel, Kate McCurdy, estudia cómo los algoritmos […]
Kate McKurdy

Las grandes innovaciones en el aprendizaje automático nos dejaron varios titulares inquietantes el año pasado y reflejan nuestros propios prejuicios, aún persistentes, al adoptarlas. Cuando se trata de estereotipos de género, hay un doble riesgo en la forma en que las máquinas aprenden idiomas. La lingüista computacional de Babbel, Kate McCurdy, estudia cómo los algoritmos mezclan el género semántico y gramatical, lo que esto podría significar para cualquier aplicación de la conocida inteligencia artificial y las formas en las que podríamos rectificar su curso.

¿Qué tal si empezamos explicando de qué trata tu proyecto?

Claro.  Me dedico a estudiar el género gramatical en word embedding. Word embedding es una especie de tecnología de procesamiento de lenguaje natural que se utiliza para muchas cosas. El núcleo es un algoritmo que aprende el significado de una palabra basado en las palabras que aparecen a su alrededor. En los últimos años, hemos visto grandes desarrollos en esta área. Se están llevando a cabo muchas investigaciones y grandes empresas como Facebook y Google utilizan estas tecnologías. Hace un par de años, este nuevo algoritmo permitió formar un modelo con bastante rapidez y obtener representaciones del significado de las palabras con un resultado realmente impresionante. Por lo tanto, si se dejara suelto en un corpus de texto aprendería, por ejemplo, que «perro», «gato» y «animal» están relacionados, o que «manzana» y «plátano» también, sin que nadie se lo diga explícitamente. Un método bastante poderoso y que se está usando en numerosas aplicaciones tecnológicas; sin embargo, nos hemos empezado a dar cuenta de que también tiene algunos problemas.

Porque estos algoritmos están detectando asociaciones de género…

Correcto. La cuestión es que, aunque son buenos aprendiendo cosas  realmente útiles, como la relación entre «manzana» y «plátano», también son muy buenos aprendiendo cosas que no son tan útiles como algunas asociaciones que no queremos que se hagan. El año pasado, varios investigadores publicaron hallazgos que mostraban que, por ejemplo, estas tecnologías estaban aprendiendo que términos profesionales como «negocio», «oficina» y «salario» estaban sistemáticamente más cerca de palabras asociadas a  hombres, como «tío» y «padre». Mientras que palabras asociadas con el hogar y la familia se aprendían en relación con términos vinculados a la mujer.

Hubo un famoso ejemplo de esto en algunas de las investigaciones que salieron a la luz. Una de las propiedades más impresionantes del word embedding es que puede realizar lo que llamamos una tarea de analogía. Así, en una frase como: «El hombre es para la mujer lo que el rey es para…», dejando el espacio en blanco, al igual que en una pregunta de SAT (examen de acceso a la universidad en Estados Unidos), te contestaría: «reina». Impresionante, ¿verdad? Ahora bien, cuando dices algo como » hombre es a mujer como piloto a…», su respuesta es: «auxiliar de vuelo». Esto realmente hizo que la gente recapacitara. Resulta que, simplemente al formarlo en base a las probabilidades estadísticas de las palabras a su alrededor, terminó construyendo un modelo que tiene todas estas asociaciones de palabras que realmente no nos interesan. El género es solo la punta del iceberg. Los mismos investigadores también han encontrado asociaciones controvertidas con referencias a la raza, etnia, grupo social, etc.

Claro, por supuesto.

Básicamente son las asociaciones de aprendizaje las que pueden resultar profundamente problemáticas. Especialmente si están involucradas en otros tipos de aplicaciones. Un investigador formuló una hipótesis particularmente reveladora. Imagínate que estás en Google buscando candidatos para un trabajo concreto de programación informática…

Es verdad…

Y digamos que buscas candidatos de una universidad local o algo así. Pero resulta que, como los nombres de las personas también se representan en el texto que estos algoritmos están procesando, la aplicación podría aprender que nombres como Antonioy Juan están asociados de forma más estrecha con la programación informática que… María. Y puede que posteriormente haga una clasificación de los candidatos ubicando los nombres masculinos en la parte superior de la lista. Por lo tanto, esto podría sesgar estadísticamente la información. Y esa es solo una de las muchas maneras sutiles en las que estas tecnologías y sus aplicaciones podrían colisionar con situaciones de la vida real.

¿Qué efecto tiene con la intersección del género gramatical? El inglés es un poco más sencillo en ese aspecto, pero probablemente existan ramificaciones para los idiomas que sí tienen género gramatical.

Sí, exactamente. Bueno, los problemas que estábamos discutiendo provienen de las observaciones de otros investigadores. Lo que el grupo de Babbel y yo estamos analizando tiene que ver con tu pregunta: cómo interactúa este tipo de tecnología con los idiomas en los que existe un género gramatical. En español, francés o alemán,  la palabra «padre» no se refiere solo semánticamente a un hombre. Sabemos que la palabra es masculina porque, en el caso del alemán, der Vater implica un artículo masculino. En francés sería le pére. Así que esta cuestión sobre el género semántico entra en el mismo campo que el género de los artículos, es decir, el género gramatical de las propias palabras. Esto también se extiende a los objetos. “Mesa” es masculino en alemán, pero femenino en francés y español.

Lo interesante es que está bastante claro que cuando se trata de personas, hay cierta lógica en torno a la referencia de género. Históricamente, existen asociaciones, muchas de las cuales cada vez se cuestionan más. En sueco, por ejemplo, acaban de crear un artículo neutro, hen. Hay un replanteamiento cultural por todas partes. Sin embargo, podemos decir claramente que con los objetos no hay una lógica clara cuando se trata de distinción de género. La falta de consistencia gramatical de género para la «mesa» del alemán al español nos dice que no hay una verdad absoluta. No hay ninguna propiedad de género en una mesa. Lo mismo ocurre con la mayoría de los objetos del mundo. Pero lo que mi grupo descubrió es que, como estos modelos estadísticos de word embedding se basan simplemente en observar las palabras que están cerca de otras palabras, si no se piensa activamente en esto y se corrige de alguna manera de antemano, entonces cuando se forme un modelo para el alemán, aprenderá que la «mesa» es en realidad masculina, y viajará por el espacio semántico con los padres, los hermanos, etc. Y eso sucede con cualquier palabra asociada con el género gramatical masculino.

En alemán, la palabra «atleta» tiene formas masculinas y femeninas. Existe der Sportler y die Sportlerin. Y “mesa estará más cerca de la forma masculina, en cuanto al método de aprendizaje del modelo. Pero como “la mesa” es femenina en español, aprende que es parte del espacio semántico femenino, y pasa al grupo de las madres y tías. Lo que esto significa es que las propiedades arbitrarias de género del lenguaje, en las que cualquier hablante sabe que no hay nada realmente masculino o femenino en una mesa o cualquier otro objeto común —más allá de sus propias asociaciones mentales—, sí afectan a estos modelos, que están aprendiendo que sí lo hay. Y esto podría influir en los resultados que proporcionan en las aplicaciones en las que se utilizan.

Digamos que estás buscando en alguna web de recomendaciones de productos algo para regalarle a una amiga (con un nombre femenino). Si realizas esta búsqueda en español, es posible que obtengas resultados diferentes a los que obtendrías si la realizaras en alemán, ya que las propiedades de género de los resultados son diferentes en ambos idiomas. Hay todo tipo de cambios sutiles que podrían estar ocurriendo, pero si no lo notamos, no podemos corregirlos.

En base a tu investigación, ¿crees que hay una forma efectiva de hacer correcciones?

La manera más fácil de corregir esto es simplemente deshacerse de la información del artículo, ¿verdad? Simplemente omitir los artículos al formar el modelo y decir que no está proporcionando información significativa. Me parece una solución que funciona para algunos idiomas, pero tendríamos que ir más allá para otros. En alemán, por ejemplo, los artículos no solo tienen información de género, sino también casos. Por lo tanto, tendría sentido buscar un enfoque más sofisticado. En nuestra investigación empezamos a hacer la cosa más fácil y obvia, solo para mostrar que se puede formar un modelo sin conseguir como resultado estos sesgos gramaticales de género. Pero creo que en realidad manejar esto bien requerirá un poco más de reflexión, porque los diferentes idiomas tienen diferentes necesidades. Y estos modelos de word embedding cuentan con gran desarrollo e innovación en inglés. Por lo tanto, reflejan la lente donde tenemos al algoritmo que nos acerca al significado de la palabra en inglés, pero en realidad necesitamos pensar en las necesidades y propiedades específicas de otros idiomas, para así poder generalizarlo de manera significativa.

¿Existe alguna forma en particular de que esto sea lo que impulse el trabajo en Babbel?

Bueno, estamos buscando diferentes formas de aplicar la tecnología del lenguaje en el aprendizaje de los estudiantes. Por lo tanto, si hay un caso en el que una palabra en particular funciona bien en inglés, pero no en español u otro idioma —digamos que estamos diseñando una tarea de comprensión para estudiantes de español o alemán, y nos estamos preguntando qué palabras dentro de un conjunto son más similares a otras— podríamos terminar proporcionando al usuario algo incorrecto, si no nos anticipamos a este tipo de cosas. Un modelo podría acortar la distancia semántica entre dos palabras simplemente por su género gramatical, priorizándolo sobre alguna relación significativa.

Ampliando el enfoque, ¿dónde ves las implicaciones sociales más interesantes para el tipo de examen crítico de estos modelos?

En cualquier lugar donde usemos la llamada tecnología de inteligencia artificial. Creo que se está metiendo cada vez más en nuestras vidas, y de muchas maneras que son bastante opacas. Es difícil cribar claramente sus efectos. Realmente, en nuestra investigación, estamos arrojando luz sobre uno de los que probablemente sean cientos o miles de factores que podrían estar afectando a alguna de las decisiones del sistema. Eso tendrá significado para ti o para mí como consumidor, buscador o lo que seamos..

Otra investigación realmente interesante publicada recientemente muestra que hay asociaciones con los roles semánticos de las imágenes. Por ejemplo, la asociación semántica entre las mujeres y la cocina es tan fuerte que, algunos algoritmos formados en etiquetar imágenes, al ver una fotografía de un hombre cocinando, dirá que es una mujer. Por el momento, es solo un resultado extraído de algunos datos. Creo que es difícil imaginar ahora todas las formas en que esto podría ser significativo. Pensemos en sistemas de clasificación de empleados con algoritmos de búsqueda de términos clave en los currículos. Esta es una práctica común en muchas industrias. Y si no prestamos atención, estos sesgos específicos del idioma podrían influir en el currículum vitae de cada persona en un determinado momento.

Claro. Por supuesto.

Podría acabar afectando a la estructura del empleo. Podría acabar afectando a cualquier espacio en el que se utilice la toma de decisiones automatizada en una especie de capacidad institucional o estructural. Si algo se apoya en una tecnología un poco opaca, pueden haber consecuencias directas en los últimos beneficiarios del servicio. Podría tener un impacto negativo significativo, con consecuencias también de naturaleza institucional. En cualquier caso, debido a que es tan opaco y una tecnología todavía en desarrollo es muy difícil anticipar un daño específico. Pero eso es exactamente lo que hace que sea tan importante poder sacar estas cosas a la luz una por una y señalar los factores potenciales que podrían estar en juego.

Compartir: