Automatisierte Vorurteile: Wenn Maschinen Geschlechterstereotype lernen

Ein Interview mit Kate McCurdy, Computerlinguistin bei Babbel, zu fehlerhaften Algorithmen, die Gender-Stereotype widerspiegeln.
Kate McKurdy

Bahnbrechende Innovationen aus dem Bereich des Maschinellen Lernens (Machine Learning) haben im letzten Jahr beunruhigende Schlagzeilen gemacht. Beunruhigend deshalb, weil einige Eigenschaften dieser Innovationen wie ein Spiegel unserer Gesellschaft funktionieren und uns unsere eigenen, festgefahrenen Vorurteile aufzeigen. Es geht um Gender-Stereotypen, und Machine Learning bringt bei diesem Thema gleich ein doppeltes Risiko mit sich. Kate McCurdy, Computerlinguistin bei Babbel, hat nun untersucht, warum Algorithmen das tun, was sie nicht tun sollen: etwas miteinander vermischen, was nicht vermischt werden sollte, und zwar das semantische und das grammatische Geschlecht. Sie berichtet, was das für Apps bedeutet, in denen Künstliche Intelligenz eingesetzt wird und welche Kursänderung wir vornehmen können – und müssen.

Wir wär’s, wenn du uns zu Beginn ein bisschen über dein aktuelles Forschungsprojekt erzählst?

Klar, gern. Ich beschäftige mich ganz allgemein mit Programmiersprache. Im Moment erforsche ich, welche Rolle das grammatikalische Geschlecht bei word embeddings spielt. Word embeddings sind quasi-organische Sprachentwicklungs-Technologien, die in ganz unterschiedlichen Bereichen Anwendung finden. Der Kern einer solchen Technologie ist ein Algorithmus, der die Bedeutung von Worten lernt, und zwar unter Verwendung einer ganz speziellen Methode: er registriert und analysiert jene Worte, die sich um das zu lernende Wort herum gruppieren. In den letzten Jahren haben wir in diesem Bereich enorme Entwicklungen beobachten können. Dieses Thema wird wirklich intensiv erforscht, und parallel dazu setzen große Firmen wie Facebook und Google diese Technologien in ihren Produkten ein.

Vor ein paar Jahren entstand nun ein neuer Algorithmus. Dieser ermöglicht es uns, das Tempo, in dem ein Modell neue Informationen aufnimmt, signifikant zu steigern. Dadurch war es den Modellen auf einmal möglich, ganze Repräsentationen von Wortbedeutungen zu identifizieren. Das hat uns natürlich erst einmal sehr euphorisch gemacht. Um ein Beispiel zu geben, man konnte diesen Algorithmus auf einen ganzen Wortbereich loslassen und er begriff, dass „Hund“, „Katze“ und „Tier“ miteinander verwandte Worte sind, oder aber dass „Apfel“ und „Banane“ zueinander gehören, und zwar ohne dass man diesen Algorithmus vorher explizit dazu aufforderte. Damals war das wirklich bahnbrechend und wird heute auch in vielen technologischen Anwendungen eingesetzt. Im Laufe der Zeit haben wir aber festgestellt, dass es auch ein paar Probleme gibt.

Weil diese Algorithmen Gender-Assoziationen aufgreifen …

Genau. Die Sache ist folgende: Algorithmen sind sehr gut darin, Nützliches zu begreifen und es sich zu merken, wie diese Verbindung zwischen „Apfel“ und „Banane“. Algorithmen sind aber auch gut darin, Dinge zu lernen, die nicht nützlich sind, kurz gesagt, sie lernen auch Repräsentationen, die sie besser nicht lernen sollen. Letztes Jahr haben Wissenschaftler Forschungsergebnisse publiziert, die Folgendes zeigen: Diese Technologien lernen zum Beispiel, dass Begriffe aus dem Themenfeld Berufskarriere, also Wörter wie „Business“, „Büro“ oder „Gehalt“, systematisch näher mit Begriffen aus dem Themenfeld Männer verbunden waren, also mit Wörtern wie „Onkel“ und „Vater“. Begriffe aus dem Bereich „Zuhause“ und „Familie“ lernte der Algorithmus mit weiblich assoziierten Begriffen zu verbinden.

In diesem Zusammenhang ist ein Beispiel aus einer Forschung recht bekannt geworden. Eine der wirklich beeindruckenden Eigenschaften von word embeddings ist ihre Fähigkeit, eine analoge Aufgabe auszuführen. Du nimmst also ein Embedding-odell und sagst: „Mann verhält sich zu Frau wie König zu …“ und dann lässt du das Modell die Lücke füllen, ähnlich wie bei einem Multiple-Choice-Test. Und was macht das Modell? Es setzt „Königin“ ein. Schon beeindruckend, oder? Dann hat sich aber Folgendes gezeigt: Wenn du etwas sagst wie: „Mann verhält sich zu Frau wie Pilot zu …“, setzt das Modell „Stewardess“ ein. Das hat natürlich aufhorchen lassen. Es stellte sich heraus, dass der Algorithmus allein durch das Training von statistischen Wahrscheinlichkeiten der umgebenden Wörter in einem Text ein Modell entwickelte, das eben auch all jene Wortassoziationen beinhaltet, die wir nicht wahrhaben wollen. Gender ist nur die Spitze des Eisbergs. Dieselben Wissenschaftler haben auch problematische Verbindungen im Themenfeld Rasse, rassialisierte Namen und so weiter gefunden.

Ja, logisch.

Hier geht es im Grunde um Lernassoziationen, die sich in eine wirklich ernstzunehmende Richtung entwickeln könnten. Vor allem dann, wenn sie in anderen Arten von Anwendungen eingesetzt werden. Ein Wissenschaftler gab ein besonders prägnantes Beispiel. Stell dir vor du benutzt Google, um nach Bewerbern für einen ausgeschriebenen Programmierjob zu suchen …

Stimmt!

Oder stellen wir uns vor, du suchst an deiner Universität vor Ort nach einem neuen Mitarbeiter für dein Unternehmen. Aber dann passiert Folgendes: Die App, die du benutzt, lernt, dass Namen wie Mark und John enger mit Computerprogrammieren assoziiert sind als Samantha – weil auch die Namen von Menschen in den Texten, aus denen die Anwendung lernt, entsprechend repräsentiert sind. Und dann stuft die App in ihrer Liste potenzielle Bewerber mit Männernamen höher ein. Das könnte statistisch gesehen die Vorschläge, die ein Personaler bekommt, in eine bestimmte Richtung beeinflussen. Und das ist ja nur ein Beispiel dafür, auf wie viele und subtile Wege sich diese Technologien mit Situationen im echten Leben reiben.

Wie sieht nun die Schnittstelle mit dem grammatischen Geschlecht aus? Die englische Sprache ist in dieser Hinsicht ja eher unkompliziert. Aber das hat bei Sprachen hat, die ein grammatisches Geschlecht besitzen, sicher Konsequenzen, oder?

Ganz genau! Worüber wir gerade eben gesprochen haben, sind ja erst einmal Beobachtungen, die andere Wissenschaftler gemacht haben. Wir hier bei Babbel haben nun genau das untersucht, was du da ansprichst; wie diese Technologien mit Sprachen interagieren, die das grammatische Geschlecht eben haben. Aus der spanischen, französischen oder deutschen Sprache wissen wir, dass sich das Wort für „Vater“ nicht nur semantisch auf einen Mann bezieht. Wir wissen, dass das Wort maskulin ist, weil – bleiben wir beim Beispiel aus dem Deutschen – der Vater einen maskulinen Artikel hat. Im Spanischen wäre das el padre. Hier werden also zwei Fragen zusammengebracht: die Frage nach der Zuordnung des semantischen Geschlechts und die nach dem grammatischen Geschlecht des Wortes an sich. Das lässt sich auch bei Objekten anwenden. „Tisch“ ist im Deutschen maskulin, aber im Französischen und Spanischen feminin.

Wenn es um Personen geht, ist die Referenz zum Geschlecht ja logisch. Das hat auch eine historische Genese. Aber Zusammenhänge, die früher mal sinnvoll und gültig waren, werden gegenwärtig zunehmend infrage gestellt. Im Schwedischen wurde gerade ein geschlechtsneutrales Pronomen eingeführt, hen. Auf kultureller Ebene findet hier überall ein Nachdenken statt. Aber wenn es um Objekte geht, kann man klar sagen, dass es bei der Unterscheidung des Geschlechts keine Logik gibt. Dass wir hier nichts Handfestes haben, sehen wir ja am Beispiel des Tisches, wo wir im Deutschen und Spanischen keine Einheitlichkeit haben, was das grammatische Geschlecht anbelangt. Das Wort Tisch hat kein festes Geschlecht. Und das gilt für die meisten Objekte, überall auf der Welt. Unsere Forschungsgruppe bei Babbel hat herausgefunden: Diese statistischen WordEmbedding-Modelle basieren schlicht und einfach auf Wörtern, die sich um andere Wörter herumgruppieren. Wenn man das nicht von Anfang an ganz bewusst in seine Überlegungen miteinbezieht und vorab schon korrigiert, dann lernt ein Modell für die Sprache Deutsch zum Beispiel, dass das Wort „Tisch“ an sich, also genuin, maskulin ist. Dieses Wort existiert einfach in der semantischen Sphäre neben Vätern und Brüdern und so weiter. Und das gilt für jedes Wort, das mit dem grammatisch maskulinen Geschlecht assoziiert wird.

Noch ein weiteres Beispiel: Im Deutschen gibt es für das englische Wort athlet eine männliche und eine weibliche Form. Man sagt der Sportler und die Sportlerin. Das Modell lernt, dass Tisch eher der männlichen Form nahesteht. Aber weil Tisch im Spanischen weiblich ist, lernt das Modell, dass dieses Wort aus der weiblichen Sphäre stammt. Derselben Sphäre, in der sich auch Mütter und Tanten und so weiter befinden. Abgesehen von unseren eigenen Assoziationen wissen wir alle, dass ein Tisch oder irgendein anderes beliebiges Objekt keine männlichen oder weiblichen Eigenschaften hat. Wir wissen, dass Genderzugehörigkeiten zufällig sind. Diese Modelle aber lernen das Gegenteil, nämlich, dass es solche Zugehörigkeiten tatsächlich gibt. Und das kann dazu führen, dass sie die Ergebnisse in Apps, in denen sie eingesetzt werden, beeinflussen.

In der Praxis könnte das so aussehen: Stell dir vor, du suchst ein Geschenk für eine Freundin und konsultierst bei deiner Suche eine Seite für Produktempfehlungen. Führst du die Suche auf Spanisch aus, bekommst du wahrscheinlich andere Ergebnisse angezeigt, als wenn du die Suche auf Deutsch machen würdest – weil die Genderzugehörigkeiten der Ergebnisse in verschiedenen Sprachen verschieden ausfallen. Solche Einflüsse können auf ganz subtile Weise entstehen, und wenn wir sie nicht registrieren, können wir sie auch nicht korrigieren.

Habt ihr in eurer Forschung etwas entdeckt, das auf einen möglichen korrektiven Eingriff hindeutet?

Der einfachste Weg wäre, einfach den Artikel loszuwerden. Dass man dem Modell also beibringt, dass der Artikel keine nützliche Information liefert und daher ignoriert werden kann. Ich vermute, dass das für ein paar Sprachen auch funktionieren könnte. Aber für andere Sprachen bleibt uns nichts anderes übrig, als eine andere Lösung zu finden. Im Deutschen zum Beispiel beinhaltet der Artikel nicht nur  Informationen zum jeweiligen Geschlecht, sondern auch zum Fall. Da lohnt es sich, über eine komplexere Herangehensweise nachzudenken, und genau das haben wir in unserer Forschung bei Babbel gemacht. Zumindest haben wir versucht, unser Konzept wissenschaftlich zu beweisen; dass du ein Modell also durchaus so trainieren kannst, dass eine Gender-Beeinflussung ausbleibt. Ich denke, dass wir hier noch in den Kinderschuhen stecken, denn verschiedene Sprachen benötigen verschiedene Herangehensweisen. Und die uns bekannten Word-Embedding-Modelle sind ja in und für Englisch entwickelt worden. Diese Modelle tragen quasi eine englische Brille. Wir können uns mittels ihres Algorithmus‘ durchaus einer englischen Wortbedeutung annähern, aber wir müssen uns auch über die individuellen Anforderungen und Eigenschaften anderer Sprachen Gedanken machen, bevor wir irgendetwas generalisieren.

Beeinflusst das in irgendeiner Weise auch die Entwicklungen hier bei Babbel?

Wir untersuchen und entwickeln hier ja verschiedene Arten von Sprachtechnologien für Lernende. Wenn wir jetzt auf ein Wort stoßen, das im Englischen gut funktioniert, im Spanischen oder einer anderen Lernsprache jedoch nicht – also, wenn wir beispielsweise eine Verständnisaufgabe für die Lernsprache Spanisch oder Deutsch entwickeln und wir stellen die Frage, welche Wortgruppe aus einer Reihe verschiedener Wortgruppen zueinander gehört – dann könnten wir unseren Nutzern ein fehlerhaftes Modell vorsetzen, wenn wir nicht vorher schon für diese Problematik sensibilisiert wären. Ein Modell kann den Fehler machen, zwei Wörter allein aufgrund seines grammatischen Geschlechts als einander zugehörig einzuordnen und andere, inhaltlich bedeutsame Verbindungen als schwächer einzustufen und damit außen vor zu lassen.

Ihr denkt über diese Modelle ja sehr kritisch. Kannst du uns sagen, wo du relevante soziale Auswirkungen siehst, wenn wir das Problem mal von einer ganz allgemeinen Warte aus betrachten?

Im Grunde absolut überall, wo Künstliche Intelligenz in Technologien eingesetzt wird. Ich glaube, dass diese Entwicklungen mehr und mehr Teil unseres Lebens werden, und zwar schleichend, auf eine Weise, die wir kaum mitbekommen. Diese Auswirkungen, über die wir oben sprachen, können wir da kaum kritisch herausfiltern. Um es offen zu sagen: Unsere Forschung berührt nur die Spitze des Eisbergs. Wenn du diese Spitze um das Hundert- oder Tausendfache multiplizierst, dann bekommst du eine Vorstellung davon, wie viele Faktoren einen einzigen Entscheidungsschritt eines Systems beeinflussen können. Wir können gar nicht vermeiden, dass das dich und mich als Konsumenten oder Nutzer an irgendeinem Punkt beeinflussen wird.

Vor Kurzem wurde eine andere interessante Forschung veröffentlicht, die nachweisen konnte, dass es solche Verbindungen auch innerhalb von semantischen Rollen gibt, die Bilder haben. Um das an einem Beispiel zu zeigen: Die semantische Verbindung zwischen Frauen und kochen ist so stark, dass man bei Algorithmen, die darin trainiert wurden, Bilder zu kategorisieren, Folgendes beobachten konnte: Zeigt man diesen Algorithmen Bilder von kochenden Männern, dann ist die vormals gelernte Verbindung so stark, dass der Algorithmus sagen wird, er sähe eine Frau. Bislang ist das für uns ein reines Datenergebnis. Aber ich glaube, dass wir heute noch nicht absehen können, welche relevanten Auswirkungen das in der Zukunft haben könnte. Denk nur mal an Systeme, die Kandidaten für eine zu besetzende Stelle aussortieren, die Lebensläufe nach Schlüsselwörtern durchsuchen. Das ist heute in vielen Branchen schon üblich. Wenn du da nicht rechtzeitig eingreifst, werden diese sprachspezifischen Einflüsse entscheiden, welche Bewerber den Zuschlag kriegen und welche draußen bleiben.

Ja, klar.

Das könnte die Art und Weise, wie Personal eingestellt wird, strukturell verändern. Im Grunde kann das jeden Bereich betreffen, in dem automatische Entscheidungsfindung institutionell oder strukturell eingesetzt wird. Sobald ein Vorgang mit Technologie verbunden ist, werden seine Abläufe undurchsichtig und das hat am anderen Ende des Spektrums Auswirkungen auf die Konsumenten. Egal ob wir nun von großen Institutionen oder Individuen sprechen, es greift immer dasselbe Dilemma: Weil die Abläufe nicht transparent sind, können wir mögliche Schäden nur sehr schwer vorhersehen. Und das ist genau der Grund, warum es so wichtig ist, die Einflussfaktoren in mühsamer Einzelarbeit zu identifizieren.

Du möchtest eine Sprache lernen?
Probier es gleich aus mit Babbel!
Teilen: