Gesichtserkennung. Roland Meyer
Technologie, die kurz zuvor – von der Öffentlichkeit unbemerkt – im polizeilichen Feldversuch gescheitert war, als wichtigste Waffe im »Kampf gegen den Terror« vermarkten. Letztlich blieben die Anwendungsfelder jedoch zunächst sehr begrenzt – halbwegs zuverlässig einsetzbar war Gesichtserkennung nur dort, wo sie wie etwa bei der Passkontrolle lediglich standardisierte Vergleichsbilder miteinander abzugleichen hatte. Die strengen Regeln, die seit 2005 für die Anfertigung sogenannter biometrischer Passbilder gelten, legen davon Zeugnis ab: Bis vor gut zehn Jahren funktionierte Gesichtserkennung halbwegs zuverlässig nur bei frontalem Blick, neutralem Hintergrund und unbewegter Mimik. Ihr Einsatzbereich beschränkte sich folglich auf Grenzübergänge und andere Orte, an denen man die zu identifizierenden Subjekte dazu bringen konnte, unter kontrollierten Aufnahmebedingungen in eine Kamera zu schauen.
Das sollte sich mit einer Technologie ändern, die in den letzten Jahren Furore machte und wesentlich für den aktuellen Hype um sogenannte Künstliche Intelligenz (KI) verantwortlich ist: dem »Deep Learning«. Dabei handelt es sich um eine Form maschinellen Lernens mittels sogenannter künstlicher neuronaler Netze. Die Grundidee dazu, die von der Funktionsweise des menschlichen Gehirns inspiriert ist, stammt zwar schon aus den 1940er-Jahren, aber erst um 2010 waren die Bedingungen gegeben, um damit auf dem Feld der Gesichtserkennung hinreichend überzeugende Resultate zu erzielen – neben gestiegener Rechenleistung war das vor allem die massenhafte Verfügbarkeit der nötigen Trainingsdaten. Denn anders als bei älteren Verfahren der Gesichtserkennung muss künstlichen neuronalen Netzen nicht vorgegeben werden, woran sie ein Gesicht erkennen können, sondern sie »lernen« dies durch millionenfachen Versuch und Irrtum.11
Um etwa zu trainieren, ein und dasselbe Gesicht in unterschiedlichen Situationen, aus verschiedenen Perspektiven und bei wechselnden Lichtverhältnissen zuverlässig demselben Namen zuzuordnen, werden künstliche neuronale Netze mit riesigen Mengen von Bilderserien gefüttert, die anders als die institutionellen Bilddatenbanken der 1990er-Jahre nicht unter standardisierten, sondern unter realweltlichen Bedingungen aufgenommen wurden – sogenannte faces in the wild. Entscheidend für den Trainingsprozess ist, dass diese Gesichter »in freier Wildbahn« bereits »gelabelt«, also zum Beispiel mit dem Namen einer Person verknüpft sind. Sollen die Algorithmen trainiert werden, Gesichter nicht nur zu identifizieren, sondern andere Eigenschaften aus ihnen abzulesen, wie beispielsweise das Alter, das Geschlecht oder die emotionale Stimmung einer Person, brauchen sie auch dafür entsprechende Labels (siehe Kap. 3). Auf Basis dieser gelabelten Trainingsdaten »lernen« die neuronalen Netze dann nicht nur, auf welche »Merkmale« sie zu achten haben, sie bestimmen auch autonom im Trainingsprozess, was überhaupt ein Merkmal ist. Und diese Merkmale müssen kein offensichtliches Äquivalent im Bild haben, denn künstliche neuronale Netze »sehen« nicht wie Menschenaugen, sondern suchen nach statistischen Mustern in Datenmengen.12
Woher aber kommen nun diese Trainingsgesichter? Wir alle liefern sie. Einer der ersten Trainingsdatensätze von 2007, schlicht »Labeled Faces in the Wild« benannt, versammelte noch vorwiegend Gesichter von Filmstars und Politiker*innen, die von diversen News-Seiten stammten. (#5) Doch seit immer mehr Bilder von gewöhnlichen Leuten im Netz zirkulieren, kann es uns allen passieren, dass unser Gesicht zum Training künstlicher neuronaler Netze genutzt wird. Der Künstler Adam Harvey beschäftigt sich seit Jahren mit Trainingsdatensätzen. Seinen Recherchen ist es zu verdanken, dass Microsoft seine seit 2014 aufgebaute, öffentlich zugängliche Gesichterdatenbank »MS-Celeb« kürzlich vom Netz nehmen musste. »Celeb« stand zwar für »Celebrity«, doch Microsoft hatte eine überaus inklusive Vorstellung von Berühmtheit: Namen und Gesichter von rund 100 000 Menschen waren in der Datenbank gelandet, unter ihnen auch viele Künstler*innen, Wissenschaftler*innen und Journalist*innen, die sich wie Harvey kritisch mit Überwachung beschäftigen.13
Und es sind nicht allein unsere Gesichter, die seit gut einem Jahrzehnt für die Entwicklung der Gesichtserkennung massenhaft abgeschöpft werden. Auch unsere Mitarbeit ist gefragt: Wann immer etwa Facebook oder Google Photos uns auffordern, ein Gesicht auf einem Bild zu identifizieren oder einen automatisch generierten Vorschlag zu bestätigen, wirken wir beim Training der Algorithmen mit. Denn das Labeling, also die Identifizierung und Klassifizierung von Trainingsdatensätzen, ist einer der aufwendigsten und teuersten Aspekte des Deep Learning – wenn man ihn nicht an die unbezahlte Clickarbeit von Milliarden von User*innen outsourcen kann.14 Kein Wunder also, dass Soziale Medien zum wichtigsten Trainings- und Testgelände für Gesichtserkennung und andere Formen der automatisierten Bildauswertung geworden sind. Gesichtserkennung in ihrer heutigen Form ist das Produkt einer digitalen Bildkultur, die riesige Mengen gelabelter Gesichter mühelos verfügbar gemacht hat. Die Skrupellosigkeit von Firmen wie Clearview AI und PimEyes kommt also nicht von ungefähr – sie ist vielmehr die zugespitzte Konsequenz eines grenzenlosen »Überwachungskapitalismus«, dessen Geschäftsmodell darauf basiert, alle Datenspuren, die wir online hinterlassen, systematisch zu erfassen und kommerziell auszuwerten.15
#5 Bilder von George W. Bush aus dem »Labeled Faces in the Wild«-Datensatz
Was dabei jedoch mit unseren digitalen Gesichtern geschieht, bleibt strukturell verborgen, und zwar nicht allein, weil sich die Techfirmen ungern in die Karten schauen lassen. Mehr als jede frühere Form komplexer Software sind die heutigen Machine-Learning-Algorithmen eine Blackbox: Sind die künstlichen neuronalen Netze erst einmal austrainiert, können selbst ihre Entwickler*innen praktisch nicht mehr nachvollziehen, auf Basis welcher Kriterien und Modelle diese zu ihren Entscheidungen gelangen.16 Unstrittig ist allerdings, dass die Performance der Algorithmen hochgradig von ihren Trainingsdaten abhängig ist. Und die sind niemals neutral. Weil die Trainingsdaten ein Produkt unserer Bildkultur sind, sind sie ebenso wenig wie diese frei von rassistischen, sexistischen und anderen Diskriminierungen. Welche Bilder zum Training ausgewählt werden, was sie zeigen und wie sie gelabelt sind, das beruht auf menschlichen Entscheidungen, Vorannahmen und Vorurteilen, die von den künstlichen neuronalen Netzen in ihren endlosen Trainingsläufen verinnerlicht werden. Was das für Konsequenzen hat, zeigt sich spätestens dort, wo sie mit Gesichtern konfrontiert sind, die nicht denen entsprechen, mit denen sie trainiert wurden.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «ЛитРес».
Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.