Kämpf um deine Daten. Max Schrems
Prozess passiert einerseits über die Verknüpfung Ihren Daten aus verschiedenen Quellen, zum Beispiel bei direkten Kooperationen verschiedener Unternehmen, über Datenhändler und über die Integration von externen Systemen. Andererseits werden Ihre Daten auch mit den Daten anderer Personen verknüpft, die Ihnen irgendwie ähnlich sind oder Rückschlüsse auf Sie zulassen.
Ein Beispiel: Wenn man von Ihnen etwa nur weiß, dass Sie ein gewisses Studium an einer Uni besucht haben, so lassen sich die Informationen aller anderen Personen mit dem gleichen Merkmal mit Ihren Daten verknüpfen. Wenn Sie, wie ich, Rechtswissenschaften studiert haben, sind Sie statistisch gesehen vermutlich finanziell besser ausgestattet, konservativ und, wenn Sie das Studium überlebt haben, vermutlich auch nicht ganz doof. Wenn Sie, wie ich, im 6. Bezirk in Wien wohnen, sind Sie tendenziell finanziell okay ausgestattet, wählen Grün, kaufen Bio-Fleisch und sind ein Bobo oder zumindest nah dran einer zu werden. Wenn Sie 1987 geboren sind, dann sind Sie vermutlich Teil der »Generation Praktikum«, sind finanziell nicht so gut ausgestattet und haben bis heute keinen genauen Karriereplan.
Man sieht also, dass man schon aus drei Informationen mit einer gewissen statistischen Treffergenauigkeit Dinge errechnen kann. Wenn Sie nur die Zahlen 1060, A101 oder 1987 sehen, ist das nicht vorstellbar, aber durch die Verknüpfung mit anderen Personen, die auch als Postleitzahl 1060, als Studienkennziffer A101 und als Geburtsjahr 1987 haben, lässt sich aus diesen mickrigen drei Zahlen ein gutes Bild zeichnen. Das Ganze funktioniert, ohne diese zusätzlichen Informationen vom einzelnen Nutzer einsammeln zu müssen. Die Unternehmen brauchen nur Informationen über eine gewisse Zahl der Personen, die zu einer Gruppe gehören, um auf den Rest hochrechnen zu können. Die einzelne Person weiß nicht einmal, dass sowas passiert und geht daher auch überhaupt nicht davon aus, dass die Postleitzahl mehr als den groben Wohnort verraten kann.
Noch weiter kann man das treiben, wenn Sie beispielsweise ein Profil auf Facebook haben. Facebook braucht nicht mal mehr Ihre Angaben zu Studium, Wohnort oder Geburtsjahr. Durch Ihre Freunde lässt sich auch das ausrechnen, denn tendenziell haben Sie entsprechende Freundesgruppen, die gleich alt sind (Schulfreunde), die das Gleiche studiert haben (Studienfreunde) oder das Gleiche arbeiten (Arbeitskollegen). Über deren Daten lassen sich dann auch Ihre Informationen hochrechnen. Bei E-Mail-Konten oder anderen digitalen Beziehungen ist das natürlich auch möglich.
Das Problematische daran ist unter anderem, dass Daten, die wir irgendwo angeben, für vollkommen unvorhergesehene, absolut unerwartete Berechnungen verwendet werden. Oft sind das auch Sekundärverwendungen, die nichts mit der ursprünglichen Datensammlung zu tun haben. Wenn Sie etwa Ihre Postleitzahl in einem Webshop für die Zustellung hergegeben, haben Sie nie zugestimmt, dass dadurch Ihr vermutlicher Bio-Fleisch-Konsum oder Ihre Kreditwürdigkeit errechnet werden. Wenn Sie jemanden zu Ihrem Adressbuch hinzufügen, gehen Sie nicht davon aus, dass das zur Berechnung Ihres Wohnorts verwendet werden könnte. Das ist ein vollkommen anderer Verwendungszweck, als Sie ursprünglich dachten.
Das Problem erkannten Datenschützer schon in den 1980ern. Daher wurde in unsere Datenschutzgesetze die sogenannte »Zweckbindung« eingefügt. Das bedeutet, dass Daten nur für den jeweiligen Sachzusammenhang verwendet werden sollen und nicht für irgendwas Unerwartetes. Zweckbindung hört sich etwas formalistisch an, das Konzept kennen wir aber auch im täglichen Leben: Wenn Sie zum Arzt gehen und ihm intime Informationen über Ihre Schmerzen beim Stuhlgang geben, dann erwarten Sie implizit, dass diese Informationen nur für die Behandlung verwendet werden. Sie wären empört, wenn der Arzt das am Stammtisch weitererzählt oder wenn er die Daten an ein Pharmaunternehmen weitergibt, das Ihnen eine Testpackung Hämorrhoidenzäpfchen zuschickt. Sie erwarten vollkommen logisch, dass die Information für einen bestimmten, abgeschlossenen Zweck verwendet wird.
Die Zweckbindung, die Sie beim Arzt vollkommen natürlich erwarten, gilt laut Gesetz bei allen Daten, sie wird in der Praxis jedoch weitgehend ignoriert. Unternehmen definieren entweder den Zweck so allgemein, dass ohnehin alles erlaubt ist, oder sie vergessen auf diese Beschränkung überhaupt. Damit ist dann auch sichergestellt, dass alle Daten aus allen Quellen für jeden Zweck analysiert oder verknüpft werden dürfen. Frei nach dem Motto: »Cool, die Daten haben wir eh schon!«, wird einfach alles kreuz und quer verarbeitet und verknüpft. Die Bindung an einen spezifischen Zweck gibt es oft nur am Papier.
Generell sehen wir, dass wir selbst sehr sparsam mit den Informationen sein können, die wir preisgeben. Durch zweckfremde Nutzung, Verknüpfungen mit anderen Daten, statistische Auswertungen und Analysen kann man aber schon aus ein paar wenigen Informationen sehr viel mehr hochrechnen. Diese Systeme sind in etwa soetwas wie ein informationstechnisches Perpetuum mobile. Aus Daten werden immer neue Daten generiert. Daten sind also nicht ein Mal da und liegen dann genau so auf irgendwelchen Festplatten sondern verhalten sich heute wie ein permanent nachwachsender und sich aus sich selbst vergrößernder Rohstoff. Immer größere Massen an Rohdaten, gemeinsam mit immer mehr Verknüpfungen, Analysen und Statistiken erlauben es, den Pool an Informationen aus sich selbst heraus zu vergrößern. Das ist ein Teil des Phänomens, das heute oft mit dem Schlagwort »Big Data« beschrieben wird. Der Leitsatz »Was ich nicht angebe, können sie nicht wissen« ist schon längst überholt. Heute heißt es viel eher: »Nur was sie nicht errechnen können, können sie nicht wissen«, und täglich kann man mehr hochrechnen, analysieren und verknüpfen.
Eines der Probleme dabei ist, dass diese Hochrechnungen und Verknüpfungen nur in der durchschnittlichen Masse stimmen, nicht in jedem Einzelfall. Ich habe zwar Recht studiert, würde mich aber nicht als konservativ bezeichnen. In meinem Bezirk gibt es auch Straßen, die eher nicht auf finanziell gute Bedingungen schließen lassen. Nicht alle in meiner Generation machen unbezahlte Praktika.
Die Unternehmen nehmen diese Ungenauigkeit in Kauf. Die Hochrechnungen stimmen eben bei ein paar Prozent nicht. Wenn ich aber bei 80% richtig liege, reicht das für eine Steigerung des Umsatzes oder die generell richtige Einschätzung der Kreditwürdigkeit schon aus. Wenn Sie zu den restlichen 20% gehören, ist das eben Ihr Problem. Sie müssen dann eben in einen reicheren Bezirk übersiedeln, damit alles wieder seine Richtigkeit hat. Nein, das ist kein Scherz. In einigen Ländern bringt das eine deutliche Veränderung in der Bewertung. Da sind 100 Euro mehr für die höhere Miete vielleicht ein gutes Investment.
Oft liegen diese Ungenauigkeiten auch daran, dass hier nicht logische Brücken und »Kausalitäten« berechnet werden (also zum Beispiel: wer Rechtswissenschaften studiert hat, verdient tendenziell mehr als jemand ohne Schulabschluss), sondern nur nach »Korrelationen« gesucht wird. Das bedeutet, man errechnet einfach nur, dass Faktor A mit Faktor B zusammenhängt, kümmert sich aber nicht mehr um die Frage, warum das so ist. Das ist natürlich viel einfacher und effektiver, als sich kompliziert zu überlegen, welche Zusammenhänge bestehen könnten.
So ist es auch vollkommen korrekt, wenn festgestellt wird, dass Schwarze in den USA ein höheres HIV-Risiko haben, Kinder von Migranten schlechter in der Schule sind und Frauen in gewissen Uni-Studien besser abschneiden. Das bedeutet aber nicht, dass alle Migranten doofer und alle Frauen intelligenter wären oder mehr Pigmente in der Haut HIV-Infektionen begünstigen. Für all diese Zusammenhänge gibt es irgendwelche, oft sehr komplexe Ursachen, also Kausalitäten im Hintergrund, die an hunderten Faktoren in unserer Gesellschaft liegen. Diese Kausalitäten werden bei der reinen Betrachtung von Korrelationen ausgeblendet.
Das ist natürlich kein unmittelbares Problem von Big Data. Wir Menschen tun das auch. Wir sind leider oft nicht in der Lage oder einfach zu faul, um die wahren Zusammenhänge zu erforschen und zu erkennen. Wir haben aber gleichzeitig einen inneren Drang, Zusammenhänge als Kausalitäten zu sehen und nicht als Korrelationen. Wir wollen einfache Erklärungen, auch wenn wir keine haben.
Was Menschen betrifft, sollten wir aber inzwischen wissen, dass Korrelationen nicht der Königsweg sind. Nicht alle Menschen einer Gruppe sind gleich, auch wenn vielleicht gewisse Faktoren mit der Zugehörigkeit zu einer Gruppe korrelieren. Diese Unterstellung, dass jemand »eh so wie alle anderen einer Gruppe« ist, nennen wir daher heute schlichtweg Diskriminierung. Wenn Sie einem Schwarzen sagen: »Du bist arm, weil viele Schwarze arm sind«, ist das für viele Menschen offensichtlich. Wenn Sie aber Frauen eine billigere Versicherung anbieten, weil die Gruppe »männlich« generell mehr Kosten verursacht, dann ist das schon weniger offensichtlich. Es ist aber nichts anderes: Weil viele Männer für eine Versicherung