Predictive Analytic und die Haftung für fehlerhafte Ergebnisse gegenüber betroffenen Einzelpersonen. Susanne Mentel
Bezug zu einer Person entfalten. Letztere können entweder vormals personenbezogene Daten sein, die in anonymisierter Form der Analyse zugrunde gelegt werden,121 als auch solche, die von vorneherein keinen Personenbezug aufweisen, wie z.B. allgemeine Verkaufszahlen, Wetterdaten oder auch Maschinendaten für Predictive Analytic zur vorhersagenden Wartung. Der Aussage, Predictive Analytic sei eine Mustererkennung, die ausschließlich auf nicht-personenbezogenen Daten beruhe, ist dagegen nicht zuzustimmen.122 Zwar werden gerade im Zeitalter von Big Data häufig massenhaft generierte Daten verwendet, die oftmals keinen Bezug zu einer einzelnen Person aufweisen. Die Verwendung von personenbezogenen Daten ist dadurch jedoch nicht ausgeschlossen. Von dieser Erkenntnis zu trennen ist die Möglichkeit, auch aus nicht-personenbezogenen Daten ein neues, personenbezogenes Datum zu erstellen. Selbst bei der Verwendung ausschließlich nicht-personenbezogener Daten kann das Ergebnis einer Predictive Analytic Rückschlüsse auf einzelne Personen ermöglichen. Deshalb hat die Aussage, wonach eine Predictive Analytic in der Lage sei, ein neues personenbezogenes Datum zu schaffen, durchaus ihre Berechtigung.123 Veranschaulicht werden kann diese Art der Datengenerierung durch die Predictive Analytic der Supermarktkette Target in den USA.124 Die zu Marketingzwecken generierte Vorhersage, nach der eine bestimmte Kundin mit hoher Wahrscheinlichkeit schwanger war, bestätigte sich im Nachhinein. Das Bestehen einer Schwangerschaft ist ohne Zweifel ein personenbezogenes Datum. Dieses wurde im Target-Fall aber nicht durch die Kundin selbst Preis gegeben, sondern durch die Predictive Analytic erstellt. Die Predictive Analytic war damit in der Lage, im Ergebnis ein neues personenbezogenes Datum herzustellen.
6. Struktur
Für Analysen verwendbare Daten können sowohl strukturierter als auch unstrukturierter Natur sein. Strukturierte Daten sind oftmals Kunden- und Stammdaten, die durch das Unternehmen selbst erhoben und gespeichert wurden. Sie werden nicht selten direkt durch den Kunden in dafür vorgesehene Formulare eingegeben und dann in Form eines relationalen Datenbanksystems in Zeilen und Spalten in die Unternehmensdatenbank abgelegt.125 Ein Großteil der Analysedaten liegt dagegen nicht in einer derart aufbereiteten Form vor, sondern muss erst strukturiert werden, bevor die Daten einer Analyse zugänglich sind. Dies ist der Fall bei Daten, die aus öffentlich zugänglichen Datenbanken stammen sowie bei Emails, Blogs, Feeds aus sozialen Netzwerken oder Daten, die von Geräten oder Sensoren generiert werden. Es darf davon ausgegangen werden, dass unstrukturierte Daten heute den größeren Anteil an Unternehmensdaten darstellen.126
7. Verfügbarkeit
Analysedaten können sowohl in unternehmenseigenen Datenbanken gespeichert sein als auch, wie soeben festgestellt, aus zahlreichen externen Quellen stammen. Unternehmenseigene Daten sind heutzutage nicht mehr nur auf der Festplatte eines Rechners oder auf einem firmeneigenen Server gespeichert. Eine weitere Möglichkeit, die gerade in den letzten Jahren zunehmend an Bedeutung gewonnen hat, ist, die Daten über die Cloud als Speicherplatz im Internet abzurufen. Durch sog. Cloud-Plattformen können intern und extern verfügbare Daten auch miteinander verknüpft werden. Dabei besteht sowohl die Möglichkeit, bestehende Datenbanken mit externen Datenbanken zu verbinden und auf dem eigenen Speichermedium zu analysieren als auch der Weg, Analysen und Vorhersagen direkt in der Cloud und damit auf den dort gespeicherten Daten zu generieren.127
II. Verortung der Analyse-Software
Es existieren verschiedene Software-Konzepte für die Anwendung von Predictive Analytic. Die Analysen können zum einen über die Abspeicherung einer Software-Version auf den Rechnern und Servern des nutzenden Unternehmens generiert werden (sog. On-Premise-Lösung). Zum anderen kann die Software auch ohne Kopie auf dem eigenen Rechner über einen cloudbasierten Service eines externen Rechenzentrums (sog. On-Demand-Lösung) genutzt werden.128 Oft taucht hierfür auch der Begriff „Software as a Service“ auf. Die unmittelbare Analyse in der Cloud-Datenbank spart im Vergleich zu bisherigen Verfahren vor allem Arbeitsschritte. Vor der Entwicklung aktueller Software-Konzepte mussten Daten zunächst aus der sie speichernden Datenbank in eine separate Analyse-Software extrahiert werden, um dort dann analysiert werden zu können. Eine Weiterentwicklung stellte die später verwendete Methode dar, nach welcher die zu analysierenden Daten lediglich im Arbeitsspeicher eines Rechners gespeichert wurden (sog. In-Memory-Datenbanken) und in einem zweiten Schritt dort auch direkt analysiert werden konnten. Diese Methode ermöglichte höhere Geschwindigkeiten und wird ebenfalls noch von verschiedenen Anbietern angeboten.129 Bereits angesprochen wurde auch die zusätzliche Möglichkeit, Predictive Analytic-Software als Analysetool unmittelbar in ERP- oder CRM-Datenbanken zu integrieren oder auch in anderweitigen Datenbanken mittels sog. In-Database-Processing Analysen direkt auf den gepeicherten Daten zu generieren.
III. Strukturierung, Aufbereitung und Datenbewertung
Bevor Daten analysiert werden können, müssen sie in einem ersten Schritt einer Analyse zugänglich gemacht werden. Für eine breite Basis an Ausgangsdaten empfiehlt es sich, Daten unterschiedlichster Herkunft zu verwenden. Dies hat zur Folge, dass sowohl strukturierte als auch unstrukturierte Daten gemeinsam verarbeitet werden müssen. Nachdem eine Vielzahl der für Predictive Analytic verwendeten Daten unstrukturiert vorliegt,130 die meisten Datenanalyseverfahren aber nur strukturierte Daten akzeptieren, müssen diese zunächst aus ihren Quellen extrahiert werden.131 Dieser Aspekt macht den ersten erforderlichen Schritt auf dem Weg zu einer Vorhersage deutlich: die Daten müssen bearbeitet und einer einheitlichen Form zugeführt werden. Dieser Vorgang wird meist in einem eigenen Arbeitsgang den Analysen vorgelagert sein. Es existiert jedoch auch bereits Analyse-Software, die in der Lage ist, Daten unterschiedlichster Struktur zu vereinheitlichen und direkt im Anschluss zu analysieren.132 Es ist also durchaus möglich, den Schritt der Strukturierung und Aufbereitung der Daten in die Software zu integrieren, in der die Daten später analysiert werden.133 Der Prozess der Aufbereitung und Vereinigung von unterschiedlich strukturierten Datenquellen innerhalb einer Datenbank wird als ETL, stehend für „Extract, Transform, Load“, bezeichnet.134 Die Datenvorbereitung ist einer der zeitintensivsten Faktoren und kann bis zu 70-80 % der Arbeitszeit eines Data Scientists betragen.135
IV. Data Mining und Klassifizierung
Eine Möglichkeit, einen Nutzen aus großen Datenmengen zu ziehen, ist das sog. Data Mining. In der Literatur wird der Begriff Predictive Analytic häufig mit dem des Data Mining vermischt. Eine klare Abgrenzung wird vor allem dadurch erschwert, dass die Methodik des Data Mining oft ein wesentlicher Bestandteil einer Predictive Analytic ist.136 Das Erkennen von Zusammenhängen, Mustern und Korrelationen ist Voraussetzung einer jeden Predictive Analytic-Anwendung.137 Data Mining kann dabei eine wichtige Rolle spielen. Der Begriff lässt sich frei aus dem Englischen mit Daten-Bergbau übersetzen. Dieser sperrig anmutende Begriff erschließt sich historisch dahingehend, dass Daten vor dem digitalen Zeitalter schwer zu sammeln und zu verarbeiten waren.138 Bereits 1997 wurde unter der Bezeichnung CRISP-DM (Cross Industry Standard Process for Data Mining) ein Standardprozess für Data Mining entwickelt.139 Der Vorteil heutiger Datenanalyse-Verfahren liegt vor allem in der fortgeschrittenen Technik bei der Erfassung, Verarbeitung und Auswertung der Daten. Demzufolge ist die Größe der zu analysierenden Daten sowie die Anzahl der überprüften Muster nahezu unbegrenzt. Durch Data Mining können verwandte Strukturen erkannt und einander zugeordnet werden. Die Software erfasst in diesem ersten Schritt alle Daten und untersucht sie auf Ähnlichkeiten. Weisen sie gleichartige Merkmale auf, werden sie einer gewissen Gruppe (sog. Cluster) zugewiesen. Bereits auf dieser Stufe des Predictive Analytic-Prozesses können Erkenntnisse über die in einer Gruppe zusammengefassten Personen abgeleitet werden. So kann das in der TV-Branche praktizierte Clustering, welches Haushalte danach einteilt, welches Fernsehprogramm sie einschalten, bereits zu einer Erkenntnis über das durchschnittliche Alter dieses Haushaltes führen: Die einfache Einteilung danach, welches Programm in welchem Haushalt gesehen wird, kann schon ein Muster beinhalten. Dieses gilt es in einem nächsten Schritt auf die Zukunft zu übertragen. Erst mit