Data Science. Michael Zimmer
ist vor allem die Bearbeitung von Daten mit Qualitätsmängeln nach wie vor aufwendig.
Gerade diesem Phänomen begegnet man auch im Zusammenhang mit Data Science wieder. Auch hier ist zu beobachten, dass die grundlegende Bedeutung der Data Preparation zu Beginn eines Projekts oder wenn ein Unternehmen plant, Data Science einzuführen, nicht erkannt und oftmals der damit zusammenhängende Arbeitsaufwand unterschätzt wird. Statistiken zufolge verwenden Data Scientists in der Praxis bis zu 80% ihrer Zeit für das Vorbereiten der Daten, also das Sammeln, Bereinigen und Organisieren der Daten. Kelleher und Tierney stellen dazu treffenderweise fest:
»But the simple truth is that no matter how good your data analysis is, it won’t identify useful patterns unless it is applied to the right data.«
[Kelleher & Tierney 2018, S. 67]
Auf die Möglichkeiten, wie man der Data Science die notwendigen Daten oder Datenzugriffe im Unternehmen ermöglicht, wird später in Kapitel 9 näher eingegangen.
Don’t be too fast
Benutzerfreundliche Tools mit grafischen Oberflächen ermöglichen es heute auch Einsteigern, relativ schnell erste Erfahrungen im Bereich Data Science zu sammeln und Modelle zu erstellen. Dieser leichte Zugang zu den Möglichkeiten der Data Science ist Segen und Fluch zugleich. Einerseits werden Berührungsängste mit der durchaus komplexen neuen Materie für viele potenzielle Nutzer abgebaut. Andererseits benötigt man eine hohe Fachkompetenz, um den richtigen Algorithmus für den jeweiligen Use Case auszuwählen, die Ergebnisse zu interpretieren und das geeignete Data Set zu erstellen. Die Feststellung »In fact, it has never been easier to do data science badly«5 ist daher ohne Zweifel richtig. Ein Modell zu erstellen ist mit den heutigen Werkzeugen nicht schwer. Schwierig hingegen ist es, die Güte des Modells zu bewerten und Verbesserungspotenziale zu erkennen.
Ähnliches kennt man aus der Business Intelligence. Die Kunst, die Daten so abzulegen, dass auch bei einem zunehmenden Datenbestand immer noch performant die Anfragen abgearbeitet werden können und dabei die Informationsbedürfnisse der Nutzer befriedigt werden, ist wichtiger als ein schönes buntes Dashboard, das den Datenzugriff erleichtert. Gerade angesichts der, wie sich herausstellte, mangelhaften Agilität der klassischen Modellierungskonzepte war es umso wichtiger, ein nachhaltig tragfähiges Modell zu entwickeln und nicht in einem ersten Wurf einfach ein paar Datenwürfel für Pilotanwender bereitzustellen. In diese Falle sind jedoch zahlreiche Unternehmen hineingelaufen und wurden später mit entsprechendem Mehraufwand dafür bestraft.
Die unterschätzte Bedeutung der Informationsbedarfsanalyse
Wer will was, wann und in welcher Form wissen? Diese und weiter gehende Fragen müssen sowohl beim Aufbau eines Data Warehouse als auch bei Data Science gestellt werden. Dennoch gehört gerade die Informationsbedarfsanalyse häufig zu den vernachlässigten Phasen beim Aufbau von Informationssystemen. Letztlich ist dieser Punkt eng mit dem vorhergehenden verbunden. Gerade weil es so leicht ist, einen Cube für die Analyse in einem Fachbereich aufzubauen oder eben mittels eines Algorithmus oder einer Regression schnell zu – augenscheinlich – neuen Erkenntnissen im Fachbereich zu kommen, geht man oftmals zu schnell über den Schritt der Informationsbedarfsanalyse hinweg. Doch gerade über diesen Schritt gelingt es nicht nur das Informationssystem passgenau zu entwickeln, sondern es wird auch die nicht geleistete Arbeit maximiert, indem man Reports oder Analysen gerade nicht erstellt, die der Endnutzer eigentlich nicht will oder benötigt.6
Auf dem Gebiet Data Science ist daher eine domänenspezifische Expertise unabdingbar. Nur dann kann der Data Scientist gemeinsam mit dem Fachbereich Fragestellungen ermitteln, die durch seine Modelle zu neuen und wertschöpfenden Erkenntnissen führen. Die im Bereich Data Science vorzufindenden Vorgehensweisen stellen zwar keine Informationsbedarfsanalyse im klassischen Sinn dar, doch sind die Funktionen und Effekte durchaus ähnlich.
Neue organisatorische Strukturen, Regelungen und Rollen
Erst lange nachdem BI effektiv in den Unternehmen angekommen war und nachdem sich der Staub, der durch die ersten Einführungen und die damit verbundenen Herausforderungen aufgewirbelt worden war, gelegt hatte, wurden Themen wie die organisatorische Eingliederung von BI oder auch die hierfür notwendigen Rollen und Regeln diskutiert. Das Business Intelligence Competency Center, kurz BICC, das sich in unterschiedlichen Ausprägungen in zahlreichen Unternehmen durchgesetzt hat, ist eine Folge der Erkenntnis, dass man für eine koordinierte Steuerung der operativen und strategischen Prozessabläufe rund um BI ein ganzheitliches Konzept benötigt. Das BICC definiert die Rollen und Prozesse mit dem Ziel, die Entscheidungsfindung im Unternehmen nachhaltig zu verbessern.7
Data Science befindet sich diesbezüglich noch auf der Suche. Dennoch wird bereits deutlich, dass die Unternehmen verstärkt danach streben, Data Science mithilfe geeigneter Strukturen im Wertschöpfungsprozess zu etablieren. Ob am Ende dieser Suche ein erweitertes BICC stehen wird oder aber vollkommen neue Konzepte wie etwa ein ACC (Analytics Competence Center), kann aus heutiger Sicht noch nicht abschließend geklärt werden. Die Zeiten, in denen Data Scientists vollkommen unabhängig von den sonstigen am Produktivbetrieb beteiligten Fachabteilungen arbeiten konnten, quasi ihren eigenen Regeln folgend, dürften jedoch vorbei sein. Data Science wird zunehmend »industrialized«, also in den Produktivbetrieb integriert. Verschiedene organisatorische Konzepte werden dabei aktuell getestet. Vom Etablieren einer zentralen Data Science Unit im Unternehmen über das »Verleihen« von Data Scientists an Fachabteilungen bei Bedarf bis hin zum Aufbau einzelner Data-Science-Teams in den Fachabteilungen werden unterschiedliche Ansätze diskutiert. Es bleibt abzuwarten, welche Lösungsansätze sich bewähren werden. Sicher ist jedoch, dass es in diesem Umfeld mehr Regeln und mehr klar definierte Rollen geben wird als bisher.
Die vorangegangenen Punkte zeigen, dass sich Data Science/Advanced Analytics durchaus an den in der Business Intelligence gemachten Erfahrungen orientieren kann. Zahlreiche Parallelen legen dies nahe. Daher sollten sich die Unternehmen, die sich mit der Idee beschäftigen, Data Science zu nutzen, auf ihre BI-Erfahrungen besinnen, um auf diese Weise die Einführung und Nutzung effizient zu gestalten. Viele der kurz angesprochenen Aspekte werden im Verlauf des Buches in den folgenden Kapiteln noch vertieft.
2.2Die DIKW-Pyramide erklimmen
»Where is the wisdom we have lost in knowledge?
Where is the knowledge we have lost in information?«
T. S. Eliot (1934)8
Bereits in diesem bekannten Zitat des Literaturnobelpreisträgers T. S. Eliot klingen die Beziehungen an, die 50 Jahre später von Ackhoff und anderen im sogenannten DIKW-Modell populär gemacht wurden. Dieses stellt die Zusammenhänge von Daten, Information, Wissen und Weisheit auf. Datenanalyse wird zwar schon seit Jahrhunderten betrieben, aber dennoch haben die konzeptionellen und technologischen Fortschritte der vergangenen 20 Jahre dem Bereich eine neue Bedeutung, eine neue Sichtbarkeit und natürlich eine neue Qualität ermöglicht.
Abb. 2–2 Die klassische DIKW-Pyramide
Die Darstellung der DIKW-Hierarchie findet sich oft in Form einer Pyramide, womit vereinfacht gezeigt werden soll, dass die einzelnen Schichten aufeinander aufbauen und man stufenweise vorgehen muss.9 Die Komplexität der zu verwendenden Modelle nimmt dabei zur Pyramidenspitze hin zu. Die in vielen Darstellungen nicht zu sehende unterste Schicht stellt die reale Welt dar, die auf der nächsten Ebene über die Daten beschrieben wird. Den eigentlichen Datenlieferanten stellt also die reale Welt dar. Hier ist festzustellen, dass es in den vergangenen 20 Jahren massive Veränderungen gegeben