Data Science. Michael Zimmer

Data Science

Geschwindigkeit, mit der die Daten generiert werden. Big Data ist daher einer der Katalysatoren für den Erfolg von Data Science. Die Unternehmen verfügen heute über viel mehr Möglichkeiten, geeignete Daten für die Datenanalyse zu verwenden. Dabei stehen sowohl interne als auch externe Daten in einer Granularität zur Verfügung, die zeitnahe und qualitativ hochwertige Auswertungen ermöglichen und für die Entscheidungsunterstützung oder gar eine Entscheidungsautomatisierung herangezogen werden können. Wie oben bereits erwähnt stehen darüber hinaus auch die notwendigen Werkzeuge in Form von Software (z.B. Frameworks wie Hadoop oder Spark) und Hardware (hier seien nur das Cloud Computing oder die Entwicklungen im GPU-Processing angesprochen) zur Verfügung, die praktisch ein »Data Science für jedermann« ermöglichen. Komplexe Operationen, deren Durchführung früher nur für eine sehr begrenzte Gruppe von Unternehmen möglich war, können heute praktisch von jedem Start-up realisiert werden.¹⁰ Da weder Daten noch Werkzeuge die Begrenzung darstellen, liegt diese jetzt im vorhandenen Know-how des Unternehmens.

Nach Mcafee und Brynjolfsson befinden wir uns im »Second Machine Age«. Dieses teilen die beiden Autoren in zwei Phasen ein. In Phase 1 des zweiten Zeitalters der Maschinen übernahmen Computer Routineaufgaben und lösten einen Produktiviätsschub in vielen Bereichen der Wirtschaft aus. Diese Phase 1 setzte gemäß den Autoren Mitte der 1990er-Jahre ein. Der Übergang zu Phase 2, in der die Maschinen lernen, wie sie selbst Problemstellungen lösen können, wird von Mcafee und Brynjolfsson auf den Beginn des zweiten Jahrzehnts dieses Jahrtausends gelegt. Sie sprechen hier von einer Initialzündung für die Phase 2 [Mcafee & Brynjolfsson 2018, S. 24 ff.]. Diese Initialzündung steht in engem Zusammenhang mit den oben beschriebenen Entwicklungen und dem damit verbundenen Durchbruch von Data Science in der Breite:

»Systeme maschinellen Lernens werden besser, je größer sie werden, wenn sie auf schnellerer und stärker spezialisierter Hardware laufen, Zugang zu mehr Daten bekommen und verbesserte Algorithmen enthalten. All diese Verbesserungen finden jetzt statt, deshalb entwickelt sich maschinelles Lernen rasant«

[Mcafee & Brynjolfsson 2018, S. 103].

Abb. 2–3 Data-Science-Pyramide

Durch die oben beschriebene Entwicklung ist es den Unternehmen nun möglich, sich weiter in Richtung »Wisdom«, also der Spitze der Pyramide, vorzuarbeiten. Dabei lässt sich eine zweite Pyramide (vgl. Abb. 2–3) heranziehen, die verdeutlicht, dass es ähnliche Abhängigkeiten auch im Falle der Werkzeuge und Techniken gibt, die auf den jeweiligen Stufen zum Einsatz kommen.¹¹ Je höher man diese Pyramide erklimmt, umso größer ist das Potenzial des Informationssystems für die Entscheidungsunterstützung. Steht zunächst das Aggregieren von Daten und die Bereitstellung von Reports im Mittelpunkt, um die Daten der verschiedenen Datenquellen zusammenzufassen, wird auf der nächsten Stufe die Datenexploration genutzt, um die Entscheidungsfindung zu unterstützen. Nach der darüberliegenden Stufe mit Machine Learning, auf der sich zahlreiche Unternehmen aktuell befinden, folgt dann die automatisierte Entscheidungsfindung, bei der der Human Factor quasi vollständig ausgeschaltet ist. In zahlreichen Bereichen wie etwa der Preisfindung oder der Beschaffung findet man solche Systeme bereits im Produktivbetrieb.¹²

2.3Vom Nebeneinander zum Miteinander

Wenn ein Unternehmen die nächste Stufe der DIKW-Pyramide erklimmt, bedeutet dies, dass das Informationssystem neben den bereits vorhandenen Systemen neue integrieren muss, die das alte nicht ablösen, sondern ergänzen sollen. Daher ist es auch im Fall von Data Science notwendig, geeignete Strukturen nicht nur seitens der Organisation (Aufbau, Prozesse) zu schaffen. Auch hinsichtlich der Architektur des Informationssystems muss Entwicklungsarbeit geleistet werden.¹³

In den meisten Unternehmen steht im Zentrum des BI-Informationssystems nach wie vor ein auf einer relationalen Datenbank basierendes Data Warehouse, das über viele Jahre hinweg auf- und ausgebaut wurde. Trotz aller Entwicklungen über die vergangenen 10 Jahre rund um die Themen Big Data, NoSQL und verteilte Systeme ist davon auszugehen, dass diese traditionelle Umgebung der Informationssysteme mittelfristig bestehen bleiben wird. Daneben entwickelte sich auf der Basis der angesprochenen Themen und mit Data Science eine neue Welt, die in zunehmendem Maße ebenfalls wichtige Informationen generiert und Entscheidungen unterstützt.

Waren die beiden Welten jedoch bis vor wenigen Jahren noch architektonisch getrennt, wachsen sie derzeit immer stärker zu einem ganzheitlichen Analytics-Ökosystem zusammen. Dies ist auch die Folge einer zunehmenden Nutzung von Data Science im Produktivbetrieb. Data Science hat mittlerweile den Sprung aus dem Experimentierlabor herausgeschafft und etabliert sich verstärkt als wichtiger Bestandteil im System der Unternehmenssteuerung. Dabei dürfte auch die von der GI formulierte Unterscheidung zwischen BI und Big Data schon heute als überholt gelten. Die GI definiert als ein Unterscheidungsmerkmal:

»Business Intelligence Lösungen setzen auf traditionelle Datenbanksysteme wie relationale Datenbanken, wohingegen Big Data Lösungen auf neuen Konzepten wie zum Beispiel Not Only SQL (NoSQL) Datenbanken oder dem Hadoop Framework basieren […].« ¹⁴

Quelle: Marschall/Baars (2017)

Abb. 2–4 Die Pi-Architektur nach [Marschall & Baars 2017]

Mit den neuen Architekturen, die traditionelle BI-Systeme mit den neuen Ansätzen der Analytics-Welt vereinen, geht nicht nur die qualitative Verbesserung des Informationssystems einher. Ein weiterer im Unternehmensumfeld wichtiger Aspekt ist die Erhöhung der Agilität. Durch die Nutzung von Data Lakes als weiterer Datenhaltungskomponente oder Konzepten wie einem Data Vault können sowohl die bisherigen BI-Anforderungen als auch die neuen Analytics-Herausforderungen gemeistert werden. Ein klassisches Reporting wird ebenso unterstützt wie ein Stream Processing oder Data-Science-Analysen. Eine mögliche Ausprägung dieser neuen Architekturen ist in Abbildung 2–4 dargestellt. Marschall und Baars schlagen hierbei ein Enterprise Data Reservoir im Rahmen der von ihnen entwickelten Pi-Architektur vor [Marschall & Baars 2017]. Für Kelleher und Tierney stellt das existierenden Data Warehouse eines Unternehmens dabei eine natürliche erste Wahl als Datenquelle für Data-Science-Analysen dar. Die bereits bereinigte Datenbasis im Data Warehouse ist geeignet, um die Projektlaufzeiten für Data-Science-Projekte deutlich zu reduzieren:

»[…] a data warehouse is a powerful resource for data science. From a data science perspective, one of the major advantages of having a data warehouse in place is a much shorter project time. […] If a data warehouse is available in a company, then the effort and time that go into data preparation on individual data science projects is often significantly reduced.«

[Kelleher & Tierney 2018, S. 73]

Die angesprochenen neuen Architekturen führen zu einer hybriden Business Intelligence, die einerseits aus dem bekannten, in der Regel auf einem RDBMS beruhenden Teil besteht, der zumeist über die vergangenen 10–20 Jahre im Unternehmen aufgebaut wurde. Im Rahmen der Erweiterung des Informationssystems um moderne analytische Komponenten und Werkzeuge, bei denen vor allem die Nutzung von Data Science im Mittelpunkt steht, muss zu einem gewissen Zeitpunkt der Aufbau der oben skizzierten neuen Struktur erfolgen. Damit erhalten wir ein Informationssystem, das sich, in Anlehnung an HOLAP, als Hybrid BI bezeichnen lässt.¹⁵ Relationale und NoSQL-Datenbank koexistieren in dieser Struktur, die ein revisionssicheres Reporting ebenso ermöglicht wie agile Ad-hoc-Analysen oder das Arbeiten in Analytics Labs. Kelleher und Tierney sprechen in diesem Kontext auch von einer hybrid database:

Скачать книгу