Data Science. Michael Oettinger
Michael Oettinger
Data Science
Eine praxisorientierte Einführung im Umfeld von Machine Learning, künstlicher Intelligenz und Big Data - 2., erweiterte Auflage
© 2020 Michael Oettinger
Verlag & Druck: tredition GmbH, Halenreie 40-44, 22359 Hamburg
978-3-347-06950-3 (Paperback)
978-3-347-06951-0 (Hardcover)
978-3-347-06952-7 (e-Book)
Das Werk, einschließlich seiner Teile, ist urheberrechtlich geschützt. Jede Verwertung ist ohne Zustimmung des Verlages und des Autors unzulässig. Dies gilt insbesondere für die elektronische oder sonstige Vervielfältigung, Übersetzung, Verbreitung und öffentliche Zugänglichmachung.
Inhalt
1 Einleitung
2 Daten bereitstellen
2.1 Flatfiles
2.2 Relationale Datenbanksysteme
2.3 Data-Warehouse
2.4 NoSQL
2.5 Hadoop/Spark
2.6 Cloud-Computing
3 Daten analysieren
3.1 Programmiersprachen
3.2 Data-Science-Plattformen
3.3 Machine-Learning-Bibliotheken
3.4 Cloud-Angebote
3.5 Entscheidungshilfe für die Softwareauswahl
4 Verfahren der Datenanalyse
4.1 Begriffe
4.2 Datentypen und Skalentypen
4.3 Einordnung der Verfahren
4.4 Analyseverfahren – Machine-Learning-Algorithmen
4.5 Auswahl des richtigen Verfahrens
5 Vorgehensmodell für ML-Projekte
5.1 Vorgehensweise – Methode
5.2 Modell-Management
5.3 Deployment
6 Anwendungsfälle – Use-Cases
6.1 Use Cases nach Branchen
6.2 Beschreibung einzelner Use Cases
7 Abschluss
8 Informationsquellen
Autor
Literaturverzeichnis
Stichwortverzeichnis
1 Einleitung
Das Thema Data-Science wird häufig diskutiert. Seit der ersten Auflage dieses Buches im Jahr 2017 hat sich an diesem Trend wenig verändert.
Data-Scientisten (m/w/d) erfahren eine steigende Nachfrage auf dem Job-Markt, da immer mehr Unternehmen ihre Analytics-Abteilungen auf- bzw. ausbauen und hierfür entsprechende Mitarbeiter suchen. Hier stellt sich die Frage, worin eigentlich der Tätigkeitsbereich eines Data-Scientisten besteht.
Das Aufgabenfeld ist nicht eindeutig definiert und reicht über künstliche Intelligenz, Machine-Learning, Data-Mining, Python-Programmierung und Big Data.
Das Thema wird auch außerhalb der Unternehmen zunehmend wahrgenommen und diskutiert. Oft ist der Diskurs geprägt von einer Mischung aus Unwissenheit, Ignoranz und Ängsten, vor allem, was künstliche Intelligenz angeht.
Das Spektrum der Meinungen reicht dabei von Weltuntergang bis Weltrettung. Viele warnen vor den Gefahren, die sich aus der unkontrollierten Nutzung von Daten und den Möglichkeiten der künstlichen Intelligenz ergeben. Unternehmen wie Google und Facebook sind Datenkraken, die ihre unvorstellbar großen Datenschätze mit intelligenten Verfahren auswerten, um damit unser Verhalten in ihrem Sinne beeinflussen und letztendlich auch über unser Leben bestimmen zu können. Autos fahren zukünftig autonom und intelligente Roboter werden unsere Sprache verstehen, selbständig intelligente Entscheidungen treffen und uns die Arbeitsplätze wegnehmen.
Auf der anderen Seite werden unvorstellbare Wunderszenarien mit „rosa Farben“ an die Wand gemalt. Durch die Analyse von Daten können zukünftig künstliche Ärzte Krankheiten ausrotten, Verkehrsflüsse werden ohne Stau organisiert und der intelligente Kühlschrank wird sich automatisch selbst füllen, da er genau weiß, was wir benötigen.
Die Wahrheit liegt irgendwo in der Mitte, wobei es nicht wirklich die Mitte ist. Denn einerseits werden die Möglichkeiten und Fähigkeiten der eingesetzten Verfahren – meist aus Unwissenheit – völlig überschätzt. Ein künstliches neuronales Netz ist nichts Weiteres als ein relativ einfaches mathematisches Verfahren, das noch meilenweit von den Fähigkeiten eines echten neuronalen Netzwerkes mit dem Namen Gehirn entfernt ist. Deep Learning mit dem Computer ist dem Lernen eines Zweijährigen in vielen Aspekten so unterlegen, dass der Begriff Lernen eigentlich irreführend ist. In anderen Aspekten ist der Computer aber mit seinen Fähigkeiten dem Menschen weit überlegen. Viele der Potenziale, die sich daraus ergeben, sind noch ungenutzt.
Mit diesem Buch soll das Themengebiet – praxisorientiert – auf den Boden der Realität geholt werden. Es geht um Data-Science. Dabei handelt es sich zwar auch um eine Wissenschaft, aber vor allem um betriebliche Praxis. Es geht um den Aufgabenbereich eines Data-Scientisten. Spätestens, als das Harvard Business Review im Oktober 2012 Data-Science als „The Sexiest Job of the 21st Century“ ausrief, stieg das Interesse an dem Aufgabenfeld stark an.1 Der Job eines Data-Scientisten ist es, aus großen Datenmengen Informationen zu generieren und Handlungsempfehlungen abzuleiten, die das Unternehmen befähigen, effizienter zu arbeiten. Dazu werden technische Hilfsmittel (Datenbanken, Analysesoftware) und theoretische Verfahren (Machine-Learning, Data-Mining, statistische Verfahren etc.) eingesetzt.
Ein Data-Scientist kann mit riesigen Datenmengen umgehen und einen möglichst großen Nutzen daraus ziehen. Das bedeutet, dass eine Mischung aus
• aktuellem, technischen/IT-Wissen,
• fundierten Kenntnissen der mathematisch-statistischen Verfahren,
• Domänenwissen über das fachliche Umfeld des Arbeitgebers/Auftraggebers
• und kommunikativen Fähigkeiten
vorhanden sein muss. Es handelt sich um ein modernes Einhorn: ein Data-Geek mit Managementqualitäten.
Im vorliegenden Buch soll ein aktueller Überblick darüber gegeben werden, was die Wissenschaft Data-Science und der Beruf Data-Scientist umfassen. Es soll ein Beitrag geleistet werden, der die Diskussion versachlicht und dazu anregt, das große Potenzial maschinellen Lernens vermehrt in der unternehmerischen Praxis zu nutzen. Es entsteht der Eindruck, dass viele Aktivitäten in Unternehmen noch zu stark auf Randgebiete beschränkt sind (es geht z. B. um die Bereitstellung der Technik oder um Diskussionen, was gewollt und was erlaubt ist), während die tatsächlichen „Erkenntnisgewinnungsprojekte“ viel zu kurz kommen.
Es lässt sich die Frage stellen, ob es nicht fahrlässig ist, wenn Unternehmen und Organisationen bewährte Verfahren und Technologien nicht einsetzen. Beispielhaft auf das Gesundheitswesen angewendet, sieht die Problematik wie folgt aus:
Ist es unterlassene Hilfeleistung mit Todesfolge, wenn Gesundheitsdaten nicht analysiert werden? Das ist zugegebenermaßen eine sehr provokante These. Aber im Kern geht es darum, dass es zahlreiche Beispiele gibt, in denen nachgewiesenermaßen durch die Analyse von Gesundheitsdaten Kosten gespart, Krankheitsbehandlungen optimiert und letztendlich Todesfälle verhindert werden können (siehe Abschnitt 6.2.4).
Es ist eben bequemer, sich auf die Schwierigkeiten der Datenbeschaffung, die restriktiven Datenschutzregelungen oder auf technische Engpässe zu