Praktische Statistik für Data Scientists. Peter Bruce

Praktische Statistik für Data Scientists - Peter Bruce


Скачать книгу

       Standardisierung (Normierung, z-Werte)

       K festlegen

       KNN zur Merkmalskonstruktion

       Baummodelle

       Ein einfaches Beispiel

       Der Recursive-Partitioning-Algorithmus

       Homogenität und Unreinheit messen

       Den Baum daran hindern, weiterzuwachsen

       Vorhersage eines kontinuierlichen Werts

       Wie Bäume verwendet werden

       Weiterführende Literatur

       Bagging und Random Forests

       Bagging

       Random Forest

       Variablenwichtigkeit

       Hyperparameter

       Boosting

       Der Boosting-Algorithmus

       XGBoost

       Regularisierung: Überanpassung vermeiden

       Hyperparameter und Kreuzvalidierung

       Zusammenfassung

       7Unüberwachtes Lernen

       Hauptkomponentenanalyse

       Ein einfaches Beispiel

       Die Hauptkomponenten berechnen

       Die Hauptkomponenten interpretieren

       Korrespondenzanalyse

       Weiterführende Literatur

       K-Means-Clustering

       Ein einfaches Beispiel

       Der K-Means-Algorithmus

       Die Cluster interpretieren

       Die Anzahl von Clustern bestimmen

       Hierarchische Clusteranalyse

       Ein einfaches Beispiel

       Das Dendrogramm

       Der agglomerative Algorithmus

       Ähnlichkeitsmaße

       Modellbasierte Clusteranalyse

       Multivariate Normalverteilung

       Zusammengesetzte Normalverteilungen (gaußsche Mischverteilungen)

       Die Anzahl der Cluster bestimmen

       Weiterführende Literatur

       Skalierung und kategoriale Variablen

       Variablen skalieren

       Dominierende Variablen

       Kategoriale Daten und die Gower-Distanz

       Probleme bei der Clusteranalyse mit verschiedenen Datentypen

       Zusammenfassung

       Quellenangaben

       Index

       Vorwort

      Dieses Buch richtet sich an Data Scientists, die mit den Programmiersprachen R und/oder Python vertraut sind und sich bereits früher (wenn auch nur punktuell oder zeitweise) mit Statistik beschäftigt haben. Zwei der Autoren entstammen der Welt der Statistik, ehe sie sich in den weiten Raum der Data Science begeben haben, und schätzen den Beitrag, den die Statistik zur Datenwissenschaft zu leisten vermag, sehr. Gleichzeitig sind wir uns der Grenzen des traditionellen Statistikunterrichts durchaus bewusst: Statistik als Disziplin ist anderthalb Jahrhunderte alt, und die meisten Statistiklehrbücher und -kurse sind nicht gerade von Dynamik geprägt, sondern erinnern eher an die Trägheit eines Ozeanriesen. Alle Methoden in diesem Buch haben einen gewissen


Скачать книгу