Praktische Statistik für Data Scientists. Peter Bruce
Standardisierung (Normierung, z-Werte)
Der Recursive-Partitioning-Algorithmus
Homogenität und Unreinheit messen
Den Baum daran hindern, weiterzuwachsen
Vorhersage eines kontinuierlichen Werts
Regularisierung: Überanpassung vermeiden
Hyperparameter und Kreuzvalidierung
Die Hauptkomponenten berechnen
Die Hauptkomponenten interpretieren
Die Anzahl von Clustern bestimmen
Zusammengesetzte Normalverteilungen (gaußsche Mischverteilungen)
Die Anzahl der Cluster bestimmen
Skalierung und kategoriale Variablen
Kategoriale Daten und die Gower-Distanz
Probleme bei der Clusteranalyse mit verschiedenen Datentypen
Vorwort
Dieses Buch richtet sich an Data Scientists, die mit den Programmiersprachen R und/oder Python vertraut sind und sich bereits früher (wenn auch nur punktuell oder zeitweise) mit Statistik beschäftigt haben. Zwei der Autoren entstammen der Welt der Statistik, ehe sie sich in den weiten Raum der Data Science begeben haben, und schätzen den Beitrag, den die Statistik zur Datenwissenschaft zu leisten vermag, sehr. Gleichzeitig sind wir uns der Grenzen des traditionellen Statistikunterrichts durchaus bewusst: Statistik als Disziplin ist anderthalb Jahrhunderte alt, und die meisten Statistiklehrbücher und -kurse sind nicht gerade von Dynamik geprägt, sondern erinnern eher an die Trägheit eines Ozeanriesen. Alle Methoden in diesem Buch haben einen gewissen