Praktische Statistik für Data Scientists. Peter Bruce

Praktische Statistik für Data Scientists - Peter Bruce


Скачать книгу
bekannt. Die Schiefe bezieht sich darauf, ob die Daten zu größeren oder kleineren Werten verzerrt sind, und die Wölbung gibt die Tendenz der Daten zu Extremwerten an. In der Regel werden Metriken zur Messung von Schiefe und Wölbung nicht herangezogen; stattdessen werden diese durch Visualisierungen wie die in den Abbildungen 1-2 und 1-3 erkundet.

       Dichtediagramme und -schätzer

      Eng verwandt mit dem Histogramm ist das Dichtediagramm, das die Verteilung der Datenwerte in Form einer durchgängigen Linie zeigt. Ein Dichtediagramm kann man sich als geglättetes Histogramm vorstellen, wobei es jedoch normalerweise direkt aus den Daten durch eine Kerndichteschätzung berechnet wird (siehe [Duong-2001] für ein kurzes Einführungsbeispiel). Abbildung 1-4 stellt ein Histogramm dar, das von einer Dichteschätzung überlagert ist. In R können Sie eine Kerndichteschätzung mithilfe der Funktion +density()+ vornehmen:

      hist(state[['Murder.Rate']], freq=FALSE)

      lines(density(state[['Murder.Rate']]), lwd=3, col='blue')

      pandas bietet ebenfalls eine density-Methode zur Erstellung eines Dichtediagramms. Mit dem Argument bw_method steuern Sie die Glättung der Dichtekurve:

      ax = state['Murder.Rate'].plot.hist(density=True, xlim=[0,12], bins=range(1,12))

      state['Murder.Rate'].plot.density(ax=ax) image

      ax.set_xlabel('Mordrate (pro 100.000)')

      1 In den plot-Funktionen können Sie meist ein optionales Argument (ax) bereitstellen, das bewirkt, dass die Abbildung in dasselbe Diagramm eingezeichnet wird.

      Ein wesentlicher Unterschied zu dem Histogramm, das in Abbildung 1-3 gezeigt wird, besteht in der Skalierung der y-Achse: Ein Dichtediagramm entspricht der Darstellung des Histogramms, das einen relativen Anteil wiedergibt, und keine Absolutwerte (Anzahl bzw. Häufigkeit; Sie geben dies in R mit dem Argument freq= FALSE an). Beachten Sie, dass die Gesamtfläche unter der Dichtekurve 1 beträgt, und anstelle der Klassenanzahl berechnen Sie hierbei Flächen, die unterhalb der Kurve zwischen zwei beliebigen Punkten auf der x-Achse liegen, die dem relativen Anteil der zwischen diesen beiden Punkten liegenden Verteilung zur Gesamtverteilung entspricht.

       Abbildung 1-4: Die geschätzte Dichtefunktion für die Mordraten aller Bundesstaaten

image Dichteschätzung Die Dichteschätzung ist ein weitreichendes Thema mit einer langen Geschichte in der statistischen Literatur. Tatsächlich wurden über 20 R Pakete veröffentlicht, die Funktionen zur Dichteschätzung bereitstellen. [Deng-Wickham-2011] geben einen umfassenden Überblick über die verschiedenen Implementierungen in R, wobei sie insbesondere die Pakete ASH und KernSmooth empfehlen. Auch pandas und scikit-learn bieten hervorragende Methoden zur Dichteschätzung. Für viele datenwissenschaftliche Fragestellungen braucht man sich über die verschiedenen Arten von Dichteschätzern keine Gedanken zu machen; es genügt meist, die Basisfunktionen zu verwenden.

       Kernideen

       In einem Histogramm werden die Häufigkeit der Beobachtungen auf der y-Achse und die jeweiligen Variablenwerte auf der x-Achse abgetragen. Es vermittelt auf einen Blick einen Eindruck von der Datenverteilung.

       Eine Häufigkeitstabelle entspricht der tabellarischen Darstellung der in einem Histogramm dargestellten Häufigkeiten.

       Ein Box-Plot – bei dem der obere Rand der Box beim 75%- und der untere beim 25%-Perzentil liegen – vermittelt ebenfalls einen schnellen Überblick über die Datenverteilung; er wird oft nebeneinander dargestellt, um Verteilungen zu vergleichen.

       Ein Dichtediagramm ist eine geglättete Version eines Histogramms; es erfordert eine Funktion zur Schätzung der Kurve auf Grundlage der Daten (wobei natürlich mehrere Schätzverfahren möglich sind).

       Weiterführende Literatur

       Ein Professor der SUNY Oswego hat eine Schritt-für-Schritt-Anleitung zum Erstellen eines Box-Plots (https://oreil.ly/wTpnE) zur Verfügung gestellt.

       Die verschiedenen in R zur Verfügung stehenden Ansätze zur Dichteschätzung werden in Henry Dengs und Hadley Wickhams Artikel (https://oreil.ly/TbWYS) »Density estimation in R« behandelt.

       In dem Blog »R-Bloggers« finden Sie einen hilfreichen Beitrag zur Erstellung von Histogrammen in R (https://oreil.ly/Ynp-n), der auch Anpassungselemente wie die Einteilung in Klassen (Binning) bzw. die Auswahl der Klassengrenzen (engl. Breaks) erläutert.

       Das Blog hält auch einen ähnlichen Blogbeitrag zu Box-Plots in R (https://oreil.ly/0DSb2) bereit.

       Matthew Conlen hat eine interaktive Webpräsentation (https://oreil.ly/bC9nu) veröffentlicht, die die Auswirkungen der Wahl verschiedener Kerne und Bandbreiten auf die Kerndichteschätzer demonstriert.

       Binäre und kategoriale Daten untersuchen

      Bei kategorialen Daten genügen einfache Angaben in Form von relativen Anteilen bzw. Prozentsätzen, um die Datenlage nachvollziehbar wiederzugeben.

       Schlüsselbegriffe zur Exploration kategorialer Daten

       Modus

      Die am häufigsten vorkommende Kategorie oder der am häufigsten vorkommende Wert in einem Datensatz (engl. Mode).

       Erwartungswert

      Wenn die Kategorien mit einem numerischen Wert verknüpft werden können, ergibt sich ein Durchschnittswert auf Basis der Eintrittswahrscheinlichkeiten der Kategorien (engl. Expected Value).

       Balkendiagramm

      Die Häufigkeiten oder relativen Anteile aller Kategorien, in Form von Balken dargestellt (engl. Bar Chart).

       Kreisdiagramm

      Die Häufigkeiten oder relativen Anteile aller Kategorien in Form von Kreissektoren als Teile eines Kreises, auch als Kuchen- oder Tortendiagramm bekannt (engl. Pie Chart).

      Sich eine Übersicht über eine binäre Variable oder eine kategoriale Variable mit einigen wenigen Kategorien zu verschaffen, ist eine ziemlich einfache Angelegenheit: Wir müssen nur den Anteil von »Einsen« bzw.


Скачать книгу