Praktische Statistik für Data Scientists. Peter Bruce
> state <- read.csv('state.csv')
> mean(state[['Population']])
[1] 6162876
> mean(state[['Population']], trim=0.1)
[1] 4783697
> median(state[['Population']])
[1] 4436370
In Python können wir zur Berechnung des Mittelwerts und des Medians die pandas-Methoden des Data Frame verwenden. Den getrimmten Mittelwert erhalten wir durch die Funktion trim_mean aus dem Modul scipy.stats:
state = pd.read_csv('state.csv')
state['Population'].mean()
trim_mean(state['Population'], 0.1)
state['Population'].median()
Der Mittelwert ist größer als der getrimmte Mittelwert, der wiederum größer als der Median ist.
Dies liegt daran, dass der getrimmte Mittelwert die fünf größten und fünf kleinsten Bundesstaaten ausschließt (trim=0.1 entfernt 10% an beiden Enden der Verteilung). Wenn wir die durchschnittliche Mordrate für das Land berechnen wollen, müssen wir dazu den gewichteten Mittelwert oder den Median heranziehen, um die unterschiedlich hohe Anzahl an Einwohnern in den Bundesstaaten zu berücksichtigen. Da R in seiner Standardbibliothek keine Funktion für den gewichteten Median umfasst, müssen wir zu diesem Zweck zunächst das Paket matrixStats installieren:
> weighted.mean(state[['Murder.Rate']], w=state[['Population']])
[1] 4.445834
> library('matrixStats')
> weightedMedian(state[['Murder.Rate']], w=state[['Population']])
[1] 4.4
Bei Python ist die Funktion zur Berechnung des gewichteten Mittelwerts im NumPy-Paket enthalten. Für den gewichteten Median können wir speziell das Paket wquantiles (https://oreil.ly/4SIPQ) verwenden:
np.average(state['Murder.Rate'], weights=state['Population'])
wquantiles.median(state['Murder.Rate'], weights=state['Population'])
Im vorliegenden Fall sind der gewichtete Mittelwert und der gewichtete Median in etwa gleich groß.
Kernideen
Das wesentliche Lagemaß ist der Mittelwert, der jedoch empfindlich auf Extremwerte (Ausreißer) reagiert.
Andere Maße (Median, getrimmter Mittelwert) sind weniger empfindlich gegenüber Ausreißern und ungewöhnlich verteilten Daten und daher robuster.
Weiterführende Literatur
In dem Wikipedia-Artikel zur zentralen Tendenz (https://oreil.ly/qUW2i) werden verschiedene Lagemaße ausführlich erläutert.
John Tukeys Standardwerk aus dem Jahr 1977, Exploratory Data Analysis (Pearson), erweist sich nach wie vor als eine beliebte Lektüre.
Streuungsmaße
Die Lage ist nur eine Dimension bei der Zusammenfassung eines Merkmals. Eine zweite Dimension, die Streuung (engl. Variability) – auch Variabilität oder Dispersion genannt –, misst, ob die Datenwerte eng zusammenliegen oder weit gestreut sind. Die Streuung ist das Herzstück der Statistik: Sie wird gemessen, reduziert, es kann unterschieden werden zwischen zufälliger und tatsächlicher Streuung, die verschiedenen Quellen der wahren Streuung können identifiziert und Entscheidungen in Gegenwart der Streuung können getroffen werden.
Schlüsselbegriffe zu Streuungsmaßen
Abweichung
Die Differenz zwischen den beobachteten Werten und dem Lagemaß (engl. Deviation).
Synonyme
Fehler, Residuen
Varianz
Die Summe der quadrierten Abweichungen vom Mittelwert dividiert durch n –1, wobei n die Anzahl der Beobachtungen ist.
Synonym
mittlerer quadratischer Fehler
Standardabweichung
Die Quadratwurzel der Varianz.
Mittlere absolute Abweichung
Der Mittelwert der Absolutwerte der Abweichungen vom Mittelwert.
Synonyme
l1-Norm, Manhattan-Norm
Mittlere absolute Abweichung vom Median
Der Median der Absolutwerte der Abweichungen vom Median.
Spannweite
Die Differenz zwischen dem größten und dem kleinsten Wert in einem Datensatz (engl. Range).
Ordnungsstatistik
Eine auf den Datenwerten basierende Metrik, sortiert vom kleinsten zum größten.
Synonym
Rang
Perzentil
Der Wert, bei dem P % der Werte diesen Wert oder weniger und (100-P) % diesen Wert oder mehr annehmen.
Synonym
Quantil
Interquartilsabstand
Die Differenz zwischen dem 75%-Perzentil und dem 25%-Perzentil.
Synonym
IQR
So wie es verschiedene Möglichkeiten gibt, die Lage zu messen (Mittelwert, Median usw.), so gibt es auch verschiedene Möglichkeiten, das Ausmaß der Streuung zu bestimmen.
Standardabweichung und ähnliche Maße
Die meistgenutzten Streuungsmaße basieren auf den Differenzen bzw. Abweichungen zwischen den Lagemaßen und den beobachteten Daten. Für eine gegebene Zahlenfolge {1, 4, 4} ist der Mittelwert 3 und der Median 4. Die Abweichungen vom Mittelwert entsprechen den jeweiligen Differenzen: 1 – 3 = –2, 4 – 3 = 1, 4 – 3 = 1. Diese Abweichungen geben uns Aufschluss darüber, wie weit die Daten um den Zentralwert herum gestreut sind.
Eine Möglichkeit, die Streuung zu messen, besteht darin, einen typischen Wert für diese Abweichungen zu schätzen. Eine Mittelwertbildung über die Abweichungen selbst würde uns nicht viel sagen – die negativen Abweichungen würden die positiven ausgleichen. Tatsächlich ist auch im vorliegenden Beispiel die Summe der Abweichungen vom Mittelwert genau null. Stattdessen können wir den Mittelwert der Absolutwerte der Abweichungen vom Mittelwert bilden. Im vorhergehenden