Praktische Statistik für Data Scientists. Peter Bruce

Praktische Statistik für Data Scientists - Peter Bruce


Скачать книгу

      > state <- read.csv('state.csv')

      > mean(state[['Population']])

      [1] 6162876

      > mean(state[['Population']], trim=0.1)

      [1] 4783697

      > median(state[['Population']])

      [1] 4436370

      In Python können wir zur Berechnung des Mittelwerts und des Medians die pandas-Methoden des Data Frame verwenden. Den getrimmten Mittelwert erhalten wir durch die Funktion trim_mean aus dem Modul scipy.stats:

      state = pd.read_csv('state.csv')

      state['Population'].mean()

      trim_mean(state['Population'], 0.1)

      state['Population'].median()

      Der Mittelwert ist größer als der getrimmte Mittelwert, der wiederum größer als der Median ist.

      Dies liegt daran, dass der getrimmte Mittelwert die fünf größten und fünf kleinsten Bundesstaaten ausschließt (trim=0.1 entfernt 10% an beiden Enden der Verteilung). Wenn wir die durchschnittliche Mordrate für das Land berechnen wollen, müssen wir dazu den gewichteten Mittelwert oder den Median heranziehen, um die unterschiedlich hohe Anzahl an Einwohnern in den Bundesstaaten zu berücksichtigen. Da R in seiner Standardbibliothek keine Funktion für den gewichteten Median umfasst, müssen wir zu diesem Zweck zunächst das Paket matrixStats installieren:

      > weighted.mean(state[['Murder.Rate']], w=state[['Population']])

      [1] 4.445834

      > library('matrixStats')

      > weightedMedian(state[['Murder.Rate']], w=state[['Population']])

      [1] 4.4

      Bei Python ist die Funktion zur Berechnung des gewichteten Mittelwerts im NumPy-Paket enthalten. Für den gewichteten Median können wir speziell das Paket wquantiles (https://oreil.ly/4SIPQ) verwenden:

      np.average(state['Murder.Rate'], weights=state['Population'])

      wquantiles.median(state['Murder.Rate'], weights=state['Population'])

      Im vorliegenden Fall sind der gewichtete Mittelwert und der gewichtete Median in etwa gleich groß.

       Kernideen

       Das wesentliche Lagemaß ist der Mittelwert, der jedoch empfindlich auf Extremwerte (Ausreißer) reagiert.

       Andere Maße (Median, getrimmter Mittelwert) sind weniger empfindlich gegenüber Ausreißern und ungewöhnlich verteilten Daten und daher robuster.

       Weiterführende Literatur

       In dem Wikipedia-Artikel zur zentralen Tendenz (https://oreil.ly/qUW2i) werden verschiedene Lagemaße ausführlich erläutert.

       John Tukeys Standardwerk aus dem Jahr 1977, Exploratory Data Analysis (Pearson), erweist sich nach wie vor als eine beliebte Lektüre.

       Streuungsmaße

      Die Lage ist nur eine Dimension bei der Zusammenfassung eines Merkmals. Eine zweite Dimension, die Streuung (engl. Variability) – auch Variabilität oder Dispersion genannt –, misst, ob die Datenwerte eng zusammenliegen oder weit gestreut sind. Die Streuung ist das Herzstück der Statistik: Sie wird gemessen, reduziert, es kann unterschieden werden zwischen zufälliger und tatsächlicher Streuung, die verschiedenen Quellen der wahren Streuung können identifiziert und Entscheidungen in Gegenwart der Streuung können getroffen werden.

       Schlüsselbegriffe zu Streuungsmaßen

       Abweichung

      Die Differenz zwischen den beobachteten Werten und dem Lagemaß (engl. Deviation).

       Synonyme

      Fehler, Residuen

       Varianz

      Die Summe der quadrierten Abweichungen vom Mittelwert dividiert durch n –1, wobei n die Anzahl der Beobachtungen ist.

       Synonym

      mittlerer quadratischer Fehler

       Standardabweichung

      Die Quadratwurzel der Varianz.

       Mittlere absolute Abweichung

      Der Mittelwert der Absolutwerte der Abweichungen vom Mittelwert.

       Synonyme

      l1-Norm, Manhattan-Norm

       Mittlere absolute Abweichung vom Median

      Der Median der Absolutwerte der Abweichungen vom Median.

       Spannweite

      Die Differenz zwischen dem größten und dem kleinsten Wert in einem Datensatz (engl. Range).

       Ordnungsstatistik

      Eine auf den Datenwerten basierende Metrik, sortiert vom kleinsten zum größten.

       Synonym

      Rang

       Perzentil

      Der Wert, bei dem P % der Werte diesen Wert oder weniger und (100-P) % diesen Wert oder mehr annehmen.

       Synonym

      Quantil

       Interquartilsabstand

      Die Differenz zwischen dem 75%-Perzentil und dem 25%-Perzentil.

       Synonym

      IQR

      So wie es verschiedene Möglichkeiten gibt, die Lage zu messen (Mittelwert, Median usw.), so gibt es auch verschiedene Möglichkeiten, das Ausmaß der Streuung zu bestimmen.

       Standardabweichung und ähnliche Maße

      Die meistgenutzten Streuungsmaße basieren auf den Differenzen bzw. Abweichungen zwischen den Lagemaßen und den beobachteten Daten. Für eine gegebene Zahlenfolge {1, 4, 4} ist der Mittelwert 3 und der Median 4. Die Abweichungen vom Mittelwert entsprechen den jeweiligen Differenzen: 1 – 3 = –2, 4 – 3 = 1, 4 – 3 = 1. Diese Abweichungen geben uns Aufschluss darüber, wie weit die Daten um den Zentralwert herum gestreut sind.

      Eine Möglichkeit, die Streuung zu messen, besteht darin, einen typischen Wert für diese Abweichungen zu schätzen. Eine Mittelwertbildung über die Abweichungen selbst würde uns nicht viel sagen – die negativen Abweichungen würden die positiven ausgleichen. Tatsächlich ist auch im vorliegenden Beispiel die Summe der Abweichungen vom Mittelwert genau null. Stattdessen können wir den Mittelwert der Absolutwerte der Abweichungen vom Mittelwert bilden. Im vorhergehenden


Скачать книгу