Praktische Statistik für Data Scientists. Peter Bruce

Praktische Statistik für Data Scientists

wird als mittlere absolute Abweichung bezeichnet und mit der folgenden Formel ermittelt:

wobei für den Stichprobenmittelwert steht.

Die bekanntesten Streuungsmaße sind die Varianz und die Standardabweichung, die auf den quadratischen Abweichungen beruhen. Die Varianz ist der Durchschnitt der quadrierten Abweichungen, und die Standardabweichung ist wiederum die Quadratwurzel der Varianz:

Die Standardabweichung ist viel leichter zu interpretieren als die Varianz, da sie auf dieselbe Skala wie die Originaldaten bezogen ist. Dennoch mag es mit ihrer komplizierteren und weniger intuitiven Formel merkwürdig erscheinen, dass die Standardabweichung in der Statistik gegenüber der mittleren absoluten Abweichung bevorzugt wird. Sie verdankt ihre Vorrangstellung der statistischen Theorie: Mathematisch gesehen, ist es sehr viel vorteilhafter, quadrierte Werte zu verwenden – und nicht Absolutwerte –, insbesondere in statistischen Modellen.

Die Anzahl der Freiheitsgrade und die Frage, ob n oder n – 1?

In Statistikbüchern finden Sie für gewöhnlich einen Abschnitt, der erklärt, warum wir n – 1 im Nenner der Formel für die Varianz anstelle von n haben, was uns zum Konzept der Freiheitsgrade führt. Diese Unterscheidung ist an sich nicht von großer Bedeutung, da n im Allgemeinen so groß ist, dass es keinen besonderen Unterschied macht, ob man durch n oder n – 1 dividiert. Aber falls es Sie interessiert, hier folgt die Erklärung. Sie basiert auf der Prämisse, dass Sie auf Basis einer Stichprobe Schätzungen über eine Grundgesamtheit (Population) vornehmen möchten.

Wenn Sie intuitiverweise n im Nenner der Varianzformel verwenden, unterschätzen Sie den wahren Wert der Varianz und der Standardabweichung in der Grundgesamtheit. Dies wird als ein verzerrter Schätzer (engl. biased) bezeichnet. Wenn Sie jedoch n – 1 anstelle von n einsetzen, ermitteln Sie einen unverzerrten (engl. unbiased) bzw. erwartungstreuen Schätzer der Varianz.

Um vollständig zu erklären, warum die Verwendung von n zu einem verzerrten Schätzer führt, müssen wir den Begriff der Freiheitsgrade heranziehen, der die Anzahl der Einschränkungen bei der Berechnung eines Schätzers berücksichtigt. In diesem Fall gibt es n – 1 Freiheitsgrade, da es eine Randbedingung gibt: Die Standardabweichung hängt von der Berechnung des Stichprobenmittelwerts ab. In den meisten Anwendungsfällen müssen sich Data Scientists keine Gedanken über die Anzahl der Freiheitsgrade machen.

Weder die Varianz noch die Standardabweichung oder die mittlere absolute Abweichung ist gegenüber Ausreißern und Extremwerten robust (siehe »Median und andere robuste Lagemaße« auf Seite 11 für eine Erläuterung zu den robusten Lagemaßen). Die Varianz und die Standardabweichung sind besonders empfindlich gegenüber Ausreißern, da sie auf den quadrierten Abweichungen beruhen.

Ein robustes Streuungsmaß ist die mittlere absolute Abweichung vom Median (engl. Median Absolute Deviation from the Median, MAD):

Mittlere absolute Abweichung vom = Median(|x₁ – m|, |x₂ – m| ,…, |x_N – m|)

wobei m dem Median entspricht. Wie der Median wird auch die mittlere absolute Abweichung vom Median nicht durch Extremwerte beeinflusst. Es ist auch möglich, eine getrimmte Standardabweichung analog zum getrimmten Mittelwert zu berechnen (siehe »Mittelwert« auf Seite 9).

Die Varianz, die Standardabweichung, die mittlere absolute Abweichung und die mittlere absolute Abweichung vom Median sind keine äquivalenten Streuungsmaße – selbst dann nicht, wenn die Daten normalverteilt sind. So ist die Standardabweichung immer größer als die mittlere absolute Abweichung, die ihrerseits größer als die mittlere absolute Abweichung vom Median ist. Manchmal wird die mittlere absolute Abweichung vom Median mit einem konstanten Skalierungsfaktor multipliziert, um den Wert für den Fall, dass die Daten normalverteilt sind, genau so zu skalieren wie die Standardabweichung. Der üblicherweise verwendete Faktor von 1,4826 bedeutet, dass 50% der Normalverteilung in den Bereich ±MAD fallen (siehe z.B. https://oreil.ly/SfDk2).

Streuungsmaße auf Basis von Perzentilen

Ein anderer Ansatz zur Schätzung der Streuung basiert auf der Betrachtung der Streuung der sortierten Daten. Statistiken, die auf sortierten (d.h. in einer Rangfolge geordneten) Daten basieren, werden als Ordnungsstatistiken bezeichnet. Das grundlegende Maß ist die Spannweite: die Differenz zwischen dem größten und dem kleinsten Wert. Die Minimal- und Maximalwerte selbst sind zwar durchaus interessant und bei der Identifizierung von Ausreißern nützlich, aber die Spannweite erweist sich als äußerst empfindlich gegenüber Ausreißern und ist als allgemeines Streuungsmaß nicht sehr hilfreich.

Um der Anfälligkeit gegenüber Ausreißern vorzubeugen, können wir vor der Ermittlung der Spannweite Werte an beiden Enden der Daten weglassen. Formal basieren diese Arten von Schätzern auf Unterschieden zwischen Perzentilen. In einem Datensatz ist das P%-Perzentil so definiert, dass mindestens P % der Werte diesen Wert oder weniger und mindestens (100 – P) % der Werte diesen Wert oder mehr annehmen. Um zum Beispiel das 80%-Perzentil zu ermitteln, müssen Sie die Daten zunächst sortieren. Dann gehen Sie, beginnend beim kleinsten Wert, 80% der Strecke zum größten Wert weiter. Der Median ist übrigens ein und dasselbe wie das 50%-Perzentil. Ein Perzentil ist im Wesentlichen dasselbe wie ein Quantil, wobei Quantile durch Bruchzahlen angegeben werden (das 0,8-Quantil ist also dasselbe wie das 80%-Perzentil).

Ein gebräuchliches Streuungsmaß ist die Differenz zwischen dem 25%-Perzentil und dem 75%-Perzentil, der sogenannte Interquartilsabstand (engl. Interquartile Range, IQR). Hier ist ein einfaches Zahlenbeispiel: {3,1,5,3,6,7,2,9}. Wir sortieren diese Zahlenfolge, um {1,2,3,3,5,6,7,9} zu erhalten. Das 25%-Perzentil liegt bei 2,5 und das 75%-Perzentil bei 6,5, sodass der Interquartilsabstand 6,5 – 2,5 = 4 beträgt. Die Softwareprogramme können leicht unterschiedliche Ansätze haben, die dann unterschiedliche Ergebnisse hervorbringen (siehe folgenden Hinweis); in der Regel fallen diese Unterschiede jedoch gering aus.

Bei sehr großen Datensätzen kann die Berechnung der genauen Perzentile rechnerisch sehr aufwendig sein, da dazu alle Datenwerte sortiert werden müssen. Maschinelle Lern- und Statistikprogramme verwenden spezielle Algorithmen, wie [Zhang-Wang-2007], um einen Näherungswert für ein Perzentil zu erhalten, der sehr schnell berechnet werden kann und eine gewisse Genauigkeit gewährleistet.

Скачать книгу

Perzentile: Genaue Definition Wenn wir eine gerade Anzahl an Werten haben (n ist gerade), dann ist das Perzentil im Sinne der vorhergehenden Definition mehrdeutig. Tatsächlich könnten wir jeden Wert zwischen der Ordnungsstatistik x_(j) und x_{(j + 1)} nehmen, wobei j Folgendes erfüllt: