Praktische Statistik für Data Scientists. Peter Bruce

Praktische Statistik für Data Scientists

alt="image"/>

Abbildung 1-6: Die Korrelation zwischen ETF-Renditen

Wie der Mittelwert und die Standardabweichung ist auch der Korrelationskoeffizient empfindlich gegenüber Ausreißern in den Daten. Die Softwarepakete bieten robuste Alternativen zum herkömmlichen Korrelationskoeffizienten. Beispielsweise verwendet das R-Paket robust (https://oreil.ly/isORz) die Funktion covRob zur Berechnung eines robusten Korrelationsmaßes. Die Methoden im scikit-learn-Modul sklearn.covariance (https://oreil.ly/su7wi) implementieren eine Vielzahl von Ansätzen.

Weitere Korrelationsmaße Bereits vor langer Zeit schlugen Statistiker andere Korrelationskoeffizienten vor, wie z.B. das Spearman’sche Rho oder das Kendall’sche Tau. Diese Korrelationskoeffizienten basieren auf dem Rang der Daten. Da sie mit Rängen und nicht mit den Werten arbeiten, sind diese Maße robust gegenüber Ausreißern und können mit bestimmten Arten von Nichtlinearitäten umgehen. Data Scientists können sich bei explorativen Analysen jedoch im Allgemeinen an dem Korrelationskoeffizienten nach Pearson und seinen robusten Alternativen orientieren. Rangbasierte Maße eignen sich vor allem bei kleineren Datensätzen und bestimmten Hypothesentests.

Streudiagramme

Die standardmäßige Vorgehensweise bei der Visualisierung des Zusammenhangs von zwei beobachteten Variablen ist die Verwendung eines Streudiagramms. Die x-Achse stellt eine Variable und die y-Achse eine andere dar, und jeder Punkt auf dem Diagramm entspricht einer Beobachtung. In Abbildung 1-7 sehen Sie ein Diagramm, das die Korrelation der Tagesrenditen der Unternehmen ATT und Verizon abbildet. In R können Sie das Diagramm mit dem folgenden Befehl erstellen:

plot(telecom$T, telecom$VZ, xlab='ATT (T)', ylab='Verizon (VZ)')

Das gleiche Diagramm kann in Python mit der pandas-Methode scatter erzeugt werden:

ax = telecom.plot.scatter(x='T', y='VZ', figsize=(4, 4), marker='$\u25EF$')

ax.set_xlabel('ATT (T)')

ax.set_ylabel('Verizon (VZ)')

ax.axhline(0, color='grey', lw=1)

ax.axvline(0, color='grey', lw=1)

Die Renditen stehen in einer positiven Beziehung: Obwohl sie sich um den Wert null gruppieren, steigen oder sinken die Aktien an den meisten Tagen gleichzeitig (oberer rechter und unterer linker Quadrant). Es gibt weniger Tage, an denen eine Aktie deutlich sinkt, während die andere steigt oder umgekehrt (unterer rechter und oberer linker Quadrant).

Obwohl in dem Diagramm in Abbildung 1-7 nur 754 Datenpunkte angezeigt werden, wird es offenbar schwierig, Details in der Mitte des Diagramms zu erkennen. Wir werden später noch sehen, wie wir die Transparenz der Punkte verändern oder Hexagonal-Binning- sowie Dichtediagramme verwenden können, um weitere Strukturen in den Daten aufzudecken.

Abbildung 1-7: Streudiagramm zur Darstellung der Korrelation der Tagesrenditen von ATT und Verizon

Kernideen

Der Korrelationskoeffizient misst, wie stark zwei gepaarte Variablen (z. B. Größe und Gewicht von Individuen) miteinander in Zusammenhang stehen.

Wenn hohe Werte der einen Variablen mit hohen Werten der anderen einhergehen, stehen sie in einem positiven Zusammenhang.

Wenn hohe Werte der einen Variablen mit niedrigen Werten der anderen einhergehen, stehen sie in einem negativen Zusammenhang.

Der Korrelationskoeffizient ist ein standardisiertes Maß, das immer zwischen –1 (perfekte negative Korrelation) und +1 (perfekte positive Korrelation) liegt.

Ein Korrelationskoeffizient von null bedeutet, dass die Variablen unkorreliert sind. Seien Sie sich dennoch bewusst, dass auch zufällig generierte Daten positive oder negative Werte für den Korrelationskoeffizienten aufweisen können.

Weiterführende Literatur

Eine ausgezeichnete Behandlung des Themas bietet das Buch Statistics von David Freedman, Robert Pisani und Roger Purves (4. Auflage, W. W. Norton, 2007).

Zwei oder mehr Variablen untersuchen

Vertraute Maße wie der Mittelwert und die Varianz beziehen sich immer nur eine einzelne Variable (univariate Analyse). Die Korrelationsanalyse (siehe »Korrelation« auf Seite 32) ist eine wichtige Methode, um zwei Variablen miteinander zu vergleichen (bivariate Analyse). In diesem Abschnitt befassen wir uns weiterhin mit Maßen und Diagrammen, und zwar insbesondere mit solchen, die auf die Exploration von mehr als zwei Variablen abzielen (multivariate Analyse).

Schlüsselbegriffe zur Exploration von zwei oder mehr Variablen

Kontingenztafeln

Eine Kreuztabelle mit den Häufigkeiten von zwei oder mehr kategorialen Variablen (engl. Contingency Table).

Hexagonal-Binning-Diagramm

Ein Diagramm für zwei numerische Variablen, wobei die Beobachtungen in Sechsecken zusammengefasst sind.

Konturdiagramm

Ein Diagramm, bei dem die Wahrscheinlichkeitsdichtefunktion zweier numerischer Variablen wie eine topografische Karte abgebildet wird (engl. Contour Plot).

Violin-Plot

Ähnlich wie ein Box-Plot, zeigt allerdings darüber hinaus noch die geschätzte Dichtefunktion.

Wie bei der univariaten Analyse möchten wir auch bei der bivariaten Analyse einerseits zusammenfassende statistische Kenngrößen ermitteln und andererseits anschauliche Visualisierungen erstellen. Die geeignete Art der bi- bzw. multivariaten Analyse hängt vom Datentyp ab – je nachdem, ob die Daten als numerische oder kategoriale Variablen vorliegen.

Hexagonal-Binning- und Konturdiagramme (Diagramme für mehrere numerische Variablen)

Streudiagramme sind durchaus geeignet, solange die Anzahl an Datenpunkten relativ gering ist. Das Diagramm mit den Aktienrenditen in Abbildung 1-7 bildet nur etwa 750 Datenpunkte ab. Bei Datensätzen, die Hunderttausende oder Millionen von Datenpunkten haben, erweist sich ein Streudiagramm als zu stark verdichtend, weshalb wir ein anderes Verfahren benötigen, um den Zusammenhang adäquat visualisieren zu können. Betrachten wir zur Veranschaulichung den Datensatz kc_tax, der die

Скачать книгу