Praktische Statistik für Data Scientists. Peter Bruce

Praktische Statistik für Data Scientists - Peter Bruce


Скачать книгу
Kategorien ermitteln. Zum Beispiel zeigt Tabelle 1-6 die prozentuale Verteilung der verspäteten Flüge am Flughafen Dallas/Fort Worth im Jahr 2010, aufgeschlüsselt nach ihrem Verspätungsgrund. Die Verspätungen werden dabei in Kategorien unterteilt, die Aufschluss über den Grund der Verspätung geben. Hierzu zählen solche, die dem Verantwortungsbereich der Fluggesellschaft unterliegen, Verspätungen, die auf die Flugverkehrskontrolle (FVK) zurückzuführen sind, auf das Wetter, auf die Sicherheitsvorkehrungen oder auch auf ein verspätet eintreffendes Flugzeug für einen Anschlussflug.

image

      Die auch häufig in der Tagespresse anzutreffenden Balkendiagramme sind ein gängiges visuelles Hilfsmittel zur Darstellung einer einzelnen kategorialen Variablen. Die Kategorien werden auf der x-Achse und die jeweiligen Häufigkeiten oder die relativen Anteile auf der y-Achse dargestellt. Abbildung 1-5 zeigt die Flugverspätungen, sortiert nach Verspätungsgrund, für den Flughafen Dallas/Fort Worth (DFW) im Jahr 2010. Sie kann relativ simpel mit der R-Funktion barplot erstellt werden:

      barplot(as.matrix(dfw) / 6, cex.axis=0.8, cex.names=0.7,

      xlab='Verspätungsgrund', ylab='Anzahl')

      Die pandas-Bibliothek unterstützt ebenfalls Balkendiagramme:

      ax = dfw.transpose().plot.bar(figsize=(4, 4), legend=False)

      ax.set_xlabel('Verspätungsgrund')

      ax.set_ylabel('Anzahl')

       Abbildung 1-5: Balkendiagramm der Flugverspätungen am DFW nach Verspätungsgrund

      Beachten Sie, dass ein Balkendiagramm einem Histogramm ähnelt; in einem Balkendiagramm repräsentiert die x-Achse verschiedene Kategorien einer Faktorvariablen, während in einem Histogramm die x-Achse die Werte einer einzelnen Variablen numerisch skaliert darstellt. In einem Histogramm werden die Balken typischerweise aneinander angrenzend dargestellt, wobei Lücken auf Werte hinweisen, die in den Daten nicht vorkommen. In einem Balkendiagramm werden die Balken getrennt voneinander dargestellt.

      Kreisdiagramme stellen eine Alternative zu Balkendiagrammen dar, obwohl Statistiker und Datenvisualisierungsexperten im Allgemeinen Kreisdiagramme als weniger informativ ansehen (siehe [Few-2007]).

image Numerische Daten als kategoriale Daten In »Häufigkeitstabellen und Histogramme« auf Seite 23 betrachteten wir Häufigkeitstabellen, die auf einer Klasseneinteilung der Daten basieren. Dadurch werden die numerischen Daten implizit in einen geordneten Faktor umgewandelt. In diesem Sinne sind Histogramme und Balkendiagramme einander ähnlich, außer dass die Kategorien auf der x-Achse im Balkendiagramm nicht geordnet sind. Die Konvertierung numerischer Daten in kategoriale Daten ist ein wichtiger und weitverbreiteter Schritt in der Datenanalyse, da er die Komplexität (und die Größe bzw. den Umfang) der Daten verringert. Dies hilft beim Aufdecken von Beziehungen zwischen Merkmalen, insbesondere in den ersten Schritten einer Analyse.

       Modus

      Der Modus ist der Wert – bzw. die Werte für den Fall, dass verschiedene Werte gleich häufig auftreten –, der am häufigsten in den Daten auftritt. Zum Beispiel ist der Modus des Verspätungsgrunds am Flughafen Dallas/Fort Worth der »verzögerte Anschlussflug«. Ein weiteres Beispiel: In den meisten Teilen der Vereinigten Staaten wäre der Modus der religiösen Gesinnung »christlich«. Der Modus ist eine einfache, zusammenfassende Statistik für kategoriale Daten. Bei numerischen Daten wird er im Allgemeinen nicht verwendet.

       Erwartungswert

      Ein besonderer Typ kategorialer Daten sind Daten, bei denen die Kategorien diskrete Werte auf derselben Skala repräsentieren oder diesen zugeordnet werden können. Ein Vermarkter für eine neue Cloud-Technologie bietet zum Beispiel zwei Servicevarianten an, eine zum Preis von 300 $ pro Monat und eine weitere zum Preis von 50 $ pro Monat. Der Vermarkter bietet kostenlose Webinare an, um Leads zu generieren, und das Unternehmen geht davon aus, dass sich 5% der Teilnehmer für den Service für 300 $, 15% für den Service für 50 $ und 80% für keinen Service anmelden werden. Diese Daten lassen sich zu Zwecken der Wirtschaftlichkeitsberechnung in einem einzigen »Erwartungswert« zusammenfassen, der eine Art gewichteter Mittelwert ist, bei dem die Gewichte Wahrscheinlichkeiten entsprechen.

      Der Erwartungswert wird wie folgt berechnet:

      1 Multiplizieren Sie jedes der einzelnen Ergebnisse mit seiner Eintrittswahrscheinlichkeit.

      2 Summieren Sie die ermittelten Werte.

      Im Beispiel des Cloud-Service beträgt der Erwartungswert eines Webinar-Teilnehmers somit 22,50 $ pro Monat, der sich wie folgt ergibt:

      EW=(0, 05)(300) + (0, 15)(50) + (0, 80)(0)=22, 5

      Der Erwartungswert ist in Wirklichkeit eine Art gewichteter Mittelwert: Er spiegelt künftige Erwartungen wider, wobei die Berechnung auf Wahrscheinlichkeitsgewichten basiert, die oft auf einem subjektiven Urteil beruhen. Der Erwartungswert stellt ein grundlegendes Konzept in der Unternehmensbewertung und Kapitalbedarfsrechnung dar, wo es z.B. darum geht, den Erwartungswert der Gewinne aus einer Neuanschaffung für einen Zeithorizont von fünf Jahren oder die erwarteten Kosteneinsparungen durch eine neue Patientenverwaltungssoftware in einer Klinik zu ermitteln.

       Wahrscheinlichkeiten

      Wir sind zuvor auf die Wahrscheinlichkeit des Auftretens eines Ereignisses eingegangen (die sogenannte Eintrittswahrscheinlichkeit). Die meisten Menschen haben ein intuitives Verständnis von Wahrscheinlichkeit und begegnen dem Konzept häufig bei Wettervorhersagen (Regenwahrscheinlichkeit) oder Sportanalysen (Gewinnwahrscheinlichkeit). Sport- und Spielergebnisse werden häufiger als Quoten ausgedrückt, die sich leicht in Wahrscheinlichkeiten umformulieren lassen. (Wenn die Wahrscheinlichkeit, dass eine Mannschaft gewinnt, 2 zu 1 ist, ist ihre Gewinnwahrscheinlichkeit 2/(2+1) = 2/3.) Überraschenderweise kann das Konzept der Wahrscheinlichkeit jedoch bei seiner Begriffsbestimmung Anlass zu tiefgreifenden philosophischen Diskussionen geben.

      Glücklicherweise brauchen wir hier keine formale mathematische oder philosophische Definition. Aus unserer Perspektive ist die Wahrscheinlichkeit, dass ein Ereignis eintritt, einfach die relative Häufigkeit, mit der es auftreten würde – jedenfalls dann, wenn die Situation immer und immer wieder, und zwar unzählige Male, wiederholt werden könnte. Meistens handelt es sich dabei um ein imaginäres Konstrukt, aber es bietet uns die Möglichkeit, ein angemessenes praktisches Verständnis für Wahrscheinlichkeiten zu entwickeln.

       Kernideen

       Kategoriale Daten werden typischerweise in Form relativer Anteilswerte zusammengefasst und können in einem Balkendiagramm visualisiert werden.

       Die Kategorien können verschiedene Dinge darstellen (Äpfel und Orangen, männlich und weiblich), die Stufen bzw. Niveaus einer Faktorvariablen (niedrig,


Скачать книгу