Praktische Statistik für Data Scientists. Peter Bruce

Praktische Statistik für Data Scientists - Peter Bruce


Скачать книгу
sich für ihre Visualisierungen auf die Bibliothek matplotlib. Obwohl es prinzipiell auch mit der matplotlib-Bibliothek möglich ist, differenziertere Darstellungen zu erstellen, kann der Code schnell komplex werden. Glücklicherweise bietet seaborn eine relativ einfache Möglichkeit, diese Diagramme zu erzeugen:

      zip_codes = [98188, 98105, 98108, 98126]

      kc_tax_zip = kc_tax0.loc[kc_tax0.ZipCode.isin(zip_codes),:]

      kc_tax_zip

      def hexbin(x, y, color, **kwargs):

      cmap = sns.light_palette(color, as_cmap=True)

      plt.hexbin(x, y, gridsize=25, cmap=cmap, **kwargs)

      g = sns.FacetGrid(kc_tax_zip, col='ZipCode', col_wrap=2) image

      g.map(hexbin, 'SqFtTotLiving', 'TaxAssessedValue',

      extent=[0, 3500, 0, 700000]) image

      g.set_axis_labels('Fertiggestellte Wohnfläche (in Quadratfuß)',

      'Steuerlich geschätzter Wert')

      g.set_titles('Postleitzahl {col_name:.0f}')

      1 Verwenden Sie die Argumente col und row, um die Drittvariable anzugeben. Für eine einzelne Drittvariable können Sie das Argument col zusammen mit col_wrap nutzen, um das Facettendiagramm in mehrere Quadranten aufzuteilen.

      2 Mit der Methode map wird die Funktion hexbin auf die hinsichtlich der verschiedenen Postleitzahlen untergliederten Teilmengen des ursprünglichen Datensatzes angewandt. Durch die Angabe von extent definieren Sie, wie weit sich die x- und y-Achsen erstrecken sollen.

      Das Konzept der Konditionierung von Variablen in grafischen Darstellungen wurde mit Trellis-Grafiken, die von Rick Becker, Bill Cleveland und anderen bei Bell Labs entwickelt wurden, eingeführt [Trellis-Graphics]. Diese Idee hat sich auf verschiedene moderne Visualisierungsprogramme übertragen, wie z.B. dem lattice- [lattice] und dem ggplot2-Paket in R und den seaborn- [seaborn] und Bokeh-Modulen [bokeh] in Python. Drittvariablen stellen ebenfalls einen integralen Bestandteil von Business-Intelligence-Plattformen wie Tableau und Spotfire dar. Mit dem Aufkommen enormer Rechenleistung haben moderne Visualisierungsplattformen die bescheidenen Anfänge der explorativen Datenanalyse weit hinter sich gelassen. Die Schlüsselkonzepte und Werkzeuge, die vor einem halben Jahrhundert entwickelt wurden (z.B. einfache Box-Plots), bilden jedoch immer noch eine Grundlage solcher Systeme.

       Kernideen

       Hexagonal-Binning- und Konturdiagramme sind nützliche Werkzeuge, die eine gleichzeitige visuelle Exploration zweier numerischer Variablen ermöglichen, ohne von riesigen Datenmengen überwältigt zu werden.

       Kontingenztabellen sind das gängigste Werkzeug, um die Häufigkeiten von zwei kategorialen Variablen zu betrachten.

       Box-Plots und Violin-Plots ermöglichen Ihnen, den Zusammenhang zwischen einer numerischen Variablen und einer kategorialen Variablen darzustellen.

       Weiterführende Literatur

       Das Buch Modern Data Science with R von Benjamin Baumer, Daniel Kaplan und Nicholas Horton (Chapman & Hall/CRC Press, 2017) bietet eine ausgezeichnete Präsentation von »einer Grammatik für Grafiken« (das »gg« in ggplot).

       Ein weiteres, vom Entwickler des ggplot2-Pakets geschriebenes Buch mit dem Titel ggplot2: Elegant Graphics for Data Analysis von Hadley Wickham (Springer, 2009) ist ebenfalls eine ausgezeichnete Ressource.

       Josef Fruehwald hat eine webbasierte Anleitung für das ggplot2-Paket (https://oreil.ly/zB2Dz) bereitgestellt.

       Zusammenfassung

      Die von John Tukey begründete explorative Datenanalyse (EDA) schuf den Grundstein für unser heutiges Verständnis der Data Science. Der Kerngedanke der EDA ist, dass der erste und wichtigste Schritt in jedem Projekt, bei dem mit Daten gearbeitet wird, darin liegt, sich die Daten anzusehen. Durch die Zusammenfassung und Visualisierung der Daten können Sie wertvolle Erkenntnisse für das Projekt gewinnen.

      In diesem Kapitel wurden mehrere Konzepte vorgestellt, die von einfachen statistischen Maßzahlen, z.B. Lage- und Streuungsmaßen, bis hin zu aussagekräftigen visuellen Darstellungen reichen, die die Beziehungen zwischen mehreren Variablen, wie in Abbildung 1-12, untersuchen. Die vielfältigen Werkzeuge und Verfahren, die von der Open-Source-Gemeinschaft entwickelt wurden (und werden), haben in Verbindung mit der Ausdruckskraft der Programmiersprachen R und Python eine Fülle von Möglichkeiten zur Exploration und zur Analyse von Daten geschaffen. Die explorative Datenanalyse sollte ein Grundpfeiler jedes datenwissenschaftlichen Projekts sein.

      Конец ознакомительного фрагмента.

      Текст предоставлен ООО «ЛитРес».

      Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.

      Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

/9j/4QAYRXhpZgAASUkqAAgAAAAAAAAAAAAAAP/sABFEdWNreQABAAQAAAA8AAD/4QQgaHR0cDov L25zLmFkb2JlLmNvbS94YXAvMS4wLwA8P3hwYWNrZXQgYmVnaW49Iu+7vyIgaWQ9Ilc1TTBNcENl aGlIenJlU3pOVGN6a2M5ZCI/PiA8eDp4bXBtZXRhIHhtbG5zOng9ImFkb2JlOm5zOm1ldGEvIiB4 OnhtcHRrPSJBZG9iZSBYTVAgQ29yZSA2LjAtYzAwNiA3OS4xNjQ2NDgsIDIwMjEvMDEvMTItMTU6 NTI6MjkgICAgICAgICI+IDxyZGY6UkRGIHhtbG5zOnJkZj0iaHR0cDovL3d3dy53My5vcmcvMTk5 OS8wMi8yMi1yZGYtc3ludGF4LW5zIyI+IDxyZGY6RGVzY3JpcHRpb24gcmRmOmFib3V0PSIiIHht bG5zOnhtcE1NPSJodHRwOi8vbnMuYWRvYmUuY29tL3hhcC8xLjAvbW0vIiB4bWxuczpzdFJlZj0i aHR0cDovL25zLmFkb2JlLmNvbS94YXAvMS4wL3NUeXBlL1Jlc291cmNlUmVmIyIgeG1sbnM6eG1w PSJodHRwOi8vbnMuYWRvYmUuY29tL3hhcC8xLjAvIiB4bWxuczpkYz0iaHR0cDovL3B1cmwub3Jn L2RjL2VsZW1lbnRzLzEuMS8iIHhtcE1NOk9yaWdpbmFsRG9jdW1lbnRJRD0ieG1wLmRpZDpEOUQz MUMwN0QwMjI2ODExODIyQTgzQUU4QTQ2NDgyOCIgeG1wTU06RG9jdW1lbnRJRD0ieG1wLmRpZDo0 NzEwQ0FBODdDMUExMUVCQkNBQ0IyNTI0MTNCMzdDNiIgeG1wTU06SW5zdGFuY2VJRD0ieG1wLmlp ZDo0NzEwQ0FBNzdDMUExMUVCQkNBQ0IyNTI0MTNCMzdDNiIgeG1wOkNyZWF0b3JUb29sPSJBZG9i ZSBJbkRlc2lnbiBDUzUgKDcuMC4xKSI+IDx4bXBNTTpEZXJpdmVkRnJvbSBzdFJlZjppbnN0YW5j ZUlEPSJ1dWlkOmNkMGZjOGU4LTAwODMtZTg0Ni04Y2FiLTI2YTdhYzUyNzJiNyIgc3RSZWY6ZG9j dW1lbnRJRD0ieG1wLmRpZDpEOUQzMUMwN0QwMjI2ODExODIyQTgzQUU4QTQ2NDgyOCIvPiA8ZGM6 dGl0bGU+IDxyZGY6QWx0PiA8cmRmOmxpIHhtbDpsYW5nPSJ4LWRlZmF1bHQiPmJydWNlX3ByYWtf c3RhdGlzdGlrX2RhdGFfc2NpZW50aXN0c18xNjV4MjQwX1UxXzE1MzA8L3JkZjpsaT4gPC9yZGY6 QWx0PiA8L2RjOnRpdGxlPiA8L3JkZjpEZXNjcmlwdGlvbj4gPC9yZGY6UkRGPiA8L3g6eG1wbWV0 YT4gPD94cGFja2V0IGVuZD0iciI/Pv/tAEhQaG90b3Nob3AgMy4wADhCSU0EBAAAAAAADxwBWgAD GyVHHAIAAAIAAgA4QklNBCUAAAAAABD84R+JyLfJeC80YjQHWHfr/+4ADkFkb2JlAGTAAAAAAf/b AIQABgQEBAUEBgUFBgkGBQYJCwgGBggLDAoKCwoKDBAMDAwMDAwQDA4PEA8ODBMTFBQTExwbGxsc Hx8fHx8fHx8fHwEHBwcNDA0YEBAYGhURFRofH

Скачать книгу