R für Dummies. Andrie de Vries
Ross Ihaka hat einen umfassenden Überblick über die Entwicklung von R verfasst. Dieser kann unter http://cran.r-project.org/doc/html/interface98-paper/paper.html
eingesehen werden.
Die Vorteile der Anwendung von R erkennen
Von den vielen attraktiven Vorteilen von R sind einige besonders erwähnenswert: R wird aktiv weiterentwickelt, hat gute Schnittstellen zu den verschiedensten Datenformaten und anderen Systemen und ist äußerst flexibel, sodass es in sehr unterschiedlichen Bereichen eingesetzt werden kann. Und das Allerbeste: Es ist kostenlos – mit allen Vorteilen .
Kostenloser, frei zugänglicher Quellcode
R ist unter einer Open-Source-Lizenz zugänglich, das heißt, jeder kann den Quellcode herunterladen und verändern. Häufig wird das als »frei wie Sprache« bezeichnet (man kann damit machen, was man will). R ist zudem kostenlos erhältlich, also »frei wie Freibier« (zwar kostenlos, aber möglicherweise mit geheimem Rezept und verbunden mit gewissen Einschränkungen hinsichtlich der Verwendung). Kurz, Sie können R kostenlos herunterladen und verwenden.
Ein weiterer Vorteil, obgleich etwas weniger offensichtlich, liegt in der Tatsache, dass jeder den Quellcode einsehen, verändern und verbessern kann. Auf diese Weise haben viele exzellente Programmierer Verbesserungen und Fehlerbehebungen am Quellcode vorgenommen. Aus diesem Grund läuft R sehr stabil und zuverlässig.
Jede Freiheit ist mit Einschränkungen verbunden. Im Fall von R wird dies in der GNU General Public License (GPL), Version 2 geregelt. Der vollständige Wortlaut der Lizenzbestimmungen kann unter
www.r-project.org/COPYING
eingesehen werden. Beachten Sie, dass die Bestimmungen nur die Weitergabe von Code betreffen. Die Nutzung ist davon unberührt. In Kurzform sagt die Lizenz: Wenn Sie Code verändern oder weitergeben, müssen Sie diesen für alle (frei) zugänglich machen.
Läuft überall
Das R Development Core Team hat einigen Aufwand betrieben, um die Software auf verschiedenen Typen von Hardware und Software lauffähig zu machen. Dies bedeutet, R läuft auf Windows, Unix (auch Linux) und dem Mac.
Unterstützt Erweiterungen
R selbst ist eine leistungsstarke Sprache, die viele verschiedene Funktionen wie Datenbearbeitung, statistische Modellierung und Grafik umfasst. Ein wirklich großer Vorteil ist jedoch seine Erweiterbarkeit. Entwickler können problemlos eigene Software schreiben und als Erweiterungspaket veröffentlichen. Da es vergleichsweise einfach ist, solche Erweiterungen zu schreiben, existieren wirklich Tausende von Paketen. In der Tat werden heute viele neue (und nicht so neue) statistische Methoden zusammen mit einem R-Paket veröffentlicht.
Eine engagierte Nutzergemeinde
Die Anzahl der R-Anwender wächst kontinuierlich. Viele Anwender unterstützen Neulinge bei den ersten Schritten oder setzen sich für die Verwendung von R in ihrem Arbeitsbereich und Kollegenkreis ein. Manchmal werden sie auch aktiv
in R-Mailinglisten (www.r-project.org/mail.html
).
Foren, wieStack Overflow, einer Seite für R-Programmierer (www.stackoverflow.com/questions/tagged/r
)CrossValidated , einer Seite für Statistiker (http://stats.stackexchange.com/questions/tagged/r
)
Zusätzlich zu diesen Mailinglisten und Foren gibt es R-Anwender, die
aktive Blogger sind (www.r-bloggers.com
),
sich in sozialen Netzwerken wie Twitter (www.twitter.com/search/rstats
) engagieren
und auf regionalen und internationalen Konferenzen zu finden sind.
Für weitere Informationen siehe auch Kapitel 11.
Schnittstellen zu anderen Sprachen
Nachdem mehr und mehr Menschen begannen, für ihre Analysen auf R umzusteigen, versuchten sie, R mit ihren alten Prozessen zu kombinieren. Dies führte zu einer riesigen Auswahl von Paketen, die R mit Dateisystemen, Datenbanken und anderen Anwendungen verbinden. Viele dieser Pakete sind mit der Zeit in die Basisinstallation von R aufgenommen worden und stehen nach dem Download gleich zur Verfügung.
Das Paket foreign
(https://cran.r-project.org/web/packages/foreign/index.html
) ermöglicht zum Beispiel den lesenden Zugriff auf Dateien, die von Statistikpaketen wie SPSS, SAS, Stata und anderen stammen (siehe Kapitel 12).
Für die Anbindung an Datenbanken stehen mehrere Pakete zur Verfügung, beispielsweise
das RODBC -Paket für Datenbanken, die das Open Database Connectivity Protocol (ODBC) verwenden (https://cran.r-project.org/web/packages/RODBC/index.html
), oder
das ROracle -Paket für Oracle-Datenbanken (https://cran.r-project.org/web/packages/ROracle/index.html
).
Zu Beginn wurde R im Wesentlichen in Fortran und C geschrieben. Daher konnte Code in diesen beiden Sprachen problemlos aus R heraus aufgerufen werden. Mit der Zeit kamen immer mehr Sprachen wie C++, Java, Python und weitere hinzu, die auf einfache Weise aus R heraus aufgerufen werden können.
Da es immer mehr R-Anwender gab, konnten die Entwickler kommerzieller Softwarelösungen R nicht mehr einfach ignorieren. Deshalb enthalten heute viele der großen kommerziellen Softwarepakete Add-ons zur Anbindung an R. Dies betrifft besonders die SPSS-Software (IBM) als auch SAS (SAS Institute). In beiden Fällen gibt es Schnittstellen, um Daten und Grafiken zwischen R und der jeweiligen Statistiksoftware hin- und herzubewegen.
Auch andere Entwickler haben zur besseren Verknüpfbarkeit unterschiedlicher Datenanalyse- und Statistiksoftware beigetragen. Beispielsweise hat Statconn RExcel
entwickelt, eine Excel-Schnittstelle, die es Anwendern erlaubt, mit R innerhalb von Excel zu arbeiten (http://www.statconn.com/products.html
).
Einige bemerkenswerte Eigenschaften von R
R ist mehr als eine Programmiersprache für den Statistikbereich. Es hat einige einzigartige Eigenschaften, die es sehr leistungsstark machen. Dazu gehört das vektorwertige Konzept, das Berechnungen mit vielen Werten auf einmal ermöglicht.
Berechnungen mit Vektoren durchführen
R ist eine vektorbasierte Sprache. Stellen Sie sich einen Vektor als Zeile oder Spalte mit Zahlen oder Text vor. Die Liste der Zahlen {1,2,3,4,5}
könnte beispielsweise einen Vektor darstellen. Im Gegensatz zu