Vorwort

Dieser Workshop richtet sich insbesondere an Studierende der Sozialwissenschaften und möchte einen einfachen und verständlichen Einstieg in statistische Auswertungen mit R bieten.

Ein besonderer Augenmerk liegt auf Anwender:innen die eine neue Heimat zur Lösung statistischer Aufgaben- und Problemstellungen suchen und folgend Kenntnisse im Umgang mit (u.a. kommerziellen) Statistik- und Analyse-Software besitzen (v.a. SPSS).

Anwendungsziel der kommenden Analysetechniken sind insbesondere sozialwissenschaftliche Studien/Bevölkerungsumfragen mit wissenschaftlichen Erhebungsstandards, wenngleich auch “unstandartisierte” Datensätze mit den vorzustellenden Techniken verarbeitet werden können. Zudem soll den künftigen Anwender:innen eine umfassende Funktionsbibliothek an die Hand gegeben werden, welche eine komplexe Gewichtung von Studiendaten erlaubt.

0.1 Voraussetzungen

Bitte installieren Sie hierfür die aktuelle Version von R unter: R Programm - Version 4.0.5 (17.05.2021)

Darüber hinaus werden wir mit der integrierten Entwicklungsumgebung (IDE) RStudio arbeiten. Die aktuelle Version findet sich unter: RStudio Desktop

Intergrierte Entwicklungsumgebungen wie RStudio vereinfachen den Arbeitprozess mit der Programmiersprache R ungemein, wenngleich auch schon im ersten Installationsschritt über das R Programm die gleichen Funktionsanwendungen ausführbar sind. So stellt RStudio vor allem eine Vereinfachung des Arbeitsprozesses dar, obgleich mit weitreichenden Implikationen bei der Nachvollziehbarkeit von Ablaufschritten und Anwendungsverfahren.

0.2 Warum R?

  • R ist eine Programmiersprache, die speziell für statistische Berechnungen und Visualisierungen von Daten konzipiert ist.
  • R ist eine der führenden Lösungen für die statistische Datenanalyse und kann auch für das Data Mining oder Predictive Analytics eingesetzt werden.
  • Daten lassen sich mit der Sprache sehr flexibel auswerten und visualisieren.
  • Sowohl wissenschaftliche Organisationen als auch große Unternehmen wie Oracle oder Microsoft verwenden R umfassend.
  • R kann problemlos in alle Ebenen der Analyse und Präsentation von Daten integriert werden.
  • Dank der Flexibilität von R ist der gleiche Code sowohl für kleinere Datenanalysen als auch für umfangreiches Data Mining im Big-Data-Umfeld geeignet.
  • Die Plattformunabhängigkeit sorgt dafür, dass R in verschiedenste IT-Strukturen leicht integrierbar und universell nutzbar ist.

Und zuletzt:

  • Im Gegensatz zu anderen Lösungen für die Analyse und Visualisierung von Daten ist R Open Source. Es fallen keine Lizenzkosten an, auch nicht für den Großteil der verfügbaren Erweiterungspakete.

0.3 Was ist R?

R wurde 1992 von Ross Ihaka und Robert Gentleman an der Universität Auckland entwickelt und wird als Open Source-Software unter der GNU General Public License durch die in Wien ansässige R Foundation for Statistical Computing verwaltet und verbreitet.

R stammt direkt von der kommerziellen statistischen Programmiersprache S ab und während das Herz von R durch das R (Development) Core Team (aus dem auch die Stiftung hervorgegangen ist) weiterentwickelt wird, liegt die eigentliche Stärke von R in der Verfügbarkeit von Zusatzfunktionen, in Form sogenannter Packages (dt. Packete). So erweitern unabhängige Entwickler überall auf der Welt durch unzählige Packages mit unterschiedlichsten Ausrichtungen die Funktionsmöglichkeit von R, angefangen von der klassichen Regression bis zum maschinellen Lernen. Mehr als 12.000 dieser Funktionspakete, die geschätzt mehr als 220.000 Funktionen beinhalten, stehen über das Comprehensive R Archive Network (CRAN) und einige weitere Hubs zur kostenfreien Verfügung. Folglich gibt es praktisch kein statistisches Problem, dass noch nicht eine entsprechende Lösung in R gefunden hat und damit gebrauchsfertig heruntergeladen und nach eigenen Vorstellungen modifiziert werden kann.

0.4 Aller Einstieg ist schwer?!

Wir werden uns primär mit R als Statistikumgebung und weniger als klassische Programmierumgebung beschäftigen, wenngleich kleinere Exkurse in die Fundamente dieser Sprache nicht vermieden werden können. Unser Anspruch bleibt dabei immer eine einfache, konsistente und übersichtliche Lösung zu geben, um dem freien und selbstbestimmten Lernen und Arbeiten aller Teilnehmenden Sorge zu tragen.

Um diesem Anspruch gerecht werden zu können, werden wir uns vornehmlich in relativ “abgeschlossenen” Ökosystemen (Ecosystems) bewegen, also Sammlungen von Paketen, die aufeinander abgestimmt wurden. Das bekannteste Beispiel ist hierfür sicherlich das tidyverse, welches maßgebend von einem der großen R-Pioniere und RStudio chief scientist Hadley Wickham entwickelt wurde. Auf Grundlage des selbigen werden wir noch die Pakete von Daniel Lüdecke strengejacke und die beeindruckenden Modellaufbereitungen in easystats kennen lernen. So repräsentieren diese Pakete in vollem Umfang den “state-of-the-art” sozialwissenschaftlicher Datenanalysetechniken, obgleich der Lernprozess damit deutlich vereinfacht ist. Zudem werden alle genannten Pakete, vor allem das tidyverse, auch in nicht-universitären Kontexten weitreichend genutzt.

0.5 Typographie

Die folgenden Kapitel bestehen zu einem großen Teil aus R Code und damit aus den entsprechenden chunks. Damit können sie leicht erkannt und für den eigenen Gebrauch in das persönliche R Script kopiert werden. Ein Beispiel:

x <- seq(from = 1, to = 100, by = 10)
x

Das Ergebnis lässt sich folgend in der Konsole ablesen.

##  [1]  1 11 21 31 41 51 61 71 81 91

Damit ist x unser Input und ## [1] 1 11 21 31 41 51 61 71 81 91 unser Output nachdem wir x eine Zahlensequenz zwischen 1 und 100 in 10er Schritten zugewiesen haben.

0.6 Weiterführende Literatur

Wir orientieren uns vor allem in den ersten beiden Kapiteln unseres Workshops an dem Kurs: Einführung in R von Andrew Ellis und Boris Mayer.

Grundständige Literatur, die auch zu diesem Workshop passt, findet sich als freie Publikation von Garrett Grolemund und Hadley Wickham unter dem Titel R for Data Science.

Zur Vertiefung bieten sich die Bücher Hands-On Programming with R von Garrett Grolemund und Advanced R von Hadley Wickham an.