Skip to main content

Erste Schritte

  • Chapter
  • First Online:
Grundlagen der Datenanalyse mit R

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

  • 4172 Accesses

Zusammenfassung

R ist ein freies und kostenloses Programmpaket zur statistischen Datenverarbeitung (Ihaka und Gentleman, 1996; R Development Core Team, 2009b): es integriert eine Vielzahl von Möglichkeiten, um Daten speichern, organisieren, transformieren, auswerten und visualisieren zu können. Dabei bezeichnet R sowohl das Programm selbst als auch die Sprache, in der die Auswertungsbefehle geschrieben werden.1In R bestehen Auswertungen nämlich aus einer Abfolge von Befehlen in Textform, die der Benutzer unter Einhaltung einer bestimmten Syntax selbst einzugeben hat.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 29.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Genauer gesagt ist R eine eigenständige Implementierung der Sprache S, deren kommerzielle Umsetzung das Programm S+ ist (TIBCO Software Inc., 2008). R teilt damit weitgehend die Syntax von S, besitzt aber einen erweiterten Funktionsumfang. Sich auf S beziehende Texte und Auswertungsbeispiele lassen sich weitestgehend direkt für R nutzen.

  2. 2.

    Der Open Source-Programmen zugrundeliegende Quelltext ist frei erhältlich, zudem darf die Software frei genutzt, verbreitet und verändert werden. Genaueres erläutert der Befehl licence().

  3. 3.

    Als technische Beschränkung bei der Analyse extrem großer Datenmengen besteht gegenwärtig im Gegensatz zu S+ noch das Problem, dass Datensätze zur Bearbeitung im Arbeitsspeicher vorgehalten werden müssen. Dies schränkt die Größe von praktisch auswertbaren Datensätzen ein, vgl. help(Memory). Ansätze, diese Einschränkung aufzuheben, befinden sich in der Entwicklung. Generell profitiert die Geschwindigkeit der Datenauswertung von einem großzügig dimensionierten Hauptspeicher.

  4. 4.

    Anwender von OpenOffice Writer oder LaTeX erhalten jedoch Unterstützung durch die Sweave() Funktion (Leisch, 2002) und das Paket odfWeave (Kuhn und Weaston, 2009, vgl. Abschn. 1.2.7).

  5. 5.

    CRAN steht für „Comprehensive R Archive Network“ und bezeichnet ein Netzwerk von mehreren sog. Mirror-Servern mit gleichem Angebot, die die aktuellen Dateien und Informationen zu R zur Verfügung stellen. Aus der Liste der verfügbaren Server sollte einer nach dem Kriterium der geographischen Nähe ausgewählt werden.

  6. 6.

    Auch bei der Beschreibung von Elementen der graphischen Oberfläche von R wird im folgenden von einer deutschsprachigen Installation unter Windows ausgegangen. Für eine ähnliche, aber plattformunabhängige Oberfläche vgl. JGR (Helbig et al., 2005). Abgesehen von der Oberfläche bestehen nur unwesentliche Unterschiede zwischen der Arbeit mit R unter verschiedenen Betriebssystemen.

  7. 7.

    R-2.10.1-win32.exe ist die im März 2010 aktuelle Version von R für Windows. 2.10.1 ist die Versionsnummer. Wenn Sie R zu einem späteren Zeitpunkt herunterladen, ist u. U. eine neuere Version verfügbar. Es sind dann leichte, für den Benutzer jedoch in den allermeisten Fällen nicht merkliche Abweichungen zur in diesem Manuskript beschriebenen Arbeitsweise von Funktionen möglich.

  8. 8.

    Für automatisierte Auswertungen vgl. Abschn. 4.1. Die Ausgabe lässt sich mit der sink() Funktion entweder gänzlich oder im Sinne eines Protokolls aller Vorgänge als Kopie in eine Datei umleiten (Argument split=TRUE). Ebenso lassen sich alle Konsoleninhalte (eingegebene Befehle und Output) über das Menü mit Datei: Speichern in Datei in einer Textdatei speichern. Befehle des Betriebssystems sind mit shell("〈Befehl〉") ausführbar, so können etwa die Netzwerkverbindungen mit shell("netstat") angezeigt werden.

  9. 9.

    Unter Unix-artigen Systemen auch in die Datei .Rprofile im Heimverzeichnis des Benutzers. Hier können auch eigene Funktionen namens .First bzw. .Last mit beliebigen Befehlen definiert werden, die dann beim Start als erstes bzw. bei Beenden als letztes ausgeführt werden, vgl. Abschn. 11.1.

  10. 10.

    Tatsächlich rufen auch die meisten Einträge des Menüs im Programmfenster lediglich die zugehörigen R-Funktionen auf. In der Konsole stehen zum Speichern und Laden der Befehlshistorie die Funktionen savehistory(file="〈Dateiname〉") und loadhistory(file="〈Dateiname〉") zur Verfügung.

  11. 11.

    Sofern diese Formatierung nicht mit options(scipen=999) ganz unterbunden wird. Allgemein kann dabei mit ganzzahlig positiven Werten für scipen (Scientific Penalty) die Schwelle erhöht werden, ab der R die wissenschaftliche Notation für Zahlen verwendet, vgl. ?options.

  12. 12.

    Der Dezimalteil einer Dezimalzahl ergibt sich also als 〈Zahl〉 %% 1.

  13. 13.

    R rundet in der Voreinstellung nicht nach dem vielleicht vertrauten Prinzip des kaufmännischen Rundens, sondern unverzerrt (Bronstein et al., 2008). Durch negative Werte für digits kann auch auf Zehnerpotenzen gerundet werden.

  14. 14.

    Für die zur Bestimmung der Ausführungsreihenfolge wichtige Assoziativität von Operatoren vgl. ?Syntax.

  15. 15.

    In R sind auch Operatoren wie +, -, * oder  /  Funktionen, für die lediglich eine bequemere und vertrautere Kurzschreibweise zur Verfügung steht. Operatoren lassen sich aber auch in der üblichen Präfix-Form benutzen, wenn sie in Anführungszeichen gesetzt werden. "/"(1, 10) ist also äquivalent zu 1/10.

  16. 16.

    In diesem Text werden nur die wichtigsten Argumente der behandelten Funktionen vorgestellt, eine vollständige Übersicht liefert jeweils args(〈Funktionsname〉) sowie die zugehörige Hilfeseite ?〈Funktionsname〉.

  17. 17.

    Gleiches gilt für die Werte von Argumenten, sofern sie aus einer festen Liste von Zeichenketten stammen. Statt cov(〈Matrix〉, use="pairwise.complete.obs") ist also auch cov(〈Matrix〉, u="pairwise") als Funktionsaufruf möglich.

  18. 18.

    Mit dem Argument repos von install.packages() können temporär, mit der Funktion setRepositories() auch dauerhaft andere Server als.

  19. 19.

    Bei der Installation einer neuen R-Version müssen zuvor manuell hinzugefügte Pakete erneut installiert werden. Alternativ können Pakete auch in einem separaten Verzeichnis außerhalb des R-Programmverzeichnisses installiert werden. Dafür muss eine Textdatei Renviron.site im Unterordner etc/des R-Programmordners existieren und eine Zeile der Form R_LIBS="〈Pfad〉” (z. B. R_LIBS="c:/rlibs/") mit dem Pfad zu den Paketen enthalten.

  20. 20.

    Wird versucht, ein nicht installiertes Paket zu laden, erzeugt library() einen Fehler und gibt ein später zur Fallunterscheidung verwendbares FALSE zurück, sofern das Argument logical.return=TRUE gesetzt wird (vgl. Abschn. 11.2.1). Soll in einem solchen Fall nur eine Warnung ausgegeben werden, ist require() zu verwenden.

  21. 21.

    Die Funktion label() aus dem Hmisc Paket (Harrell, 2009a) erweitert dieses Konzept und macht es den etwa in SPSS gebräuchlichen Variablen-Labels ähnlicher.

  22. 22.

    Wenn ein Objektname dennoch nicht zulässige Zeichen enthält, kann man nichtsdestotrotz auf das Objekt zugreifen, indem man den Namen in rückwärts gerichtete Hochkommata setzt (‘〈Objektname〉‘).

  23. 23.

    Um gezielt Objekte aus einer bestimmten Umgebung zu erhalten vgl. ?environment.

  24. 24.

    Für reelle Zahlen (numeric) existieren zwei Möglichkeiten, sie in einem Computer intern zu repräsentieren: ganze Zahlen können mit einem L hinter der Zahl gekennzeichnet werden (z. B. 5L), wodurch R sie dann auch als solche speichert (integer). Andernfalls werden alle Zahlen als Gleitkommazahlen mit doppelter Genauigkeit gespeichert (double). Dies lässt sich mit dem Befehl typeof(〈Objekt〉) abfragen. Ob ein Objekt einen bestimmten Speichertyp aufweist, wird mit Funktionen der is.〈Speicherart〉(Objekt) Familie geprüft (z. B. is.double(〈Objekt〉)).

  25. 25.

    Dies können einfache (’〈Zeichen〉’) oder doppelte ("〈Zeichen〉") Anführungszeichen sein. Innerhalb einfacher Anführungszeichen können auch Zeichenketten stehen, die ihrerseits doppelte Anführungszeichen beinhalten (’a"b’), während diese innerhalb doppelter Anführungszeichen als sog. Escape-Sequenz durch einen vorangestellten Backslash zu schreiben sind ("a\"b").

  26. 26.

    Aufgrund der Art, in der Computer Gleitkommazahlen intern speichern und verrechnen, sind kleine Abweichungen in Rechenergebnissen schon bei harmlos wirkenden Ausdrücken möglich. So ergibt der Vergleich 0.1 + 0.2 == 0.3 fälschlicherweise FALSE und 1 %/% 0.1 ist 9 statt 10. sin(pi) wird als 1.224606e-16 und nicht exakt 0 berechnet, ebenso ist 1-((1/49)*49) nicht exakt 0, sondern 1.110223e-16. Dagegen ist 1-((1/48)*48) exakt 0. Dies sind keine R-spezifischen Probleme, sie können nicht allgemein verhindert werden (Cowlishaw, 2008; Goldberg, 1991).

References

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Daniel Wollschläger .

Rights and permissions

Reprints and permissions

Copyright information

© 2010 Springer-Verlag Berlin Heidelberg

About this chapter

Cite this chapter

Wollschläger, D. (2010). Erste Schritte. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-12228-6_1

Download citation

Publish with us

Policies and ethics