Zusammenfassung
Die Korrelation zweier quantitativer Variablen ist ein Maß ihres linearen Zusammenhangs, ohne dass eine Kausalbeziehung zwischen ihnen impliziert würde. Auch die lineare Regression bezieht sich auf den linearen Zusammenhang von Variablen, um mit seiner Hilfe Variablenwerte einer Zielvariable (des Kriteriums) durch die Werte anderer Variablen (der Prädiktoren) vorherzusagen. Für beide Verfahren lassen sich auch inferenzstatistisch testbare Hypothesen über ihre Parameter aufstellen. Für die statistischen Grundlagen dieser Themen vgl. die darauf spezialisierte Literatur (Bortz, 2005; Hartung et∼al., 2005; Hays, 1994), die auch für eine vertiefte Behandlung von Regressionsanalysen in R verfügbar ist (Faraway, 2004; Fox, 2002).
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Für den Test auf Zusammenhang von Rangdaten vgl. Abschn. 6.3.1.
- 2.
Die rcorr() Funktion aus dem Hmisc Paket berechnet für mehrere Variablen die Korrelationsmatrix nach Pearson sowie nach Spearman und testet die resultierenden Korrelationen gleichzeitig auf Signifikanz.
- 3.
Für Fishers z-Transformation vgl. die fisherz(), für die Rücktransformation die fisherz2r() Funktion des psych Pakets.
- 4.
Für Verfahren zur sog. robusten Regression vgl. die Funktionen lqs() und rlm() aus dem MASS Paket sowie Jurečková und Picek (2006). Für die Bestimmung von Parametern in nichtlinearen Vorhersagemodellen anhand der Methode der kleinsten quadrierten Abweichungen vgl. die nls() Funktion und Ritz und Streibig (2009). Für Maximum-Likelihood-Schätzungen der Parameter vgl. die glm() Funktion, deren Anwendung im Rahmen der logistischen Regression Abschn. 7.4 demonstriert. Die Ridge-Regression wird durch die Funktion lm.ridge() aus dem MASS Paket bereitgestellt.
- 5.
Mit na.action=na.omit zum Ausschluss aller Fälle mit mindestens einem fehlenden Wert ist zu beachten, dass das Ergebnis entsprechend weniger vorhergesagte Werte und Residuen umfasst. Dies kann etwa dann relevant sein, wenn diese Werte mit den ursprünglichen Datenvektoren in einer Rechnung auftauchen.
- 6.
Für eine Mediationsanalyse mit dem Sobel-Test vgl. die sobel() Funktion aus dem multilevel Paket, weitergehende Mediationsanalysen sind mit dem mediation Paket möglich (Keele et∼al., 2009).
- 7.
Im folgenden wird dieser Teil des Outputs mit options(show.signif.stars=FALSE) unterdrückt.
- 8.
Eine theoretische Korrelation von 0 wird systematisch überschätzt, Erwartungswert des empirischen R 2 ist dann \((P-1) / (N-1)\).
- 9.
Dies ist die hier intern automatisch aufgerufene Funktion, da predict() generisch ist (vgl. Abschn. Abschn. 11.1.5).
- 10.
Handelt es sich etwa im Rahmen einer Kovarianzanalyse (vgl. Abschn. 8.8) um einen kategorialen Prädiktor, mithin ein Objekt der Klasse factor, so muss die zugehörige Variable in newdata dieselben Stufen in derselben Reihenfolge beinhalten wie die des ursprünglichen Modells∼– selbst wenn nicht alle Faktorstufen tatsächlich als Ausprägung vorkommen.
- 11.
Kompliziertere Vorgehensweisen sind denkbar, etwa die mehrfache neu-Partitionierung der Gesamtstichprobe in zwei oder mehr Teilstichproben mit anschließender Berechnung der Anpassungsgüte. Das Paket DAAG stellt mit cv.lm() eine Funktion für die Kreuzvalidierung linearer Modelle bereit.
- 12.
Für die multivariate multiple Regression mit mehreren Kriteriumsvariablen Y k vgl. Abschn. 9.1.
- 13.
Hier sei vorausgesetzt, dass die Kovarianzmatrix der Prädiktoren invertierbar ist (vgl. Abschn. 2.9.2), also keine lineare Abhängigkeit zwischen den Prädiktoren vorliegt.
- 14.
Beim Akaike Information Criterion AIC stehen kleinere Werte für eine höhere Informativität. Es berücksichtigt einerseits die Güte der Modellanpassung, andererseits die Komplexität des Modells, gemessen an der Anzahl zu schätzender Parameter. Besitzen zwei Modelle dieselbe Anpassungsgüte, erhält das Modell mit einer geringeren Anzahl von Parametern den kleineren AIC-Wert, vgl. ?AIC.
- 15.
Dieses Verfahren ist mit vielen inhaltlichen Problemen verbunden. Für eine Diskussion und verschiedene Strategien zur Auswahl von Prädiktoren vgl. Miller (2002).
- 16.
Fortgeschrittene Methoden zur Diagnostik von Multikollinearität enthält das Paket perturb (Hendrickx, 2008).
- 17.
Solche Transformationen des eigentlich vorherzusagenden Parameters, die eine lineare Modellierung ermöglichen, heißen auch Link-Funktion.
- 18.
Für weitere Funktionen zum Erstellen und Analysieren von logistischen Regressionsmodellen vgl. das Paket rms (Harrell Jr, 2009b).
- 19.
Für eine Probit-Regression mit der Umkehrfunktion der Verteilungsfunktion der Standardnormalverteilung als Link-Funktion entsprechend binomial(link=“probit”). Soll eine gewöhnliche lineare Regression angepasst werden, wäre gaussian(link=“identity”) einzutragen, da hier von einer normalverteilten AV ausgegangen wird, die nicht durch eine Link-Funktion transformiert werden muss, um linear modellierbar zu sein.
- 20.
Im Sinne von sum(residuals(8GLM-Modell9)^2), wobei es sich um sog. Deviance Residuen handelt, vgl. ?residuals.glm. Dagegen speichert 8GLM-Modell9$residuals die sog. Working Residuen.
References
Agresti, A. (2007). An Introduction to Categorical Data Analysis (2. Aufl.). New York, NY: Wiley.
Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6. Aufl.). Heidelberg: Springer.
Faraway, J. J. (2004). Linear Models with R. Boca Raton, FL: Chapman & Hall/CRC. URL http://www.maths.bath.ac.uk/∼jjf23/LMR/
Fox, J. (2002). An R and S-PLUS Companion to Applied Regression. Thousand Oaks, CA: Sage. URL http://socserv.socsci.mcmaster.ca/jfox/Books/Companion/
Hays, W. L. (1994). Statistics (5. Aufl.). Belmont, CA: Wadsworth Publishing.
Miller, A. J. (2002). Subset Selection in Regression (2. Aufl.). Boca Raton, FL: Chapman & Hall/CRC.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
Copyright information
© 2010 Springer-Verlag Berlin Heidelberg
About this chapter
Cite this chapter
Wollschläger, D. (2010). Korrelation und Regressionsanalyse. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-12228-6_7
Download citation
DOI: https://doi.org/10.1007/978-3-642-12228-6_7
Published:
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-642-12227-9
Online ISBN: 978-3-642-12228-6
eBook Packages: Life Science and Basic Disciplines (German Language)