Korrelation und Regressionsanalyse

Wollschläger, Daniel

doi:10.1007/978-3-642-12228-6_7

Daniel Wollschläger²

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

4266 Accesses

Zusammenfassung

Die Korrelation zweier quantitativer Variablen ist ein Maß ihres linearen Zusammenhangs, ohne dass eine Kausalbeziehung zwischen ihnen impliziert würde. Auch die lineare Regression bezieht sich auf den linearen Zusammenhang von Variablen, um mit seiner Hilfe Variablenwerte einer Zielvariable (des Kriteriums) durch die Werte anderer Variablen (der Prädiktoren) vorherzusagen. Für beide Verfahren lassen sich auch inferenzstatistisch testbare Hypothesen über ihre Parameter aufstellen. Für die statistischen Grundlagen dieser Themen vgl. die darauf spezialisierte Literatur (Bortz, 2005; Hartung et∼al., 2005; Hays, 1994), die auch für eine vertiefte Behandlung von Regressionsanalysen in R verfügbar ist (Faraway, 2004; Fox, 2002).

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 29.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Für den Test auf Zusammenhang von Rangdaten vgl. Abschn. 6.3.1.
2.
Die rcorr() Funktion aus dem Hmisc Paket berechnet für mehrere Variablen die Korrelationsmatrix nach Pearson sowie nach Spearman und testet die resultierenden Korrelationen gleichzeitig auf Signifikanz.
3.
Für Fishers z-Transformation vgl. die fisherz(), für die Rücktransformation die fisherz2r() Funktion des psych Pakets.
4.
Für Verfahren zur sog. robusten Regression vgl. die Funktionen lqs() und rlm() aus dem MASS Paket sowie Jurečková und Picek (2006). Für die Bestimmung von Parametern in nichtlinearen Vorhersagemodellen anhand der Methode der kleinsten quadrierten Abweichungen vgl. die nls() Funktion und Ritz und Streibig (2009). Für Maximum-Likelihood-Schätzungen der Parameter vgl. die glm() Funktion, deren Anwendung im Rahmen der logistischen Regression Abschn. 7.4 demonstriert. Die Ridge-Regression wird durch die Funktion lm.ridge() aus dem MASS Paket bereitgestellt.
5.
Mit na.action=na.omit zum Ausschluss aller Fälle mit mindestens einem fehlenden Wert ist zu beachten, dass das Ergebnis entsprechend weniger vorhergesagte Werte und Residuen umfasst. Dies kann etwa dann relevant sein, wenn diese Werte mit den ursprünglichen Datenvektoren in einer Rechnung auftauchen.
6.
Für eine Mediationsanalyse mit dem Sobel-Test vgl. die sobel() Funktion aus dem multilevel Paket, weitergehende Mediationsanalysen sind mit dem mediation Paket möglich (Keele et∼al., 2009).
7.
Im folgenden wird dieser Teil des Outputs mit options(show.signif.stars=FALSE) unterdrückt.
8.
Eine theoretische Korrelation von 0 wird systematisch überschätzt, Erwartungswert des empirischen R ² ist dann $(P-1) / (N-1)$.
9.
Dies ist die hier intern automatisch aufgerufene Funktion, da predict() generisch ist (vgl. Abschn. Abschn. 11.1.5).
10.
Handelt es sich etwa im Rahmen einer Kovarianzanalyse (vgl. Abschn. 8.8) um einen kategorialen Prädiktor, mithin ein Objekt der Klasse factor, so muss die zugehörige Variable in newdata dieselben Stufen in derselben Reihenfolge beinhalten wie die des ursprünglichen Modells∼– selbst wenn nicht alle Faktorstufen tatsächlich als Ausprägung vorkommen.
11.
Kompliziertere Vorgehensweisen sind denkbar, etwa die mehrfache neu-Partitionierung der Gesamtstichprobe in zwei oder mehr Teilstichproben mit anschließender Berechnung der Anpassungsgüte. Das Paket DAAG stellt mit cv.lm() eine Funktion für die Kreuzvalidierung linearer Modelle bereit.
12.
Für die multivariate multiple Regression mit mehreren Kriteriumsvariablen Y _k vgl. Abschn. 9.1.
13.
Hier sei vorausgesetzt, dass die Kovarianzmatrix der Prädiktoren invertierbar ist (vgl. Abschn. 2.9.2), also keine lineare Abhängigkeit zwischen den Prädiktoren vorliegt.
14.
Beim Akaike Information Criterion AIC stehen kleinere Werte für eine höhere Informativität. Es berücksichtigt einerseits die Güte der Modellanpassung, andererseits die Komplexität des Modells, gemessen an der Anzahl zu schätzender Parameter. Besitzen zwei Modelle dieselbe Anpassungsgüte, erhält das Modell mit einer geringeren Anzahl von Parametern den kleineren AIC-Wert, vgl. ?AIC.
15.
Dieses Verfahren ist mit vielen inhaltlichen Problemen verbunden. Für eine Diskussion und verschiedene Strategien zur Auswahl von Prädiktoren vgl. Miller (2002).
16.
Fortgeschrittene Methoden zur Diagnostik von Multikollinearität enthält das Paket perturb (Hendrickx, 2008).
17.
Solche Transformationen des eigentlich vorherzusagenden Parameters, die eine lineare Modellierung ermöglichen, heißen auch Link-Funktion.
18.
Für weitere Funktionen zum Erstellen und Analysieren von logistischen Regressionsmodellen vgl. das Paket rms (Harrell Jr, 2009b).
19.
Für eine Probit-Regression mit der Umkehrfunktion der Verteilungsfunktion der Standardnormalverteilung als Link-Funktion entsprechend binomial(link=“probit”). Soll eine gewöhnliche lineare Regression angepasst werden, wäre gaussian(link=“identity”) einzutragen, da hier von einer normalverteilten AV ausgegangen wird, die nicht durch eine Link-Funktion transformiert werden muss, um linear modellierbar zu sein.
20.
Im Sinne von sum(residuals(8GLM-Modell9)^2), wobei es sich um sog. Deviance Residuen handelt, vgl. ?residuals.glm. Dagegen speichert 8GLM-Modell9$residuals die sog. Working Residuen.

References

Agresti, A. (2007). An Introduction to Categorical Data Analysis (2. Aufl.). New York, NY: Wiley.
Google Scholar
Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6. Aufl.). Heidelberg: Springer.
Google Scholar
Faraway, J. J. (2004). Linear Models with R. Boca Raton, FL: Chapman & Hall/CRC. URL http://www.maths.bath.ac.uk/∼jjf23/LMR/
Google Scholar
Fox, J. (2002). An R and S-PLUS Companion to Applied Regression. Thousand Oaks, CA: Sage. URL http://socserv.socsci.mcmaster.ca/jfox/Books/Companion/
Google Scholar
Hays, W. L. (1994). Statistics (5. Aufl.). Belmont, CA: Wadsworth Publishing.
Google Scholar
Miller, A. J. (2002). Subset Selection in Regression (2. Aufl.). Boca Raton, FL: Chapman & Hall/CRC.
Google Scholar

Download references

Author information

Authors and Affiliations

Christian-Albrechts-Universität zu Kiel, Institut für Psychologie, Olshausenstr. 62, 24098, Kiel, Deutschland
Daniel Wollschläger

Authors

Daniel Wollschläger
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Daniel Wollschläger .

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Wollschläger, D. (2010). Korrelation und Regressionsanalyse. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-12228-6_7

Download citation

DOI: https://doi.org/10.1007/978-3-642-12228-6_7
Published: 30 June 2010
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-642-12227-9
Online ISBN: 978-3-642-12228-6
eBook Packages: Life Science and Basic Disciplines (German Language)

Publish with us

Policies and ethics