Skip to main content

Multivariate Verfahren

  • Chapter
  • First Online:
Grundlagen der Datenanalyse mit R

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

  • 17k Accesses

Zusammenfassung

Liegen von Beobachtungsobjekten Werte mehrerer Variablen vor, kann sich die Datenanalyse nicht nur auf jede Variable einzeln, sondern auch auf die gemeinsame Verteilung der Variablen beziehen. Solche Fragestellungen sind mit multivariaten Verfahren zu bearbeiten (Backhaus, Erichson, Plinke, & Weiber, 2015a Backhaus, Erichson, & Weiber, 2015b; Mardia, Kent, & Bibby, 1980), deren Anwendung in R Zelterman (2015) vertiefend behandelt. Abschn. 14.6.8, 14.7 und 15.3 thematisieren Möglichkeiten, multivariate Daten in Diagrammen zu veranschaulichen.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 44.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Die hier vorgestellten Rechenwege setzen die mathematischen Formeln direkt um. Tatsächlich gibt es häufig numerisch effizientere und stabilere Möglichkeiten, um dieselben Ergebnisse zu erhalten. So entspricht die Implementierung von R-eigenen Funktionen auch meist nicht den hier vorgestellten Rechnungen (Bates, 2004). Siehe Abschn. 17.3.3 für Wege, die Effizienz der Berechnungen zu steigern. Das Paket Matrix (Bates & Maechler, 2016) enthält fortgeschrittene Methoden der Matrix-Algebra – etwa zu schwachbesetzten Matrizen, die u. a. als Designmatrizen linearer Modelle auftauchen (Abschn. 12.9.1).

  2. 2.

    Bei nicht quadratischen (p × q)-Matrizen \(\mathbf{X}\) sind dies die Elemente x 11, …, x pp (für p < q) bzw. x 11, …, x qq (für p > q).

  3. 3.

    Eine Dezimalzahl wird dabei tranchiert. Eine (1 × 1)-Diagonalmatrix \(\mathbf{X}\) kann mit einem weiteren Argument als diag(x, nrow=1) erzeugt werden.

  4. 4.

    Mit dem Operator 〈Matrix〉 %^% 〈Zahl〉 aus dem Paket expm (Goulet et al., 2015) ist das Exponenzieren von quadratischen Matrizen möglich, mit logm() aus demselben Paket das Logarithmieren.

  5. 5.

    Sie ist zudem numerisch effizienter als die Verwendung von t(X) %*% Y. Die Benennung erscheint unglücklich, da Verwechslungen mit dem Vektor-Kreuzprodukt naheliegen, das man stattdessen mit cross() aus dem Paket pracma (Borchers, 2016b) erhält.

  6. 6.

    Im Anwendungsfall würde man stattdessen auf scale(〈Matrix〉, center=TRUE, scale=FALSE) zurückgreifen, um eine Matrix spaltenweise zu zentrieren.

  7. 7.

    Für die Pseudoinverse \(\mathbf{A}^{+}\) einer nicht invertierbaren Matrix \(\mathbf{A}\) vgl. ginv() aus dem MASS Paket. Für solche Matrizen ermittelt Null() aus demselben Paket eine Basis des Kerns von \(\mathbf{A}^{\top }\) (null space).

  8. 8.

    Jede Transformation der Form \(\mathbf{G}\mathbf{S}^{-\frac{1} {2} }(\mathbf{x} -\overline{\mathbf{x}})\) mit \(\mathbf{G}\) als Orthogonalmatrix (\(\mathbf{G}^{\top } = \mathbf{G}^{-1}\)) würde ebenfalls eine multivariate z-Transformation liefern.

  9. 9.

    Es sei \(\mathbf{a}_{i\cdot }\) die i-te Zeile und \(\mathbf{a}_{\cdot j}\) die j-te Spalte von \(\mathbf{A}\). Dann gilt \(\mbox{ tr}(\mathbf{A}^{\top }\mathbf{A}) =\sum \nolimits_{j}\mathbf{a}_{\cdot j}^{\top }\mathbf{a}_{\cdot j} =\sum \nolimits_{j}\sum \nolimits_{i}a_{ij}^{2} =\sum \nolimits_{i}\sum \nolimits_{j}a_{ij}^{2} =\sum \nolimits_{i}\mathbf{a}_{i\cdot }^{\top }\mathbf{a}_{i\cdot } = \mbox{ tr}(\mathbf{A}\mathbf{A}^{\top })\).

  10. 10.

    \(\det (\mathbf{A}) \cdot \det (\mathbf{A}^{-1}) =\det (\mathbf{A}\mathbf{A}^{-1}) =\det (\mathbf{I}) =\prod \nolimits_{ i=1}^{p}1 = 1^{p} = 1\).

  11. 11.

    Eigenwerte werden entsprechend ihrer algebraischen Vielfachheit ggf. mehrfach aufgeführt. Auch Matrizen mit komplexen Eigenwerten sind zugelassen. Da in der Statistik vor allem Eigenwerte von Kovarianzmatrizen interessant sind, konzentriert sich die Darstellung hier auf den Fall reeller symmetrischer Matrizen. Ihre Eigenwerte sind alle reell, zudem stimmen algebraische und geometrische Vielfachheiten überein.

  12. 12.

    \(\mathbf{A}\mathbf{A} = \mathbf{G}\mathbf{D}^{\frac{1} {2} }\mathbf{G}^{\top }\mathbf{G}\mathbf{D}^{\frac{1} {2} }\mathbf{G}^{\top } = \mathbf{G}\mathbf{D}^{\frac{1} {2} }\mathbf{D}^{\frac{1} {2} }\mathbf{G}^{\top } = \mathbf{G}\mathbf{D}\mathbf{G}^{\top } = \mathbf{X}\). Siehe auch sqrtm() aus dem Paket expm.

  13. 13.

    \(\mathbf{N}\mathbf{N}^{\top } = \mathbf{G}\mathbf{D}^{\frac{1} {2} }(\mathbf{G}\mathbf{D}^{\frac{1} {2} })^{\top } = \mathbf{G}\mathbf{D}^{\frac{1} {2} }(\mathbf{D}^{\frac{1} {2} })^{\top }\mathbf{G}^{\top } = \mathbf{G}\mathbf{D}\mathbf{G}^{\top } = \mathbf{X}\).

  14. 14.

    (A A)−1 A ist die Pseudoinverse A + von A.

  15. 15.

    Im Kontext linearer Modelle ist P die Hat-Matrix (Abschn. 6.3.1).

  16. 16.

    Ist v aus V, lässt sich v = Cy schreiben, wobei y der Koordinatenvektor von v bzgl. einer Orthogonalbasis C von V ist. Damit folgt \(\mathbf{P}\mathbf{v} = \mathbf{C}\mathbf{C}^{\top }\mathbf{v} = \mathbf{C}\mathbf{C}^{\top }\mathbf{C}\mathbf{y} = \mathbf{C}\mathbf{y} = \mathbf{v}\).

  17. 17.

    Zunächst gilt P 2 = (CC )(CC ) = CC  = P. Weiter gilt P  = (CC ) = CC  = P.

  18. 18.

    tr(P) = tr(CC ) = tr(C C) = tr(I) = p.

  19. 19.

    \(\mathbf{P}_{1}\mathbf{P}_{2} = (\mathbf{P}_{1}\mathbf{P}_{2})^{\top } = \mathbf{P}_{2}^{\top }\mathbf{P}_{1}^{\top } = \mathbf{P}_{2}\mathbf{P}_{1}\).

  20. 20.

    Ist w = (IP)x aus \(V ^{\perp }\) und v aus V, muss w v = 0 gelten. v lässt sich als v = Cy schreiben, wobei y der Koordinatenvektor von v bzgl. einer Orthogonalbasis C von V ist. Nun gilt \(\mathbf{w}^{\top }\mathbf{v} = ((\mathbf{I}-\mathbf{P})\mathbf{x})^{\top }\mathbf{C}\mathbf{y} = \mathbf{x}^{\top }(\mathbf{I}-\mathbf{P})\mathbf{C}\mathbf{y} = (\mathbf{x}^{\top }-\mathbf{x}^{\top }\mathbf{C}\mathbf{C}^{\top })\mathbf{C}\mathbf{y} = \mathbf{x}^{\top }\mathbf{C}\mathbf{y}-\mathbf{x}^{\top }\mathbf{C}\mathbf{C}^{\top }\mathbf{C}\mathbf{y} = \mathbf{x}^{\top }\mathbf{C}\mathbf{y}-\mathbf{x}^{\top }\mathbf{C}\mathbf{y} = \mathbf{0}\).

  21. 21.

    (IP)v = IvPv = vv = 0, da v durch P unverändert bleibt.

  22. 22.

    \(\mathbf{P}_{1} = \mathbf{1}_{n}(\mathbf{1}_{n}^{\top }\mathbf{1}_{n})^{-1}\mathbf{1}_{n}^{\top } = \frac{1} {n}\,\mathbf{1}_{n}\mathbf{1}_{n}^{\top } = \frac{1} {n}\,\mathbf{1}_{n\times n}\).

  23. 23.

    Hier sei voller Spaltenrang von X vorausgesetzt. Dann ist \(\mathbf{X}^{+} = (\mathbf{X}^{\top }\mathbf{X})^{-1}\mathbf{X}^{\top } = ((\mathbf{Q}\mathbf{R})^{\top }\mathbf{Q}\mathbf{R})^{-1}(\mathbf{Q}\mathbf{R})^{\top } = (\mathbf{R}^{\top }\mathbf{Q}^{\top }\mathbf{Q}\mathbf{R})^{-1}\mathbf{R}^{\top }\mathbf{Q}^{\top } = (\mathbf{R}^{\top }\mathbf{R})^{-1}\mathbf{R}^{\top }\mathbf{Q}^{\top } = \mathbf{R}^{-1}\mathbf{R}^{t-1}\mathbf{R}^{\top }\mathbf{Q}^{\top } = \mathbf{R}^{-1}\mathbf{Q}^{\top }\).

  24. 24.

    \(\mathbf{X}\mathbf{X}^{+} = \mathbf{Q}\mathbf{R}\mathbf{R}^{-1}\mathbf{Q}^{\top } = \mathbf{Q}\mathbf{Q}^{\top }\).

  25. 25.

    Es sei \(\overline{\mathbf{x}}\) das Zentroid der spaltenweise aus den Variablen zusammengestellten Datenmatrix X, x ein Datenvektor und G die Matrix der spaltenweise zusammengestellten normierten Eigenvektoren der Kovarianzmatrix S von X (Abschn. 12.1.5). Mit dem Spektralsatz ist G eine Orthogonalmatrix (\(\mathbf{G}^{\top } = \mathbf{G}^{-1}\), s. Abschn. 12.1.6). Dann berechnet sich der zugehörige Vektor y der Hauptkomponenten als \(\mathbf{y} = \mathbf{G}^{\top }(\mathbf{x} -\overline{\mathbf{x}})\).

  26. 26.

    Genauer gesagt ist ihre Kovarianz 0 – da ihre Varianz auch 0 sein kann, ist die Korrelation nicht immer definiert. S lässt sich mit \(\mathbf{S} = \mathbf{G}\mathbf{D}\mathbf{G}^{\top }\) diagonalisieren (Abschn. 12.1.6). Dabei ist D die zu G gehörende, aus den Eigenwerten von S gebildete Diagonalmatrix. Damit gilt \(V (\mathbf{y}) = V (\mathbf{G}^{\top }(\mathbf{x}-\overline{\mathbf{x}})) = V (\mathbf{G}^{\top }\mathbf{x}-\mathbf{G}^{\top }\overline{\mathbf{x}}) = V (\mathbf{G}^{\top }\mathbf{x}) = \mathbf{G}^{\top }V (\mathbf{x})\mathbf{G} = \mathbf{G}^{\top }\mathbf{S}\mathbf{G} = \mathbf{G}^{\top }\mathbf{G}\mathbf{D}\mathbf{G}^{\top }\mathbf{G} = \mathbf{D}\). Die Varianzen der Hauptkomponenten sind also gleich den Eigenwerten der Kovarianzmatrix der Daten, die Kovarianzen sind 0.

  27. 27.

    Es seien x 1 und x 2 zwei Datenvektoren mit zugehörigen Hauptkomponenten-Vektoren y 1 und y 2. Dann gilt \(\|\mathbf{x}_{2}-\mathbf{x}_{1}\|^{2} = (\mathbf{x}_{2}-\mathbf{x}_{1})^{\top }(\mathbf{x}_{2}-\mathbf{x}_{1}) = (\mathbf{x}_{2}-\mathbf{x}_{1})^{\top }\mathbf{G}\mathbf{G}^{\top }(\mathbf{x}_{2}-\mathbf{x}_{1}) = (\mathbf{G}^{\top }(\mathbf{x}_{2}-\mathbf{x}_{1}))^{\top }\mathbf{G}^{\top }(\mathbf{x}_{2}-\mathbf{x}_{1}) =\| \mathbf{G}^{\top }(\mathbf{x}_{2}-\mathbf{x}_{1})\|^{2} =\| \mathbf{G}^{\top }\mathbf{x}_{2}-\mathbf{G}^{\top }\mathbf{x}_{1}\|^{2} =\| \mathbf{G}^{\top }(\mathbf{x}_{2}-\overline{\mathbf{x}})-\mathbf{G}^{\top }(\mathbf{x}_{1}-\overline{\mathbf{x}})\|^{2} =\| \mathbf{y}_{2}-\mathbf{y}_{1}\|^{2}\).

  28. 28.

    Für die robuste Hauptkomponentenanalyse vgl. das Paket pcaPP (Filzmoser, Fritz, & Kalcher, 2016).

  29. 29.

    Zunächst gilt \(\mathbf{H} = \mathbf{Y}\mathbf{D}^{-\frac{1} {2} }\), wobei \(\mathbf{Y} =\dot{ \mathbf{X}}\mathbf{G} = \mathbf{Z}\mathbf{X}\mathbf{G}\) die Matrix der (zentrierten) Hauptkomponenten und Z die Zentriermatrix zu X ist (Abschn. 12.1.1). Wegen \(\mathbf{G}^{\top } = \mathbf{G}^{-1}\) folgt \(\mathbf{H}\mathbf{B}^{\top } + \overline{\mathbf{x}} = \mathbf{Y}\mathbf{D}^{-\frac{1} {2} }(\mathbf{G}\mathbf{D}^{\frac{1} {2} })^{\top } + \overline{\mathbf{x}} = \mathbf{Z}\mathbf{X}\mathbf{G}\mathbf{D}^{-\frac{1} {2} }\mathbf{D}^{\frac{1} {2} }\mathbf{G}^{\top } + \overline{\mathbf{x}} =\dot{ \mathbf{X}}\mathbf{G}\mathbf{G}^{\top } + \overline{\mathbf{x}} = \mathbf{X}\).

  30. 30.

    \(\mathbf{B}\mathbf{B}^{\top } = \mathbf{G}\mathbf{D}^{\frac{1} {2} }(\mathbf{G}\mathbf{D}^{\frac{1} {2} })^{\top } = \mathbf{G}\mathbf{D}^{\frac{1} {2} }\mathbf{D}^{\frac{1} {2} }\mathbf{G}^{\top } = \mathbf{G}\mathbf{D}\mathbf{G}^{\top } = \mathbf{S}\).

  31. 31.

    Weiterhin basiert prcomp() intern auf der Singulärwertzerlegung mit svd(), princomp() hingegen auf der Berechnung der Eigenwerte mit eigen() (Abschn. 12.1.6). Die Singulärwertzerlegung gilt als numerisch stabiler bei schlecht konditionierten Matrizen i. S. der Kondition κ (Abschn. 12.1.5) – prcomp() sollte also vorgezogen werden.

  32. 32.

    Für weitere Verfahren, die die Beziehungen latenter und beobachtbarer Variablen modellieren, vgl. den Abschnitt Psychometric Models der CRAN Task Views (Mair, 2016). Lineare Strukturgleichungsmodelle werden durch die Pakete sem (Fox, Nie, & Byrnes, 2016), OpenMx (Boker et al., 2011) und lavaan (Rosseel, 2012) unterstützt.

  33. 33.

    In diesem Sinne ist die Faktorenanalyse das Gegenteil der Hauptkomponentenanalyse, in der die Hauptkomponenten Linearkombinationen der beobachtbaren Variablen sind.

  34. 34.

    Für n Personen seien die Werte auf den beobachtbaren Variablen zeilenweise in einer (n × p)-Matrix X zusammengefasst, analog die Faktorwerte in einer (n × q)-Matrix F und die Fehler in einer (n × p)-Matrix E. Dann lautet das Modell \(\mathbf{X} = \mathbf{F}\boldsymbol{\Lambda }^{\top } + \mathbf{E}\).

  35. 35.

    Die konfirmatorische Faktorenanalyse, bei der theoretische Erwägungen ein bestimmtes, auf Konsistenz mit den Daten zu testendes \(\boldsymbol{\Lambda }\) vorgeben, ist mit Hilfe linearer Strukturgleichungsmodelle durchzuführen (Fußnote 32).

  36. 36.

    Weitere Rotationsarten, etwa für das Modell korrelierter Faktoren, stellt das Paket GPArotation (Bernaards & Jennrich, 2005) zur Verfügung. Es enthält Funktionen, deren Namen an das Argument rotation übergeben werden können, z. B. "oblimin" für eine schiefwinklige Rotation. Für eine vollständige Liste vgl. ?rotations, nachdem das Paket installiert und geladen wurde.

  37. 37.

    Setzt man rotation="none", ist dies ist bei der durch factanal() verwendeten Methode, um ein \(\hat{\boldsymbol{\Lambda }}\) zu erzeugen, gleichzeitig der zugehörige Eigenwert der geschätzten reduzierten Korrelationsmatrix \(\hat{\mathbf{K}}_{\hat{\mathbf{x}}} =\hat{\boldsymbol{ \Lambda }}\hat{\boldsymbol{\Lambda }}^{\top }\). Bei der Methode handelt es sich um die iterative Maximum-Likelihood Kommunalitätenschätzung. Bei Rotation oder anderen Schätzmethoden gilt diese Gleichheit dagegen nicht.

  38. 38.

    Die Summe der Eigenwerte einer Matrix ist gleich deren Spur (Abschn. 12.1.5) – im Fall der Korrelationsmatrix K x also gleich der Anzahl der Variablen p, da in der Diagonale überall 1 steht. Der Mittelwert der Eigenwerte ist damit \(\frac{1} {p}p = 1\).

  39. 39.

    Weitere Verfahren, die der Klärung der geeigneten Anzahl von Faktoren dienen sollen, sind die Parallelanalyse mit fa.parallel() aus dem Paket psych sowie das very simple structure Verfahren mit VSS() aus demselben Paket.

  40. 40.

    Die nichtmetrische multidimensionale Skalierung wird durch monoMDS() aus dem vegan Paket bereit gestellt.

  41. 41.

    Bei der multivariaten Formulierung des Modells wird intern aufgrund der generischen anova() Funktion automatisch anova.mlm() verwendet, ohne dass dies explizit angegeben werden muss (Abschn. 17.2.6).

  42. 42.

    Auch bei der multivariaten zweifaktoriellen Varianzanalyse ist im Fall ungleicher Zellbesetzungen zu beachten, dass R in der Voreinstellung Quadratsummen vom Typ I berechnet (Abschn. 7.5.2 und 12.9.6). Manova() aus dem car Paket erlaubt es, analog zur Verwendung von Anova() (Abschn. 7.4.3), Quadratsummen vom Typ II und III zu berechnen.

  43. 43.

    Lässt man auch quadratische Funktionen der ursprünglichen Variablen zu, ergibt sich die quadratische Diskriminanzanalyse. Sie wird mit qda() aus dem MASS Paket berechnet.

  44. 44.

    Für weitere Klassifikationsverfahren wie Varianten der Clusteranalyse, CART-Modelle oder support vector machines vgl. die Abschnitte Cluster Analysis (Leisch & Gruen, 2016), Multivariate Statistics (Hewson, 2015) und Machine Learning & Statistical Learning (Hothorn, 2016) der CRAN Task Views. Die logistische und multinomiale Regression (Abschn. 8.1 und 8.3) lassen sich ebenfalls zur Klassifikation verwenden und besitzen weniger Verteilungsvoraussetzungen als die Diskriminanzanalyse.

  45. 45.

    Die Designmatrix erhält man mit der Funktion model.matrix(), die als Argument ein mit lm() erstelltes Modell, oder auch nur die rechte Seite einer Modellformel akzeptiert (Abschn. 5.2; Venables & Ripley, 2002, S. 144 ff.).

  46. 46.

    Die x j sind feste Realisierungen eines Zufallsvektors, also stochastische Prädiktoren. Sie enthalten damit nicht alle möglichen Prädiktorwerte, sondern nur jeweils n viele. Man könnte daher auch vom Vektor E(y | X) der auf eine konkrete Designmatrix X bedingten Erwartungswerte von y sprechen, worauf hier aber verzichtet wird. Die x j müssen fehlerfrei sein, bei den x ij muss es sich also um die wahren Prädiktorwerte handeln. Ohne diese Annahme kommen lineare Strukturgleichungsmodelle zur Auswertung in Betracht (Abschn. 12.3, Fußnote 32).

  47. 47.

    Anders als in der Regression werden die Werte der Indikatorvariablen hier durch die Zuordnung von Beobachtungen zu Gruppen systematisch hergestellt, sind also keine stochastischen Prädiktoren.

  48. 48.

    Eine der folgenden Zusammenfassung ähnliche Exposition enthält die Vignette des Pakets codingMatrices (Venables, 2016). Dabei entsprechen sich folgende Bezeichnungen: Die Inzidenzmatrix \(\mathbf{X}_{p}^{\star }\) hier ist dort X. Die reduzierte Designmatrix X hier ist dort \(\widetilde{\mathbf{X}}\), die Codiermatrix C hier ist dort \(\mathbf{B}_{\star }\), die Matrix [1 | C] hier ist dort \(\mathbf{B} = [\mathbf{1}\vert \mathbf{B}_{\star }] = \mathbf{C}^{-1}\), der Parametervektor \(\boldsymbol{\beta }_{p-1}\) hier ist dort \(\boldsymbol{\beta }_{\star }\).

  49. 49.

    Alternativ kann auch der Parameter β 0 = 0 gesetzt werden, womit \(\mathbf{X}^{\star } = \mathbf{X}_{p}^{\star }\) ist. Diese Möglichkeit zur Parametrisierung soll hier nicht weiter verfolgt werden, um das Modell wie jenes der Regression formulieren zu können (Fußnote 53).

  50. 50.

    Für die Parameterschätzungen gilt dies analog (Abschn. 12.9.4, Fußnote 59).

  51. 51.

    Denn dann gilt \(\mathbf{v}^{\top }\boldsymbol{\beta }_{p}^{\star } = \mathbf{v}^{\top }\mathbf{C}\boldsymbol{\beta }_{p-1} = \mathbf{0}^{\top }\boldsymbol{\beta }_{p-1} = 0\). v steht senkrecht auf den Spalten von C, ist also eine Basis des orthogonalen Komplements des von den Spalten von C aufgespannten Unterraums. Mit anderen Worten ist v wegen \(\mathbf{0} = (\mathbf{v}^{\top }\mathbf{C})^{\top } = \mathbf{C}^{\top }\mathbf{v}\) eine Basis des Kerns von \(\mathbf{C}^{\top }\).

  52. 52.

    Die in einem linearen Modell mit kategorialen Variablen von R weggelassene Gruppe ist die erste Stufe von levels(〈Faktor〉).

  53. 53.

    Die in Fußnote 49 erwähnte Möglichkeit der Parametrisierung führt zum cell means Modell, bei dem \(\mathbf{X} = \mathbf{X}^{\star } = \mathbf{X}_{p}^{\star }\) gilt und die Parameter \(\beta _{j}^{\star }\) direkt die Bedeutung der Gruppenerwartungswerte μ j erhalten.

  54. 54.

    Ein andere Wahl für C unter der Nebenbedingung v = 1 ist die Helmert-Codierung mit paarweise orthogonalen Spalten von [1 | C] (vgl. ?contr.helmert). Die Parameter haben dann jedoch eine andere Bedeutung.

  55. 55.

    Alternativ ließe sich \(\mu =\sum \nolimits_{j}\frac{n_{j}} {n} \,\mu _{j}\) als mit den anteiligen Zellbesetzungen \(\frac{n_{j}} {n}\) gewichtetes Mittel der μ j definieren. Die zugehörige Nebenbedingung für die β j i. S. der α j lautet dann \(\sum \nolimits_{j}\frac{n_{j}} {n} \,\beta _{j}^{\star } = 0\), d. h. \(\mathbf{v} = (\frac{n_{1}} {n},\ldots, \frac{n_{p}} {n} )^{\top }\). Diese Parametrisierung lässt sich mit der gewichteten Effektcodierung umsetzen, die zunächst der ungewichteten gleicht. In der letzten Zeile der Matrix C erhalten hier jedoch Mitglieder der Gruppe p für die X j nicht den Wert − 1, sondern \(-\frac{n_{j}} {n_{p}}\).

  56. 56.

    Hierbei ist die Reihenfolge relevant, mit denen man die Spalten von X 1×2 und entsprechend die Parameter in \(\boldsymbol{\beta }_{1\times 2}^{\star }\) ordnet, die zu den Kombinationen jk der Faktorstufen der UV 1 und UV 2 gehören: Variiert (wie hier) der erste Index j schnell und der zweite Index k langsam (\(\boldsymbol{\beta }_{1\times 2}^{\star } = (\beta _{11}^{\star },\beta _{21}^{\star },\beta _{31}^{\star },\;\beta _{12}^{\star },\beta _{22}^{\star },\beta _{32}^{\star })^{\top }\)), gilt C 1×2 = C 2C 1. Dies ist die Voreinstellung in R, die sich etwa an der Ausgabe von interaction(〈UV1〉, 〈UV2〉) zeigt (Abschn. 2.6.2). Variiert dagegen j langsam und k schnell (\(\boldsymbol{\beta }_{1\times 2}^{\star } = (\beta _{11}^{\star },\beta _{12}^{\star },\;\beta _{21}^{\star },\beta _{22}^{\star },\;\beta _{31}^{\star },\beta _{32}^{\star })^{\top }\)), ist \(\mathbf{C}_{1\times 2} = \mathbf{C}_{1} \otimes \mathbf{C}_{2}\) zu setzen.

  57. 57.

    Hierbei seien α j  = μ j. μ die Effektgrößen des Haupteffekts der ersten UV, β k  = μ . k μ die des Haupteffekts der zweiten UV und (α β) jk  = μ jk − (μ +α j +β k ) = μ jk μ j. μ . k +μ die der Interaktion. Dabei seien \(\mu _{j.} = \frac{1} {q}\sum \nolimits_{k}\mu _{jk}\), \(\mu _{.k} = \frac{1} {p}\sum \nolimits_{j}\mu _{jk}\) und \(\mu = \frac{1} {p\cdot q}\sum \nolimits_{j}\sum \nolimits_{k}\mu _{jk}\) ungewichtete mittlere Erwartungswerte. Liegen gleiche, oder zumindest proportional ungleiche Zellbesetzungen vor (\( \frac{n_{jk}} {n_{jk^{\prime}}} = \frac{n_{j^{\prime}k}} {n_{j^{\prime}k^{\prime}}} \) sowie \( \frac{n_{jk}} {n_{j^{\prime}k}} = \frac{n_{jk^{\prime}}} {n_{j^{\prime} k^{\prime}}} \) für alle j, j′, k, k′), lässt sich die Parametrisierung mit gewichteten mittleren Erwartungswerten durch die gewichtete Effektcodierung umsetzen (Fußnote 55).

  58. 58.

    Zunächst ist \(E(\mathbf{y}) = E(\mathbf{X}\boldsymbol{\beta }+\boldsymbol{\epsilon }) = \mathbf{X}\boldsymbol{\beta } + E(\boldsymbol{\epsilon }) = \mathbf{X}\boldsymbol{\beta }\). Weiter gilt \(V (\mathbf{y}) = V (\mathbf{X}\boldsymbol{\beta }+\boldsymbol{\epsilon }) = V (\boldsymbol{\epsilon }) =\sigma ^{2}\mathbf{I}\).

  59. 59.

    In der Varianzanalyse werden die reduzierten Parameter geschätzt. Für die Beziehung zwischen geschätzten ursprünglichen Parametern und geschätzten reduzierten Parametern gilt \(\hat{\boldsymbol{\beta }}^{\star } = [\mathbf{1}\vert \mathbf{C}]\,\hat{\boldsymbol{\beta }}\). Auf Basis eines mit aov() oder lm() angepassten linearen Modells erhält man \(\hat{\boldsymbol{\beta }}\) mit coef() und \(\hat{\boldsymbol{\beta }}^{\star }\) mit dummy.coef().

  60. 60.

    Zunächst ist \(E(\hat{\boldsymbol{\beta }}) = E(\mathbf{X}^{+}\mathbf{y}) = \mathbf{X}^{+}E(\mathbf{y}) = (\mathbf{X}^{\top }\mathbf{X})^{-1}\mathbf{X}^{\top }\mathbf{X}\boldsymbol{\beta } =\boldsymbol{\beta }\). Weiter gilt \(V (\hat{\boldsymbol{\beta }}) = V (\mathbf{X}^{+}\mathbf{y}) = \mathbf{X}^{+}V (\mathbf{y})(\mathbf{X}^{+})^{\top } = (\mathbf{X}^{\top }\mathbf{X})^{-1}\mathbf{X}^{\top }\sigma ^{2}\mathbf{I}\mathbf{X}(\mathbf{X}^{\top }\mathbf{X})^{-1} =\sigma ^{2}(\mathbf{X}^{\top }\mathbf{X})^{-1}\).

  61. 61.

    Zunächst ist \(E(\mathbf{e}) = E((\mathbf{I} -\mathbf{P})\mathbf{y}) = E(\mathbf{y}) - E(\mathbf{P}\mathbf{y}) = \mathbf{X}\boldsymbol{\beta } -\mathbf{P}\mathbf{X}\boldsymbol{\beta }\). Da die Spalten von X in V liegen, bleiben sie durch P unverändert, es folgt also \(E(\mathbf{e}) = \mathbf{X}\boldsymbol{\beta } -\mathbf{P}\mathbf{X}\boldsymbol{\beta } = \mathbf{0}\). Weiter gilt V (e) = V ((IP)y) = (IP)V (y)(IP) = σ 2(IP)(IP). Als orthogonale Projektion ist IP symmetrisch und idempotent, es gilt also V (e) = σ 2(IP)(IP) = σ 2(IP).

  62. 62.

    \(SS_{e} =\sum \nolimits_{i}e_{i}^{2} =\| \mathbf{e}\|^{2} = \mathbf{e}^{\top }\mathbf{e} = (\mathbf{y}-\hat{\mathbf{y}})^{\top }(\mathbf{y}-\hat{\mathbf{y}}) = \mathbf{y}^{\top }\mathbf{y}-\mathbf{y}^{\top }\hat{\mathbf{y}}-\hat{\mathbf{y}}^{\top }\mathbf{y}+\hat{\mathbf{y}}^{\top }\hat{\mathbf{y}} = \mathbf{y}^{\top }\mathbf{y}-\mathbf{y}^{\top }\mathbf{P}\mathbf{y}-(\mathbf{P}\mathbf{y})^{\top }\mathbf{y}+(\mathbf{P}\mathbf{y})^{\top }(\mathbf{P}\mathbf{y}) = \mathbf{y}^{\top }\mathbf{y}-\mathbf{y}^{\top }\mathbf{P}\mathbf{y}-\mathbf{y}^{\top }\mathbf{P}\mathbf{y}+\mathbf{y}^{\top }\mathbf{P}\mathbf{P}\mathbf{y} = \mathbf{y}^{\top }\mathbf{y}-\mathbf{y}^{\top }\mathbf{P}\mathbf{y} = \mathbf{y}^{\top }(\mathbf{I}-\mathbf{P})\mathbf{y}\).

  63. 63.

    Zunächst ist \(E(\hat{\psi }) = E(\mathbf{c}^{\top }\hat{\boldsymbol{\beta }}) = \mathbf{c}^{\top }E(\hat{\boldsymbol{\beta }}) = \mathbf{c}^{\top }\boldsymbol{\beta } =\psi\). Weiter gilt \(V (\hat{\psi }) = V (\mathbf{c}^{\top }\hat{\boldsymbol{\beta }}) = \mathbf{c}^{\top }V (\hat{\boldsymbol{\beta }})\mathbf{c} = \mathbf{c}^{\top }\sigma ^{2}(\mathbf{X}^{\top }\mathbf{X})^{-1}\mathbf{c}\). Bei \(\hat{\psi }\) handelt es sich um einen Gauß-Markoff-Schätzer, also den linearen erwartungstreuen Schätzer mit der geringsten Varianz.

  64. 64.

    Zunächst ist X a = X X(X X)−1 c = c, also c  = a X. Damit gilt \(\mathbf{a}^{\top }\mathbf{y} = \mathbf{c}^{\top }(\mathbf{X}^{\top }\mathbf{X})^{-1}\mathbf{X}^{\top }\mathbf{y} = \mathbf{a}^{\top }\mathbf{X}(\mathbf{X}^{\top }\mathbf{X})^{-1}\mathbf{X}^{\top }\mathbf{y} = \mathbf{a}^{\top }\mathbf{P}\mathbf{y} = \mathbf{a}^{\top }\hat{\mathbf{y}}\).

  65. 65.

    \(\|\mathbf{a}\|^{2} = \mathbf{a}^{\top }\mathbf{a} = (\mathbf{X}(\mathbf{X}^{\top }\mathbf{X})^{-1}\mathbf{c})^{\top }\mathbf{X}(\mathbf{X}^{\top }\mathbf{X})^{-1}\mathbf{c} = \mathbf{c}^{\top }(\mathbf{X}^{\top }\mathbf{X})^{-1}\mathbf{X}^{\top }\mathbf{X}(\mathbf{X}^{\top }\mathbf{X})^{-1}\mathbf{c} = \mathbf{c}^{\top }(\mathbf{X}^{\top }\mathbf{X})^{-1}\mathbf{c}\).

  66. 66.

    \(\mathbf{A}\mathbf{X}_{u} = (\mathbf{X}_{u}(\mathbf{X}_{u}^{\top }\mathbf{X}_{u})^{-1}\mathbf{L}^{\top })^{\top }\mathbf{X}_{u} = \mathbf{L}(\mathbf{X}_{u}^{\top }\mathbf{X}_{u})^{-1}\mathbf{X}_{u}^{\top }\mathbf{X}_{u} = \mathbf{L}\).

  67. 67.

    \(\hat{\boldsymbol{\psi }}= \mathbf{L}\hat{\boldsymbol{\beta }} = \mathbf{L}(\mathbf{X}_{u}^{\top }\mathbf{X}_{u})^{-1}\mathbf{X}_{u}^{\top }\mathbf{y} = \mathbf{A}\mathbf{X}_{u}(\mathbf{X}_{u}^{\top }\mathbf{X}_{u})^{-1}\mathbf{X}_{u}^{\top }\mathbf{y} = \mathbf{A}\hat{\mathbf{y}}\).

  68. 68.

    Zunächst gilt \(E(\mathbf{L}\hat{\boldsymbol{\beta }}) = \mathbf{L}E(\hat{\boldsymbol{\beta }}) = \mathbf{L}\boldsymbol{\beta } =\boldsymbol{\psi }\). Weiter ist \(V (\hat{\boldsymbol{\psi }}) = V (\mathbf{L}\hat{\boldsymbol{\beta }}) = \mathbf{L}V (\hat{\boldsymbol{\beta }})\mathbf{L}^{\top } =\sigma ^{2}\mathbf{L}(\mathbf{X}_{u}^{\top }\mathbf{X}_{u})^{-1}\mathbf{L}^{\top } =\sigma ^{2}\mathbf{L}(\mathbf{X}_{u}^{\top }\mathbf{X}_{u})^{-1}\mathbf{X}_{u}^{\top }\mathbf{X}_{u}(\mathbf{X}_{u}^{\top }\mathbf{X}_{u})^{-1}\mathbf{L}^{\top } =\sigma ^{2}\mathbf{A}\mathbf{A}^{\top }\). Insbesondere ist also \(\mathbf{A}\mathbf{A}^{\top } = \mathbf{L}(\mathbf{X}_{u}^{\top }\mathbf{X}_{u})^{-1}\mathbf{L}^{\top }\).

  69. 69.

    Es sei y r  = X u r aus V r und y a  = A a aus dem Erzeugnis der Spalten von A mit r und a als zugehörigen Koordinatenvektoren bzgl. X u und A . Mit \(\mathbf{A}^{\top } = \mathbf{X}_{u}(\mathbf{X}_{u}^{\top }\mathbf{X}_{u})^{-1}\mathbf{L}^{\top }\) liegt y a als Linearkombination der Spalten von X u in V u . Da y r in V r liegt, gilt Ly r  = 0. Damit folgt \(\mathbf{y}_{a}^{\top }\mathbf{y}_{r} = (\mathbf{A}^{\top }\mathbf{a})^{\top }\mathbf{X}_{u}\mathbf{r} = \mathbf{a}^{\top }\mathbf{A}\mathbf{X}_{u}\mathbf{r} = \mathbf{a}^{\top }\mathbf{L}(\mathbf{X}_{u}^{\top }\mathbf{X}_{u})^{-1}\mathbf{X}_{u}^{\top }\mathbf{X}_{u}\mathbf{r} = \mathbf{a}^{\top }\mathbf{L}\mathbf{r} = \mathbf{a}^{\top }\mathbf{0} = 0\), d. h. y a  ⊥ y r . Also liegt y a auch in \(V _{r}^{\perp }\).

  70. 70.

    X 0 = 1, daher ist die Matrix der Residuen E = (IP 0)Y = QY zentriert (Abschn. 12.1.7, Fußnote 22) und (QY)(QY) deren SSP-Matrix. Als orthogonale Projektion ist Q symmetrisch und idempotent, weshalb \((\mathbf{Q}\mathbf{Y})^{\top }(\mathbf{Q}\mathbf{Y}) = \mathbf{Y}^{\top }\mathbf{Q}^{\top }\mathbf{Q}\mathbf{Y} = \mathbf{Y}^{\top }\mathbf{Q}\mathbf{Y}\) gilt.

  71. 71.

    Zunächst ist die Matrix der Vorhersagedifferenzen \(\hat{\mathbf{Y}}_{u}-\hat{\mathbf{Y}}_{r} = \mathbf{P}_{u}\mathbf{Y}-\mathbf{P}_{r}\mathbf{Y} = \mathbf{Y}-\mathbf{P}_{r}\mathbf{Y}-\mathbf{Y}+\mathbf{P}_{u}\mathbf{Y} = (\mathbf{I}-\mathbf{P}_{r})\mathbf{Y}-(\mathbf{I}-\mathbf{P}_{u})\mathbf{Y} = \mathbf{E}_{r}-\mathbf{E}_{u}\) gleich der Matrix der Differenzen der Residuen. Als Differenz zweier zentrierter Matrizen ist sie damit ihrerseits zentriert. Für die weitere Argumentation s. Fußnote 70.

  72. 72.

    Der gewählte Weg zur Berechnung der Projektionsmatrizen soll die mathematischen Formeln direkt umsetzen, ist aber numerisch nicht stabil und weicht von in R-Funktionen implementierten Rechnungen ab (Bates, 2004).

Literatur

Download references

Author information

Authors and Affiliations

Authors

Rights and permissions

Reprints and permissions

Copyright information

© 2017 Springer-Verlag GmbH Deutschland

About this chapter

Cite this chapter

Wollschläger, D. (2017). Multivariate Verfahren. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer Spektrum, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-53670-4_12

Download citation

Publish with us

Policies and ethics