Skip to main content

Regressionsmodelle für kategoriale Daten und Zähldaten

  • Chapter
  • First Online:
Grundlagen der Datenanalyse mit R

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

  • 17k Accesses

Zusammenfassung

Das Modell der linearen Regression und Varianzanalyse (Abschn. 6.3, 7.3 und 12.9.1) lässt sich zum verallgemeinerten linearen Modell (GLM, generalized linear model) erweitern, das auch für Daten einer kategorialen vorherzusagenden Variable Y geeignet ist. Als Prädiktoren lassen sich sowohl kontinuierliche Variablen als auch Gruppierungsfaktoren einsetzen. Ein Spezialfall ist die logistische Regression für dichotome Y (codiert als 0 und 1). Im Vergleich zur Vorhersage quantitativer Variablen in der linearen Regression wird an diesem Beispiel zunächst folgende Schwierigkeit deutlich (für Details vgl. Faraway, 2016; Fox & Weisberg, 2011):

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 44.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Abschn. 6.6.4 gibt Hinweise auf gemischte Regressionsmodelle und verallgemeinerte Schätzgleichungen (GEE) für abhängige Daten – etwa durch Messwiederholung oder Clusterung, die analog auf kategoriale Zielgrößen übertragen werden können.

  2. 2.

    Für die bedingte logistische Regression bei Stratifizierung der Beobachtungen vgl. clogit() aus dem Paket survival (Therneau, 2016).

  3. 3.

    Für einen Prädiktor X: \(\left ( \frac{\hat{P}} {1-\hat{P}}\right )_{X+1} = \mathrm{e}^{b_{0}+b_{1}(X+1)} = \mathrm{e}^{b_{0}}\,\mathrm{e}^{b_{1}(X+1)} = \mathrm{e}^{b_{0}}\,\mathrm{e}^{b_{1}X}\,\mathrm{e}^{b_{1}} = \mathrm{e}^{b_{1}}\,\mathrm{e}^{b_{0}+b_{1}X} = \mathrm{e}^{b_{1}}\,\left ( \frac{\hat{P}} {1-\hat{P}}\right )_{X}\).

  4. 4.

    Die so ermittelten Konfidenzintervalle basieren auf der Profile-Likelihood-Methode und sind asymmetrisch. Demgegenüber berechnet confint.default(〈glm-Modell〉) symmetrische Wald-Konfidenzintervalle, die asymptotische Normalverteilung der Parameterschätzungen voraussetzen.

  5. 5.

    In der Voreinstellung gibt residuals(〈glm-Modell〉, type="〈Typ〉") Devianz-Residuen aus. Für andere Residuen-Varianten kann das Argument type verwendet werden (vgl. ?residuals.glm).

  6. 6.

    Für die gewöhnliche lineare Regression stimmen Devianz und Fehlerquadratsumme überein.

  7. 7.

    Bei der gewöhnlichen linearen Regression wie auch bei der logistischen Regression mit der quasi-binomial Familie (s. u.) ist zusätzlich ein Varianzparameter zu schätzen. Hier beträgt die Anzahl also p + 1 + 1.

  8. 8.

    Anders als in der linearen Regression lassen sich die pseudo-R 2-Maße jedoch nicht als Verhältnis von Variabilitäten verstehen. Ihre Vergleichbarkeit über verschiedene Datensätze hinweg ist zudem eingeschränkt – so beziehen etwa R 2Cox & Snell sowie R 2Nagelkerke neben der absoluten Anpassung auch die Stichprobengröße ein.

  9. 9.

    Für weitere Gütemaße der Modellanpassung vgl. die Funktion lrm() aus dem Paket rms , die neben R 2Nagelkerke die Fläche unter der ROC-Kurve (Abschn. 10.2.7) ebenso bestimmt wie etwa Somers’ d, Goodman und Kruskals γ sowie Kendalls τ für die vorhergesagten Wahrscheinlichkeiten und beobachteten Werte (Abschn. 10.3.1).

  10. 10.

    Dies ist der Fall, wenn die kanonische Link-Funktion und Maximum-Likelihood-Schätzungen der Parameter gewählt werden und das Modell einen absoluten Term β 0 beinhaltet.

  11. 11.

    Vergleiche Abschn. 13.2 für die Kreuzvalidierung zur Abschätzung der Vorhersagegüte in neuen Stichproben sowie Abschn. 10.2.610.2.7 und 10.3.3 für weitere Möglichkeiten, Klassifikationen zu analysieren. Siehe Abschn. 12.8 für die Diskriminanzanalyse sowie die dortige Fußnote 44 für Hinweise zu weiteren Klassifikationsverfahren.

  12. 12.

    Bei Wald-Tests kann etwa das Hauck-Donner-Phänomen auftreten: Bei starken Effekten (sehr große β j ) sind die berechneten Streuungen \(\hat{\sigma }_{b}\) dann deutlich zu groß, wodurch Wald-Tests der Parameter fälschlicherweise nicht signifikant werden.

  13. 13.

    Andere Formulierungen des Modells sind möglich. So legt etwa SPSS das Modell \(\mathrm{ logit}(P(Y \leq g)) =\beta _{0_{g}} - (\beta _{1}X_{1} +\ldots +\beta _{p}X_{p})\) mit der Nebenbedingung \(\beta _{0_{1}} <\ldots <\beta _{0_{k-1}}\) zugrunde, das jedoch nur zu umgedrehten Vorzeichen der Schätzungen für die \(\beta _{0_{g}}\) führt. Mit derselben Nebenbedingung ließe sich das Modell auch als \(\mathrm{ logit}(P(Y \leq g)) =\beta _{0_{g}} +\beta _{1}X_{1} +\ldots +\beta _{p}X_{p}\) formulieren. In diesem Modell führt ein höherer Prädiktorwert X j bei positivem β j zu einer höheren Chance, dass eine niedrigere Kategorie von Y erreicht wird. Entsprechend haben hier die Schätzungen für alle Parameter umgekehrte Vorzeichen.

  14. 14.

    Alternative proportional odds Modelle sind zum einen mit adjacent category Logits \(\ln \frac{P(Y =g)} {P(Y =g-1)}\) möglich, zum anderen mit continuation ratio (sequentiellen) Logits \(\ln \frac{P(Y =g)} {P(Y <g)}\).

  15. 15.

    Mit vglm() ist es möglich, auch die proportional odds Modelle mit adjacent category Logits bzw. continuation ratio Logits anzupassen (Abschn. 8.2, Fußnote 14). Dazu ist family auf acat(parallel=TRUE) bzw. auf sratio(parallel=TRUE) zu setzen. Eine weitere Option für acat() bzw. sratio() ist dabei das Argument reverse, das die Vergleichsrichtung dieser Logits bzgl. der Stufen von Y kontrolliert und auf TRUE oder FALSE gesetzt werden kann.

  16. 16.

    Weitere Gütemaße der Modellanpassung erzeugt orm() aus dem Paket rms (Abschn. 8.1.3, Fußnote 9).

  17. 17.

    Für Konfidenzintervalle der Parameter kann die ordinale Regression auch zunächst mit polr() aus dem Paket MASS angepasst werden. Die dann von confint(〈polr-Modell〉) erzeugten Konfidenzintervalle basieren auf der Profile-Likelihood-Methode.

  18. 18.

    Kurz \(\ln \frac{P(Y =g)} {P(Y =1)} =\boldsymbol{ X}\boldsymbol{\beta }_{g}\). In der Referenzkategorie 1 sind die Parameter wegen \(\ln \frac{P(Y =1)} {P(Y =1)} =\ln 1 = 0\) festgelegt, und es gilt \(\beta _{0_{1}} =\beta _{j_{1}} = 0\) (mit j = 1, , p) sowie \(\mathrm{e}^{\boldsymbol{X}\boldsymbol{\beta }_{g}} = \mathrm{e}^{0} = 1\).

  19. 19.

    Dabei wird Unabhängigkeit von irrelevanten Alternativen angenommen: Für die Chance beim paarweisen Vergleich von g mit der Referenzkategorie soll die Existenz weiterer Kategorien irrelevant sein. Ohne diese Annahme kommen etwa Bradley-Terry-Modelle aus, von denen eine eingeschränkte Variante mit brat() aus dem Paket VGAM angepasst werden kann.

  20. 20.

    Dies ist der Fall, wenn die kanonische Link-Funktion und Maximum-Likelihood-Schätzungen der Parameter gewählt werden und das Modell die absoluten Terme \(\beta _{0_{g}}\) besitzt.

  21. 21.

    Für einen Prädiktor X: \(\mu _{X+1} = \mathrm{e}^{\beta _{0}+\beta _{1}(X+1)} = \mathrm{e}^{\beta _{0}}\,\mathrm{e}^{\beta _{1}(X+1)} = \mathrm{e}^{\beta _{0}}\,\mathrm{e}^{\beta _{1}X}\,\mathrm{e}^{\beta _{1}} = \mathrm{e}^{\beta _{1}}\,\mathrm{e}^{\beta _{0}+\beta _{1}X} = \mathrm{e}^{\beta _{1}}\,\mu _{X}\).

  22. 22.

    Bei der Verwendung von vglm() aus dem Paket VGAM ist das Argument family auf poissonff zu setzen.

  23. 23.

    Bei der Verwendung von vglm() aus dem Paket VGAM ist das Argument family auf quasipoissonff zu setzen.

  24. 24.

    Bei der Verwendung von vglm() aus dem Paket VGAM ist das Argument family auf negbinomial zu setzen.

  25. 25.

    Bei der Verwendung von vglm() aus dem Paket VGAM ist das Argument family auf zipoissonff zu setzen.

  26. 26.

    Bei der Verwendung von vglm() aus dem Paket VGAM ist das Argument family auf zinegbinomial zu setzen.

  27. 27.

    Anders als in der Varianzanalyse gibt es jedoch im log-linearen Modell nur eine Beobachtung pro Zelle, die Rolle der abhängigen Variable der Varianzanalyse hat im log-linearen Modell die logarithmierte Auftretenshäufigkeit der zur Zelle gehörenden Kombination von Faktorstufen.

  28. 28.

    loglm() basiert auf loglin(), bietet jedoch die von Regression und Varianzanalyse vertraute Methode, eine Modellformel zur Beschreibung des log-linearen Modells zu verwenden.

  29. 29.

    Damit ist auch die Teststatistik des Likelihood-Quotienten-Tests im Prinzip identisch, da loglm() und glm() jedoch andere numerische Optimierungsverfahren zur Maximum-Likelihood-Schätzung verwenden, sind kleine Abweichungen möglich.

Literatur

Download references

Author information

Authors and Affiliations

Authors

Rights and permissions

Reprints and permissions

Copyright information

© 2017 Springer-Verlag GmbH Deutschland

About this chapter

Cite this chapter

Wollschläger, D. (2017). Regressionsmodelle für kategoriale Daten und Zähldaten. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer Spektrum, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-53670-4_8

Download citation

Publish with us

Policies and ethics