Rehabilitation (Stuttg) 2007; 46(6): 370-377
DOI: 10.1055/s-2007-976535
Originalarbeit

© Georg Thieme Verlag KG Stuttgart · New York

Analyse der Beurteilerübereinstimmung für kategoriale Daten mittels Cohens Kappa und alternativer Maße

Analyzing Interrater Agreement for Categorical Data Using Cohen's Kappa and Alternative CoefficientsM. Wirtz 1 , M. Kutschmann 2
  • 1Institut für Psychologie, Pädagogische Hochschule Freiburg
  • 2Fakultät für Gesundheitswissenschaften, Universität Bielefeld
Further Information

Publication History

Publication Date:
11 January 2008 (online)

Zusammenfassung

In der Rehabilitation stellen Beurteilungen eine der wichtigsten Datenerhebungsmethoden dar. Beispielsweise werden durch Behandler häufig kategoriale Beurteilungen vorgenommen, die Aufschluss darüber geben sollen, ob ein bestimmtes Merkmal vorliegt oder nicht (dichotomes Antwortformat) oder welche von mehreren Alternativen für einen Patienten zutrifft (polytomes Antwortformat). Die Übereinstimmung zwischen verschiedenen Beurteilern ist eine wichtige Voraussetzung, damit die gewonnenen Daten zuverlässige und aussagekräftige Informationen über die Patienten enthalten können. Cohens κ (Cohens Kappa) ist das am häufigsten eingesetzte Maß, wenn diese Übereinstimmung überprüft werden soll. In diesem Beitrag wird gezeigt, welche Eigenschaften Cohens κ besitzt und unter welchen Bedingungen es verwendet werden kann. Bei der Interpretation von Cohens κ werden häufig Probleme dieser Maßzahl nicht berücksichtigt, sodass irreführende Schlussfolgerungen resultieren können. So kann die Ausprägung von Cohens κ auch von Informationsaspekten - wie z. B. der Grundhäufigkeit eines Merkmals - beeinflusst werden, die unabhängig von der Güte der Beurteiler sind. Daher werden für dichotome Antwortformate alternative Evaluationsstrategien skizziert, die eine differenziertere und aussagekräftigere Analyse der Beurteilerübereinstimmung ermöglichen. Abschließend wird gezeigt, wie für polytome Antwortformate durch das gewichtete Cohens κω die Analyse der Beurteilerübereinstimmung erfolgen kann.

Abstract

Within rehabilitation research ratings are one of the most frequently used assessment procedures. For example, therapists frequently make categorical judgements aiming to get information whether specific patient characteristics prevail or not (dichotomous rating format) or which of several alternatives holds for a patient (polytomous rating format). Interrater agreement is an important prerequisite to ensure that reliable and meaningful information concerning patients’ state can be inferred from the data obtained. Cohen's κ (Cohen's kappa) is the most frequently used measure to quantify interrater agreement. The properties of Cohen's κ are characterized and conditions for the appropriate application of κ are clarified. Because sometimes specific properties of κ are not appropriately considered, misleading interpretations of this measure may easily arise. This is the case because the value of Cohen's κ is affected by information aspects that are independent of the quality of the rating process. In order to avoid such misconceptions, alternative evaluation strategies are described for dichotomous rating formats which enhance agreement analysis and thus ensure a more valid interpretation. In addition, it is shown how weighted Cohen's κω may be used to analyze polytomous rating formats.

Literatur

  • 1 Bortz J, Döring N. Forschungsmethoden und Evaluation. 3. Aufl. Berlin: Springer 2001
  • 2 Vogel H, Lemisz W, Liebeck H, Palm W. Zur Bewertung des Gutachterverfahrens für die ambulante Verhaltenstherapie durch die Gutachterinnen.  Verhaltenstherapie. 2002;  12 228-231
  • 3 Wirtz M. Bestimmung der Güte von Beurteilereinschätzungen mittels der Intraklassenkorrelation und Verbesserung von Beurteilereinschätzungen.  Rehabilitation. 2004;  43 384-389
  • 4 Wirtz M, Caspar F. Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen: Hogrefe 2002
  • 5 Cichetti DV. Guidelines, criteria, and rules of thumb for evaluating normed and standardized assessment instruments in psychology.  Psychological Assessment. 1994;  6 284-290
  • 6 Klauer KC. Urteilerübereinstimmung bei dichotomen Kategoriensystemen.  Diagnostica. 1996;  42 101-118
  • 7 Uebersax JS. A review of modelling approaches for the analysis of observer agreement.  Investigative Radiology. 1992;  27 738-743
  • 8 Wirtz M. Methoden zur Bestimmung der Beurteilerübereinstimmung. In: Petermann F, Eid M (Hrsg). Handbuch der Psychologie - Psychologische Diagnostik. Göttingen: Hogrefe 2006: 369-380
  • 9 Ulrich R, Wirtz M. On the correlation of a naturally and an artificially dichotomized variable.  British Journal of Mathematical and Statistical Psychology. 2004;  57 235-252
  • 10 Fleiss JL, Cohen J, Everitt BS. Large sample standard errors of kappa and weighted kappa.  Psychological Bulletin. 1969;  72 323-327
  • 11 Fleiss JL, Cohen J. The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability.  Educational and Psychological Measurement. 1973;  33 613-619
  • 12 Nussbeck F. Assessing multimethod association with categorical variables. In: Eid M, Diener E (Hrsg). Handbook of multimethod measurement in psychology. Washington: APA 2005: 212-234
  • 13 Bortz J, Lienert GA. Kurzgefasste Statistik für die klinische Forschung. Berlin: Springer 1998
  • 14 Valiquette CAM, Lesage AD, Cyr M, Toupin J. Computing Cohen's kappa coefficients using SPSS MATRIX.  Behavioral Research Methods, Instruments and Computers. 1994;  26 60-61
  • 15 Uebersax JS.. , Statistical methods for rater agreement. August 2006 - verfügbar unter URL: http://ourworld.compuserve.com/homepages/jsuebersax/agree.html
  • 16 Lowry R.. , Cohen's unweighted kappa, kappa with linear weighting, kappa with quadratic weighting, frequencies and proportions of agreement. August 2006 - verfügbar unter http://faculty.vassar.edu/lowry/kappa.html
  • 17 Hoyt WT. Rater bias in psychological research: when is it a problem and what can we do about it?.  Psychological Methods. 2000;  5 64-86

1 In den Beispielen A bis C liegt der Wert von ι bei -0,11, 0,52 bzw. 0,60.

2 9,50 ist derjenige Wert, der sich ohne Rundungsungenauigkeiten ergeben würde.

3 Es gilt stets: Y≥κ.

Korrespondenzadresse

Prof. Dr. Markus Wirtz

Institut für Psychologie

Pädagogische Hochschule Freiburg

Kunzenweg 21

79117 Freiburg

Email: markus.wirtz@ph-freiburg.de

    >