Viele Vorschläge zur Güte: Gütekriterien der qualitativen Forschung aus analytisch-empirischer Sicht

Nico Sonntag

doi:10.1515/zfsoz-2023-2005

Open Access Published by De Gruyter Oldenbourg February 11, 2023

Viele Vorschläge zur Güte

Gütekriterien der qualitativen Forschung aus analytisch-empirischer Sicht

The Diversity of Quality

An Assessment of Quality Criteria for Qualitative Research from the Perspective of Analytical Sociology

Nico Sonntag
Nico Sonntag, geb. 1991 in Frankfurt am Main. Studium der Soziologie und Psychologie in Mannheim. Promotion in Wuppertal. Seit 2021 wissenschaftlicher Mitarbeiter am Institut für Soziologie der Johannes Gutenberg-Universität Mainz. Von 2019 bis 2020 wissenschaftlicher Mitarbeiter am Institut für Soziologie in Wuppertal und von 2015 bis 2019 wissenschaftlicher Mitarbeiter am Max-Planck-Institut für Gesellschaftsforschung in Köln.

Forschungsschwerpunkte: Wirtschaftssoziologie, Religionssoziologie, historische Sozialforschung, Wissenschaftstheorie, Methodologie.

Wichtigste Publikationen: Wer profitiert vom Meisterzwang? Die Reform der Handwerksordnung als natürliches Experiment zur Prüfung der Theorie beruflicher Schließung, Soziale Welt 69: 213–251 (2019, mit M. Lutter); Analytische oder analytisch-empirische Soziologie? Zeitschrift für Theoretische Soziologie 10: 114–131 (2021).

From the journal Zeitschrift für Soziologie

https://doi.org/10.1515/zfsoz-2023-2005

Zusammenfassung

Dieser Beitrag nimmt die von Strübing und Kollegen vorgeschlagenen Gütekriterien zum Anlass, deren Nutzen aus Sicht der analytisch-empirischen Soziologie sowie umgekehrt die Notwendigkeit analytisch-empirischer Gütekriterien für die qualitative Forschung zu diskutieren. Es werden zwei potentielle blinde Flecken der analytisch-empirischen Gütekontrolle besprochen. Erstens, die Möglichkeit der Theorieschöpfung aus einer reichhaltigen Empirie durch gegenstandsangemessene Methoden und der in der analytisch-empirischen Methodologie vernachlässigten Entstehungszusammenhang; zweitens, ein zu rigider Methodenbegriff. Die Fruchtbarkeit der Vorschläge von Strübing et al. wird hinsichtlich dieser Schwächen diskutiert. Obwohl hinsichtlich des ersten blinden Flecks Verbesserungspotential besteht, sind die Gütekriterien zu unbestimmt und zu speziell zugleich. Sie geben einerseits zu wenige Anhaltspunkte für systematische Methodenforschung und konkrete Gütebestimmung, enthalten andererseits in ihren Begründungen eine inhaltliche Festlegung auf bestimmte Methoden. Im zweiten Teil des Beitrags werden ausgewählte analytisch-empirische Gütekriterien diskutiert: 1) die Gütekriterien der Theoriebildung, 2) die interne und externe Validität sowie 3) Transparenz und Reproduzierbarkeit. Analytisch-empirische Gütekriterien beziehen sich auf alle Aspekte des Forschungsprozesses und nicht nur (wie behauptet) auf den engen Bereich der Messung. Die ausgewählten drei Anforderungsbereiche sind konkreten Methoden und auch einer Qualitativ-Quantitativ-Spaltung vorgelagert. Sie sollten daher in einem umfassenden Gütebegriff für die qualitative Forschung stärker berücksichtigt werden.

Abstract

This paper uses the quality criteria proposed by Strübing and colleagues as an opportunity to discuss their usefulness from the perspective of analytical sociology as well as the need for “analytical-empirical” quality criteria for qualitative research. Two potential blind spots of analytic-empirical quality control are discussed. First, the possibility of theory construction from rich empirics through adequate methods, and, more generally, the neglect of the context of discovery in analytical-empirical research; second, an overly rigid notion of methods. The fruitfulness of Strübing et al.’s proposals is discussed regarding those potential weaknesses. Although there is room for improvement with respect to the first blind spot, the quality criteria are too vague and too specific at the same time. On the one hand, they contain too few guiding principles for systematic methods research as well as quality determination in particular cases, on the other hand, their justifications already contain implicit commitments to certain methods. In the second part of the paper, selected analytical-empirical quality criteria are discussed: 1) quality criteria of theory building, 2) internal and external validity, and 3) transparency and reproducibility. Analytical-empirical quality criteria exist for all aspects of the research process and not only (as claimed) for the narrow aspect of measurement. The selected requirements concern a more general level above particular methods as well as the qualitative-quantitative distinction. They should therefore be given greater consideration in a comprehensive list of criteria for qualitative research.

Schlagworte: Qualitative Forschung; Gütekriterien; Analytisch-empirische Soziologie; Wissenschaftstheorie; Methodologie

Keywords: Qualitative Research; Quality Criteria; Analytical Sociology, Philosophy of Science; Methodology

1 Ausgangspunkt

Strübing et al. (2018) haben mit den von ihnen vorgeschlagenen Gütekriterien eine Diskussion unter den Vertretern qualitativer Forschungsmethoden angestoßen. Obwohl es nicht die Hauptmotivation des Beitrags war, regen sie am Ende an, die Fachdebatte daraufhin auszuweiten, „ob die hier entwickelten Gütekriterien qualitativer Forschung sich nicht auch auf standardisierte Forschung mit ihrer dominanten Methodizität übertragen lassen“ (Strübing et al. 2018: 97). Diese vernachlässige nämlich in ihrem Bemühen um „Kontrolle und Replikation“ die „Originalitätsanforderungen“, weshalb die „Kriterien durchaus auch Orientierungsmarken für eine umfassendere Güteprüfung auch quantifizierender, methodisch standardisiert verfahrender Studien“ sein sollten (Strübing et al. 2018: 97). Mein Beitrag greift diesen Anstoß auf und verfolgt dabei zwei verbundene Zielsetzungen:

Erstens soll die Fruchtbarkeit der vorgeschlagenen Gütekriterien für die „standardisierte Forschung“ diskutiert werden. Es geht mir jedoch nicht darum, die vorgeschlagenen Kriterien Punkt für Punkt abzuhandeln. Vielmehr orientiere ich mich an zwei möglichen blinden Flecken der analytisch-empirischen Qualitätskontrolle, die durch den Vorschlag von Strübing et al. adressiert werden könnten. Dabei wird die implizite und explizite Kritik von Strübing et al. (2018) an gängigen Methodenkonzeptionen aufgegriffen. Ich diskutiere, welche forschungspraktischen Konsequenzen sich aus den Kriterien ergeben könnten, aber auch die Probleme grundlegender Prämissen von Strübing et al. aus analytisch-empirischer Sicht.

Zweitens möchte ich umgekehrt die Relevanz einiger ausgewählter, der quantitativen Methodologie entlehnter analytisch-empirischer Gütekriterien für die qualitative Forschung diskutieren. Die behaupteten „messtechnischen Verkürzungen der Gütekriterien standardisierter Forschung“ (Strübing et al. 2018: 97) sind nämlich ein Missverständnis. Wenngleich nahezu ausschließlich die Trias aus Objektivität, Reliabilität und Validität als „Gütekriterien“ bezeichnet wird, erfüllen abseits von terminologischen Gepflogenheiten zahlreiche Auszeichnungsmerkmale in der quantitativen Methodendiskussion genau die Funktion, welche die Autorinnen und Autoren Gütekriterien zuschreiben. Ich möchte jedoch keinen umfassenden analytisch-empirischen Kriterienkatalog entgegenstellen, sondern grundsätzlich aufzeigen, warum meiner Meinung nach der Verzicht auf die Auseinandersetzung mit diesen Gütekriterien eilfertig ist. Strübing et al. (2018) betrachten es als ausgemacht, dass sich die klassischen Gütekriterien nicht auf qualitative Methoden übertragen lassen. Steinke (1999), welche die Übertragbarkeit entsprechender Kriterien diskutiert, wird sogar eine „Fixierung auf standardisierte Forschung“ zugeschrieben (Strübing et al. 2018: 84). Ich werde einige Argumente skizzieren, die dieses Urteil hinterfragen.

Ich spreche im Folgenden stets von analytisch-empirischen statt von „quantitativen“ Gütekriterien. Die meisten stammen zwar aus der quantitativen bzw. standardisierten Forschung, jedoch soll damit betont werden, dass ihre Relevanz für die qualitative Forschung eine offene Frage ist. Die Begründungen der Gütekriterien leiten sich zudem aus generellen wissenschaftstheoretischen Erwägungen ab, die einer Qualitativ-Quantitativ-Unterscheidung vorgelagert sind. Ich gehe dementsprechend davon aus, dass bei angemessener Reformulierung die wissenschaftstheoretischen Positionen verschiedener Forschungsrichtungen zwar nicht identisch sind, aber bezüglich ausgewählter Ziele hinreichend ähnlich, um die Übertragbarkeit von Kriterien zu rechtfertigen. Ich spreche des Weiteren von „analytisch-empirischer Soziologie“, was letztlich ein nicht immer scharf abzugrenzender Sammelbegriff für verschiedene verwandte Strömungen ist. Er verweist jedoch darauf, dass es weder allein um quantitative Forschung geht noch um spezifische wissenschaftstheoretische Richtungen wie den kritischen Rationalismus Popper’scher Prägung oder gar ein bestimmtes theoretisches Paradigma.

Im ersten Abschnitt werden zunächst die Grundlinien des Beitrags von Strübing et al. (2018) in aller Kürze nachgezeichnet. Hernach sollen einige Grundlagen der analytisch-empirischen Methodologie geklärt werden. Im Lichte dieser Anmerkungen möchte ich den Nutzen des Vorstoßes von Strübing et al. für die analytisch-empirische Methodologie einordnen. Es geht dabei um 1) Aspekte der Theorieschöpfung aus einer reichhaltigen Empirie durch gegenstandsangemessene Methoden und den in der quantitativen Soziologie vernachlässigten Entstehungszusammenhang; 2) die starke Normativität des klassischen Methodenbegriffs im Gegensatz zum reduzierten Methodenbegriff im Sinne der Gegenstandsangemessenheit nach Strübing et al. Im zweiten Teil des Beitrags werde ich exemplarisch die allgemeine Relevanz analytisch-empirischer Gütekriterien diskutieren und mich auf drei Gruppen beschränken: 1) theoretische Gütekriterien 2) interne und externe Validität sowie 3) die Forderung nach Transparenz und Replizierbarkeit. Die Auswahl erfolgt auf Grund der Überzeugung, dass die mit diesen Kriterien zusammenhängenden Folgen auch in der qualitativen Forschung nicht ausgeblendet werden können.

2 Die Grundidee der fünf qualitativen Gütekriterien

Die Autorinnen und Autoren differenzieren eingangs zwischen einerseits allgemeinen Leistungsmerkmalen der qualitativen Sozialforschung wie Offenheit und Reflexivität sowie Gütekriterien andererseits. Letztere „spezifizieren die in den Leistungsmerkmalen enthaltenen Versprechen und Ziele und benennen diejenigen Eigenschaften von Verfahren und Ergebnissen, an denen sich erkennen lässt, inwieweit dies einer Studie gelungen ist“ (Strübing et al. 2018: 85). Zugleich sind Gütekriterien einzelnen Methoden vorgelagert, weshalb sie oberhalb „verfahrensspezifischer Praktiken“ anzusiedeln seien. Von dieser Charakterisierung ausgehend, formulieren sie fünf Kriterien: 1) Gegenstandsangemessenheit, 2) empirische Sättigung, 3) theoretische Durchdringung, 4) textuelle Performanz, 5) Originalität. Jedes dieser Kriterien umfasst weitere Teilaspekte, Funktionen und Begründungen, die hier nicht umfassend referiert werden können (vgl. Tabelle 1). Gegenstandsangemessenheit wird als „Basiskriterium“ bezeichnet (Strübing et al. 2018: 87 und 97). Damit ist die „Abgestimmtheit von Theorie, Fragestellung, empirischer Fall, Methode und Datentypen“ gemeint, „durch die der Untersuchungsgegenstand überhaupt erst konstituiert wird“ (86). Diese Abgestimmtheit muss durch kontinuierliche Justierung im Forschungsprozess hergestellt werden. An keiner anderen Stellen des Beitrags wird der Impetus sowie das grundlegende Methodenverständnis der Autoren so offenbar wie bei der weiteren Spezifizierung dieses Basiskriteriums durch den starken Empiriebegriff. Qualitative Methoden (88)

versuchen […] eine schwache Widerständigkeit der Phänomene – […] ihre fragile Eigensinnigkeit – zu bewahren und zu verstärken. Methoden sind insofern Datentrainer, die die Nehmerqualitäten primärer Sinnkonstruktionen gegenüber ihren soziologischen Bearbeitungen steigern und Daten als Dialogpartner aufbauen. Diese Eigensinnigkeit ist theoretisch nützlich, weil die soziale Praxis oft erfindungsreicher ist als die theoretische Fantasie. […] Methoden […] sind Kontaktformen zur Sicherung des Innovationspotentials primärer Sinnstrukturen.

Es spricht daraus die Sorge, dass interessante soziale Phänomene übersehen werden, weil die Wahrnehmung zu sehr durch vorgefasste theoretische Konstrukte gefiltert wird. Insbesondere scheint mit „primären Sinnkonstruktionen“ die emische Perspektive der Untersuchten gemeint zu sein, d. h. Konstrukte erster Ordnung, die unabhängig von den Kategorien der Wissenschaft zur Alltagsdeutung genutzt werden. Alle weiteren Kriterien stellen in gewisser Weise den Versuch dar, Ausgewogenheit zwischen theoretischen Erwartungen und Empirie oder auch zwischen Felderfahrung und wissenschaftlicher Distanzierung herzustellen, sodass der Erfindungsreichtum der Praxis genutzt werden kann, ohne sich in „Paraphrasierung der feldimmanenten Deutungen und Selbstbeschreibungen“ (91) zu erschöpfen.

Die Kriterien der empirischen Sättigung und theoretischen Durchdringung enthalten Hinweise zur Ausgestaltung der notwendigen Techniken und konkretisieren mithin die Bedeutung von Gegenstandsangemessenheit. Empirische Sättigung gliedert sich in drei Teilaspekte: den Rapport zum Feld, die Breite und Vielfalt des Datenkorpus sowie die hohe Analyseintensität. Güte wird hier stark prozedural definiert. Das kann beispielhaft an der hohen Analyseintensität (Strübing et al. 2018: 89–90) aufgezeigt werden: Die Datenbasis einer Studie soll in einem iterativen Prozess stetig ergänzt und erweitert werden. Die Grounded Theory (fortan GT) nutzt hierfür bspw. den Begriff des theoretischen Samplings. Geleitet wird die Datenerhebung von Erkenntnissen, „die bei bisherigen Analysen des Vorhandenen gewonnen wurden“. „Gesättigt“ ist eine Analyse dann, wenn „neues Datenmaterial keine neuen Einsichten ermöglicht“ (Strübing et al. 2018: 90). Forschende sollen sich ferner en détail mit dem Material auseinandersetzen: die Kodierung Zeile für Zeile (in der GT) und vergleichbare Vorgehensweisen steigern die Aufmerksamkeit für unerwartete Sachverhalte und erhöhen dadurch die „Serendipitätskomponente“ (Strübing et al. 2018: 90).

Das Kriterium der theoretischen Durchdringung wirkt dem Eindruck entgegen, die Autoren argumentierten rein empiristisch. Aller Widerständigkeit primärer Sinnstrukturen zu Trotz emergieren Kategorien und Konzepte nicht unmittelbar aus den Daten. Die qualitative Methodologie ist laut den Autorinnen und Autoren zudem für Forschungsfragen offen, die sich aus rein innertheoretischen Problemen ergeben (Strübing et al. 2018: 92). Das ist ein wichtiger Hinweis, denn theoretische Innovationen entstehen auch beim Rätsellösen und Lückenfüllen in der kumulativen Normalwissenschaft. Indessen wird deutlich, dass – wie auch z. B. von Reichertz (2013) – einer Kombination aus offener Forschung mit unstandardisierten Daten im Vergleich zu theoriedurchtränkten Datentypen das größere Irritations- und Innovationspotential zugeschrieben wird. Diese eigneten sich besser zur strategischen Herbeiführung von abduktiven Situationen (vgl. Reichertz 2013: 122). Zugleich ist es notwendig, „statt der dichotom strukturierten Entscheidung zwischen entweder deduktiv oder induktiv verfahrender Forschung eine abduktive Forschungshaltung“ zu entwickeln, „in der induktive, abduktive und deduktive Modi den Prozess abwechselnd und ineinandergreifend strukturieren“ und so eine „iterative Zyklik konstituieren“ (Strübing et al. 2018: 92). Auch hier wird reine Theorieprüfung von vorgefassten Hypothesen ausgeschlossen.

Tab. 1:

Gütekriterien nach Strübing et al. (2018). Die Teilaspekte der theoretischen Durchdringung wurden vom Autor formuliert, da im Originaltext für dieses Kriterium keine Gliederung vorgegeben wird.

Kriterium	Teilaspekte
Gegenstandsangemessenheit
	– Multiple Passungsverhältnisse
	– Fortgesetzte Justierung
	– Reduzierter Methodenbegriff
	– Starker Empiriebegriff
Empirische Sättigung
	– Erschließung des Feldes und Rapport zum Feld
	– Breite und Vielfalt des Datenkorpus
	– Intensität der Datengewinnung und -analyse
Theoretische Durchdringung
	– Anschlussfähigkeit schaffen
	– Abduktive Forschungshaltung
	– Wechselseitige Irritation von Theorie/Empirie
Textuelle Performanz
	– Hermeneutische Übersetzungsleistung
	– Rhetorische Überzeugungsleistung
Originalität
	– Kein Zurückfallen hinter „Common sense“
	– Kein Zurückfallen hinter Sachwissen des Feldes
	– Kein Zurückfallen hinter Forschungsstand

In der Forderung nach Originalität^[1] drückt sich die Erwartung aus, dass Forschung Erkenntnisgewinne erzielen soll (Strübing et al. 2018: 94). Die Tauglichkeitsprüfung beinhaltet es festzustellen, ob der Beitrag nicht hinter den common sense, das Sachwissen des Feldes und den Forschungsstand zurückfällt. Nur wenn sichergestellt wird, dass auf allen drei Ebenen der Wissensstand nicht unterboten wird, ist Originalität möglich (aber nicht garantiert).

Den Kriterienkatalog von Strübing et al. kann man als eine Fortführung des Programmes der theoretischen Empirie begreifen (Kalthoff et al. 2008). Er zielt darauf ab, die wahrgenommene relative Stärke der qualitativen Forschung – eine enge Verschränkung von Theorie und Empirie – zu gewährleisten. Die eingestreuten Anmerkungen lassen vermuten, dass diese Stärke auf Grundlage einer analytisch-empirischen Methodologie nicht zu bewahren wäre, weshalb „originär[e] Gütekriterien für die qualitative Forschung“ entwickelt werden sollen (Strübing et al. 2018: 84). Ich formuliere etwas zugespitzt: Die quantitative/standardisierte/analytisch-empirische Soziologie priorisiert den Konnex von Theorieimplikation und empirischer Prüfung. Das Ziel ist die maximale Präzisierung der deduzierbaren empirischen Aussagen einer Theorie auf der einen Seite und die Schaffung eines korrespondierenden, diese Zusammenhänge möglichst exakt prüfenden Untersuchungsdesigns auf der anderen Seite (Lundberg et al. 2021). Die qualitative Soziologie – jedenfalls nach Strübing et al. – priorisiert hingegen den Konnex von empirischer Beobachtung und Theoriebildung. Es geht um Techniken, die eine maximale Rezeptivität für Anregungen aus dem empirischen Material sicherstellen. Eine solche Gegenüberstellung überzeichnet freilich. Die iterative Theoriegenese in der qualitativen Forschung hat ein falsifikatorisches Element (vgl. Lindemann 2008: 108) und in der analytisch-empirischen Soziologie entstehen Theorien nicht ex nihilo, sondern in Auseinandersetzung mit empirischer Evidenz.

3 Analytisch-empirische Methodologie

Um den Mehrwert der vorgeschlagenen Gütekriterien für die analytisch-empirische Methodologie zu prüfen, ist eine kurze Darstellung derer Grundzüge womöglich aufschlussreich. In diesem Zusammenhang müssen insbesondere die erwähnten zugeschriebenen Akzentsetzungen hinterfragt werden. Anfangs sei kurz zusammengefasst, welche Elemente der analytisch-empirischen Methodologie – genauer: in ihrer kritisch-rationalen Spielart – m. E. opinio communis in der gesamten Soziologie sind. Das wäre, erstens, ein konsequenter Fallibilismus, d. h. niemand wird die Auffassung vertreten, Theorien^[2] könnten endgültig bestätigt werden. Daraus folgt auch, zweitens, ein dynamisches Theorieverständnis. Weil alle Theorien vorläufig und fehlbar sind, unterliegen Theorien einem ständigen Wandel. Dementsprechend sind nahezu immer Sequenzen einer Theorieentwicklung gemeint, wenn ich vereinfachend „Theorie“ schreibe. Drittens, denke ich, dass auch die wechselseitige „Irritation“ von Theorie und Empirie (Strübing et al. 2018: 93) zur gemeinsamen Grundüberzeugung gehört. Das ist womöglich erklärungsbedürftig, denn das in den Gütekriterien zum Ausdruck kommende Vorgehen wird von der „Linearität standardisierter Prozessmodelle“ abgegrenzt (Strübing et al. 2018: 85) und eine „nomothetisch-deduktive Theoriegeleitetheit“ abgelehnt, weil sie bei der Generierung neuen Wissens hinderlich sei (Strübing et al. 2018: 94).

Für Strübing et al. (2018: 93) suggerieren die dichotomen Begriffspaare Theorie/Empirie und Theorie/Methode „die Möglichkeit von empiriefreier Theorie, theoriefreien Methoden und vortheoretischer Empirie“, weshalb diese unfruchtbaren Dichotomien zugunsten der Idee theoretischer Empirie aufzuheben seien. Die ganze Wortwahl erinnert an den – von einigen Autoren schon früher geäußerten – Vorwurf, die kritisch-rationale Vorstellung des idealisierten Wissenschaftsprozesses basiere auf einem Theorie-Empirie-Dualismus (Hirschauer 2008: 166):

Theorien (so meinte Karl Popper [1935]) sind freie Erfindungen des menschlichen Geistes; empirische Tatsachen selegieren diese Erfindungen im Sinne wissenschaftlich haltbarer Aussagen; Methoden kontrollieren die Gewinnung dieser Tatsachen. Assoziiert sind die folgenden Klischees theoretischer und empirischer Praxis: Die Begriffsbildung ist eine spielerisch-kreative Praxis, die dichterische Freiheiten und Formen gesteigerter Innerlichkeit benötigt. Die empirische Forschung ist eine komplementäre Spielverderberin, die die Geistesprodukte mit dem harten Boden der Tatsachen konfrontiert.

Doch das ist eine irreführende Charakterisierung. Die kritisch-rationale Auffassung trennt lediglich scharf zwischen dem Ursprung einer Idee und ihrer empirischen Geltung. Poppers Logik der Forschung widmete sich

Fragen von der Art: ob und wie ein Satz begründet werden kann; ob er nachprüfbar ist; ob er von gewissen anderen Sätzen logisch abhängt oder mit ihnen in Widerspruch steht usw. Damit aber ein Satz in diesem Sinn erkenntnislogisch untersucht werden kann, muß er bereits vorliegen; jemand muß ihn formuliert, der logischen Diskussion unterbreitet haben. (Popper 1935: 4)

Zum Ursprung wissenschaftlicher Einfälle und Theorien schreibt Popper lediglich, „daß diese Vorgänge nur empirisch-psychologisch untersucht werden können und mit Logik wenig zu tun haben“ (Popper 1935: 5).

Damit ist nur gesagt, dass keine zwingende logische Verbindung zwischen empirischen Beobachtungen und wissenschaftlichen Theorien zu ihrer Erklärung besteht. Eine findige Wissenschaftlerin kann zur Erklärung isolierter Beobachtungen in der Regel mehr als eine mögliche Theorie aufstellen. Eine logisch zwingende Beziehung besteht lediglich zwischen den neuen (häufig auch unerwarteten) Implikationen einer aufgestellten Theorie und deren erneuter Überprüfung anhand weiterer Beobachtungen.

Damit ist aber nicht gesagt, dass Theorien „freie Erfindungen des Geistes“ seien in dem Sinne, dass sie ohne Bezug zu (vorheriger) Empirie entstünden:

An „empirisch begründeter Theoriebildung“ bemängeln empirisch-analytisch orientierte Wissenschaftler nicht deren Erfahrungsbezug – […] Theorien für ein Untersuchungsfeld, die den bisher darin gemachten Beobachtung keine Rechnung trügen, wären bereits zum Zeitpunkt ihrer Formulierung falsifiziert! –, sondern a) die dadurch angeblich leistbare Begründung und b) den dabei angeblich möglichen, fast kompletten Verzicht auf vorgelagerte universelle Hypothesen. (Holweg 2012: 175)

Theoriegeleitete Forschung heißt eben vor allem, immer schon (mindestens als zunächst unausgesprochenes Vorwissen) bestehende, forschungsleitende Erwartungen zu explizieren sowie deren Revision im fortlaufenden Forschungsprozess zu dokumentieren. Der kritische Rationalismus erfordert also keine Lehnstuhl-Theoriebildung. Theoriebildung im Dialog mit der Empirie ist wünschenswert, ja, notwendig.

Unerwartete Beobachtungen geben häufig Anlass zur theoretischen Rekonstruktion. Das heißt, die anlassgebenden Beobachtungen müssen aus der Theorie logisch abgeleitet werden können.^[3] Dieser Schritt von der Beobachtung zur Theorie stellt jedoch noch nicht ihre (vorläufige) Gültigkeit sicher (das logische Begründungsproblem). Sie muss sich zusätzlich noch bewähren, d. h. (neue) Vorhersagen machen, die vorerst nicht widerlegt werden. Ein strenger Theorietest erfordert dabei die Prüfung anhand von Evidenz, welche nicht bereits bei der Theoriebildung miteinbezogen wurde (Musgrave 1974). Eine Widerlegung anhand neuer Evidenz zeigt dann Revisionsbedürftigkeit auf. Eine Theorie sollte auch nicht nur bereits bekannte Beobachtungen erklären. Stattdessen sollten theoretische Forschungsprogramme dann als „progressiv“ betrachtet werden, wenn sie bislang unbeobachtete neue Tatsachen vorhersagen und sich einige dieser Vorhersagen bewähren (Lakatos 1976: 229). Auf diese Weise üben Theorie und Empirie wechselseitigen Innovationsdruck aus.

Abb. 1:

Schematische Darstellung hypothetisch-deduktiver Theoriebildung.

Abbildung 1 veranschaulicht den Prozess nochmals: Ausgehend von einer Beobachtung (B) wird eine Theorie (T) entwickelt, aus der sich sowohl die ursprüngliche Beobachtung deduktiv als Hypothese (H1) ableiten lässt als auch eine weitere, neue Hypothese (H2), die unabhängig geprüft werden kann und die Aufmerksamkeit auf neue Tatsachen lenkt. Die gestrichelte Linie ist der „abduktive“, gehaltserweiternde Schritt. Da es weitere potentielle Theorien T′, T″ usw. gibt, welche die Ableitung von H1 erlauben, könnte die methodologische Faustregel lauten: Nehme diejenige Theorie vorläufig an (bzw. entwickle weiter), die möglichst viele weitere empirische Folgerungen (H2, H3 usw.) erlaubt und deren Anteil vorläufig bestätigter Folgerungen möglichst hoch ist. Hier zeigt sich, dass auch der kritische Rationalismus ein induktives Prinzip benötigt. Schurz (2002: 133–135) nennt es pragmatische Induktion. Damit ist die Möglichkeit gemeint, Theorien hinsichtlich ihres Bestätigungsgrades oder ihrer relativen Wahrheitsnähe zu vergleichen. Eine Theorie ist bei gegebenen Beobachtungsdaten „als umso wahrheitsnäher anzusehen, je mehr wahre und je weniger falsche beobachtete Konsequenzen […] sie besitzt“ (Schurz 2002: 130).

Die wechselseitige Irritation von Theorie und Empirie ist mithin auch in der kritisch-rationalen Spielart der analytischen Soziologie integraler Bestandteil des methodologischen Selbstverständnisses. Der Eindruck der „Linearität“ mag insbesondere dadurch entstehen, dass die Untersuchungsplanung großer standardisierter Erhebungen einen solchen linearen Ablauf zuweilen erfordert (Diekmann 2007: 192–193).^[4] Diese Fragen der praktischen Umsetzung von teuren und zeitaufwendigen Erhebungen sind allerdings zu trennen vom zyklischen Fortgang der Forschung selbst. Erstere sind häufig eben nur ein (aufwendiger) Teilschritt letzterer. Obschon qualitative Forschung kleinschrittiger arbeitet, besteht hier kein prinzipieller Unterschied. Ein potentiell größerer Unterschied besteht allerdings darin, dass in der qualitativen Forschung der abduktive Schritt (die gestrichelte Linie in Abbildung 1) methodisch kontrolliert vollzogen werden soll.

4 Erster blinder Fleck: Entstehungszusammenhang

Eine Methodologie, die gar nichts über die Praxis der Ideenfindung und Theoriebildung zu sagen hätte, wäre zweifelsohne unvollständig. Spätestens seit Lakatos (1976) ist die rationale Steuerung der Theoriefortentwicklung viel stärker in den Fokus gerückt. In der angewandten Methodenliteratur finden sich heuristische Prinzipien und Ratschläge, wie Forschungsfragen in vielversprechender Weise zu formulieren und Theorien angesichts unerwarteter Evidenz zu modifizieren seien (z. B. King et al. 1994: 19–23, 99–114). Aus Sicht der qualitativen Forschung sind diese sehr allgemeinen Hinweise letztlich Aufforderungen, nach dem Scheitern ans Reißbrett zurückzukehren. Die qualitative Forschung hingegen stellt ein Arsenal gegenstandsspezifischer Techniken zur Hypothesengenerierung zur Verfügung, die bspw. versprechen, Theoriebildung mittels bestimmter Herangehensweisen an das empirische Material davor zu schützen, sich empirischen Anregungen durch „primäre Sinnstrukturen“ zu verschließen (Strübing et al. 2018: 88). Steinke (1999: 221–227) sprach allgemeiner von der „empirischen Verankerung“ der Theoriebildung als einem Gütekriterium.

Die prinzipielle Wünschbarkeit explorativer Forschung ist unkontrovers. Standardisierte Befragungen bspw. eignen sich nur in äußerst begrenztem Umfang zur Exploration von Konstrukten, die nicht bereits bei der Konzipierung ihrer Kategorien berücksichtigt wurden. Die einschlägigen Lehrbücher lassen daran auch keinen Zweifel: „Die Konstruktion standardisierter Interviews ist nur dann zweckmäßig, wenn ein erhebliches Vorwissen über die zu erforschende soziale Situation existiert“ (Diekmann 2007: 438). Aus diesem Grund sind qualitative Methoden wie kognitive Pretests von unschätzbarem Wert für die Fragebogenentwicklung. Häufig wird zudem bei Befragungen zwar Unerwartetes beobachtet – z. B. im Lichte einer theoretischen Erwartung auffällig inkonsistente Antwortmuster –, das mit den vorliegenden Daten indessen nicht näher untersucht werden kann. Es bieten sich dann qualitative Studien an, um das Antwortverhalten zu verstehen (z. B. Kelle et al. 2019). Wenn man die Gütekriterien von Strübing et al. ernst nimmt, legen diese jedoch nicht nur die Nutzung von Mixed-Methods zur Methodenvalidierung und Hypothesengenerierung nahe. Eine konstruktive Lesart wäre, dass die analytisch-empirische Soziologie insgesamt lernen sollte, erstens, unvoreingenommener und rezeptiver an ihre Forschungsgegenstände heranzutreten, zweitens, den Entstehungszusammenhang ihrer Theorien bewusst zu gestalten und zu reflektieren.

Es lassen sich meiner Meinung nach gute Argumente dafür finden, dass hier entsprechende Defizite bestehen. Für die quantitative Forschung zeigt sich das exemplarisch an der stiefmütterlichen und unsystematischen Behandlung von explorativer Datenanalyse in den methodischen Lehr- und Handbüchern. Die handfesten Folgen von Hypothesenfixierung und mangelnder Neugierde werden anschaulich von Yanai & Lercher (2020) mit einem kleinen Experiment illustriert, das mit Biologie-Studierenden durchgeführt wurde. Vielen der Teilnehmerinnen und Teilnehmer, die einen Datensatz auswerten sollten, fiel nicht auf, dass die beiden zentralen Variablen des simulierten Datensatzes, im Streudiagramm visualisiert, die Umrisse eines Gorillas formten. Nur ca. ein Viertel der Studierenden, denen zu prüfende Hypothesen vorgegeben wurden, entdeckten die absurde Datenstruktur (im Gegensatz zu zwei Dritteln in der Vergleichsgruppe ohne Hypothesen). Eine Standardantwort auf die Gefahren des hypothesengeleiteten Tunnelblicks ist die – völlig berechtigte – Forderung nach größerer Transparenz, inklusive der Bereitstellung von Daten und anderen Materialien. Dadurch werden zwar die kritische Prüfung und das Scheitern falscher Hypothesen vereinfacht, jedoch wird nicht gewährleistet, dass sich aus unerwarteten Befunden neue, vielversprechende Hypothesen ergeben. So kann man es wohl auch verstehen, wenn die Autoren schreiben, die „Originalitätsanforderungen [stehen] in der standardisierten Sozialforschung häufig im Schatten des Bemühens um Kontrolle und Replikation“ (Strübing et al. 2018: 97).

Defizite zeigen sich aber auch im Publikationssystem in der typischen, standardisierten Struktur quantitativ-empirischer Aufsätze. Die stärker explorativen, hypothesengenerierenden Phasen laufen oftmals im Hintergrund ab und werden schlechterdings nicht thematisiert. Das hat durchaus negative Folgen für Transparenz und Qualität der Forschung und kann so weit gehen, dass bei der Niederschrift mitunter eine gekünstelte, lehrbuchhafte Theoriegeleitetheit vorgespiegelt wird. Dahinter kann die Absicht stehen, einem falsch verstandenen Popper’schen Ideal entsprechen zu wollen, oder aber methodologisch zweifelhafte post hoc Anpassungen zu kaschieren, um damit den höheren Bewährungsgrad einer eigentlich erst nachträglich formulierten Erklärung vorzutäuschen. Die Literatur zur Prävalenz fragwürdiger Forschungspraktiken und den Ursachen von „Replikationskrisen“ zeigt eindrücklich, dass die Publikationspraxis in weiten Teilen der quantitativen Sozialwissenschaft ihren wissenschaftstheoretischen Idealen nicht gerecht wird (Christensen et al. 2019: 31–74). Die Frage ist somit, ob die Gütekriterien nach Strübing et al. (2018) Hinweise liefern, wie das Ineinandergreifen induktiver, abduktiver und deduktiver Schritte zu kommunizieren und klüger zu steuern ist. Sie könnten folglich helfen, den Prozess der Erklärungsfindung transparenter zu gestalten. Eine darüberhinausgehende Hoffnung könnte sein, etwas salopp formuliert, den einen oder anderen Umweg über eine umständliche und kostspielige Falsifikation zu vermeiden, indem bereits von vornherein vielversprechendere Hypothesen generiert werden, weil wir besser in der Lage sind, die leisen, überraschenden, leicht zu übersehenden Hinweise zurückliegender empirischer Forschungsschritte wahrzunehmen.

4.1 Die Vagheit der Kriterien

Um dieses Potential im Forschungsprozess einzulösen, müsste es gleichwohl möglich sein, für Studien einen Konsens zu erzielen, ob sie gegenstandsangemessen, empirisch gesättigt, mit ausreichender theoretischer Durchdringung usw. vorgegangen sind. Sofern Güte i.d.S. sichergestellt ist, sollte die Forschung rezeptiver für die Impulse erfindungsreicher Empirie sein. Diese müssten wiederum systematisch vielversprechende Hypothesen und „theoretisch reichhaltigere“ Ergebnisse (Strübing et al. 2018: 97) zeitigen als Methoden und Theorien, welche „nur“ analytisch-empirischen Gütekriterien entsprechen. Über diese Bewertung müsste freilich ebenfalls ein Konsens erzielt werden können. Auf den hier entscheidenden Aspekt der abduktiven Hypothesengenerierung bezogen, ergibt sich daraus letztlich eine empirische Frage: ob nämlich aus einem bestimmten Umgang mit dem Datenmaterial und einer bestimmten Einstellung des Forschenden systematisch Einsichten resultieren, die sich späterhin als besonders robust und fruchtbar erweisen bzw. andernfalls übersehen worden wären.

Strübing et al. (2018) können und wollen mit ihren fünf Kriterien freilich nur einen „Anstoß“ geben, aber ich sehe zu wenige Anschlusspunkte, die zu einer Weiterentwicklung und Ausformulierung – zumal aus analytisch-empirischer Perspektive – führen könnten. Für Gütekriterien in der quantitativen Sozialforschung ist typisch, dass sich mit ihnen von Anfang an systematische Forschungsprogramme zu ihrer Präzisierung, Operationalisierung und praktischen Relevanz verknüpften. Im vorliegenden Anstoß hingegen finden sich kaum Hinweise dazu, wie ein methodenübergreifendes Programm weiter verfahren sollte, d. h. auch wie der Nachweis von zugesprochenen Qualitäten erfolgen sollte. Die postulierten Kriterien sollen gerade „nicht standardisiert und pseudo-objektiviert“ werden: „Was wir im Einzelfall als gegenstandsangemessen und empirisch gesättigt gelten lassen wollen […], das muss immer noch an konkreten Einzelfällen bestimmt und innerhalb der Scientific Community kommunikativ validiert werden“ (Strübing et al. 2018: 97–98). Es gibt anscheinend keine vom Einzelfall unabhängigen Leitlinien, welche die Konsensbildung im Einzelfall bestimmen.

Die Unterkriterien der empirischen Sättigung sind im Lichte der obig besprochenen Defizite rhetorisch höchst ansprechend. Die Stichworte „Rapport zum Feld“, „Breite und Vielfalt des Datenkorpus“ oder „Analyseintensität“ beschreiben durchaus, was zuvor im Gegensatz zu einem oberflächlichen Lehnstuhlempirismus als wünschenswert erachtet wurde. „Rapport zum Feld“ ist ein Konzept, das stark auf die Ethnographie zugeschnitten ist, aber man mag es sehr frei so übersetzen, dass Forschung immerzu umfangreiches, unstandardisiertes Fallwissen erfordert, um überhaupt standardisierte Daten erheben oder theorieprüfende Untersuchungsdesigns entwickeln zu können. Ferner ist auch quantitative Forschung überzeugender, wenn sie mittels verschiedener Datenkorpora trianguliert, d. h. wenn Untersuchungen dieselben Analysen mittels verschiedener Befragungsdaten durchführen und zu übereinstimmenden Ergebnissen gelangen; wenn neben Umfragedaten auch andere Datenquellen genutzt werden; wenn die behaupteten wirksamen Mechanismen zusätzlich in Laborexperimenten getestet werden; wenn die Entstehung der Institutionen, deren Wirksamkeit mittels der Untersuchung gezeigt wird, zusätzlich durch Analyse historischer Quellen nachvollzogen werden kann etc. Das alles erhöht nicht nur die Anzahl potentieller Falsifikatoren, sondern erhöht auch die Wahrscheinlichkeit, dass die Theorie auf eine überraschende, nicht antizipierte Art und Weise scheitert, die sich für die weitere Theorieentwicklung als fruchtbar erweist. Analyseintensität lässt bspw. daran denken, durch (insbesondere visuell gestützte) Exploration ein Gefühl für die Verteilungen und Zusammenhänge zu erhalten, anstatt sich bei der Auswertung auf einzelne Regressionsmodelle zu beschränken. Das schließt nicht aus, eine theoriegeleitete, zuvor genau festgelegte (oder sogar präregistrierte) Analyse durchzuführen. Beide Schritte sind vielmehr komplementär. Analyseintensität sollte freilich auch beinhalten, den Prozess der Datenentstehung zu kennen, sich bei Sekundäranalysen ausführlich mit der entsprechenden Dokumentation zu beschäftigen und bei Unklarheiten auch gezielte Nachforschungen anzustellen.

Diese Deutung ist allerdings eine sehr freie Übertragung. Viele zentrale Merkmale, die von Strübing et al. aufgeführt werden, wie die iterative Logik der Analyseintensität, „nach der das Datenmaterial fortlaufend erweitert und ergänzt wird, und die sich von den Erkenntnissen leiten lässt, die bei bisherigen Analysen des Vorhandenen gewonnen wurden“ (Strübing et al. 2018: 90), wurden einfach ausgeblendet. Solche spezifischen Merkmale mögen auf einige Methoden und Fragestellungen passen, aber nicht auf andere. Der Status solcher Einzelaspekte bleibt unklar und damit auch, inwiefern sie zur Gütebeurteilung von Forschungsfragen genutzt werden können, die nicht rein explorativ und hypothesengenerierend sind. Insgesamt bleibt auch im Dunkeln, wie ein entsprechender Mangel hinsichtlich der empirischen Sättigung zu attestieren wäre, ohne die Forschungsergebnisse einer Prüfung anhand anderer Kriterien zu unterziehen. Alle drei Stichworte beziehen sich auf den Forschungsprozess, dessen Adäquanz von Externen erst auf Grund seiner Ergebnisse bzw. seiner Dokumentation beurteilt werden muss. Dazu erscheinen mir Gütekriterien unerlässlich, welche die Begründung von (deskriptiven oder kausalen) Inferenzen zu beurteilen helfen. Als Leitideen für die Durchführung eigener Forschung, die dazu beitragen, eine offene Forschungshaltung zu kultivieren, mögen sie ohne Weiteres fungieren. Damit nähmen sie aber einen anderen Status ein als Kriterien im Sinne der Autorinnen und Autoren, die schließlich dazu beitragen sollen, Eigenschaften von Verfahren und Ergebnissen als gelungen einzuschätzen.

4.2 Methodische Vorentscheidungen

Die Vagheit der Kriterien kontrastiert mit dem Eindruck eines Zuschnitts auf spezifische Methoden. Ein Beispiel: Wenngleich Forschende „über diese hinausgehen“ müssen (Strübing et al. 2018: 91), verfügen primäre Sinnstrukturen über das größte Anregungspotential für die Theoriebildung. Darin drückt sich eine starke inhaltlich-theoretische Vorentscheidung aus (z. B. gegen Methoden, die primär beobachtbares Verhalten oder Entscheidungen als Ausgangspunkt für wissenschaftlich fruchtbar halten), die im Zusammenhang mit einem vermeintlich abgerüsteten Methodenbegriff (Strübing et al. 2018: 87) äußerst begründungsbedürftig erscheint. Sofern Gütekriterien helfen, die Schwäche und Unangemessenheit von Methoden aufzuzeigen, sollte diese Prüfung nach Möglichkeit Güte und Inhalt der Forschung trennen – zwei Aspekte, die in den Begründungen des Aufsatzes vermischt werden. Eisewicht & Grenz (2018: 368–369) wenden gleichfalls aus Sicht qualitativer Methoden ein, dass die Begründung der Gütekriterien starke Vorentscheidungen hinsichtlich des inhaltlichen Vorgehens nahelegt, die nicht mit allen Richtungen der sehr heterogenen qualitativen Forschung vereinbar scheinen.

Darüber hinaus schwingt im starken Empiriebegriff nach wie vor ein starkes naturalistisches Vorurteil mit. Das ist die Vorstellung der besonderen Anregung durch unmittelbares Ausgesetztsein und Eintauchen in empirisches Material einerseits (Strübing et al. 2018: 87) und die Unverfälschtheit unstandardisierter, theoretisch nicht überformter Daten andererseits. Dem kann man entgegenhalten, dass theoriebeladene, künstliche Beobachtungsverfahren die Nehmerqualitäten primärer Sinnstrukturen steigern können, indem sie selektiv verstärken und ausblenden. Denn es geht oftmals um die Entdeckung eines Signals im Rauschen, das erst durch methodische Kontrolle hervortritt. Die Hinweise auf die Verwendung sensibilisierender Theoriebezüge (im Gegensatz zur theoriegeleiteten Hypothesenprüfung) helfen hier nicht weiter. Hypothesenprüfende Forschung schließt nicht per se Beobachtungen aus, die nicht ins vorgefasste theoretische Begriffskonzept passen, und eine theoretische Perspektive sensibilisiert auch ohne Hypothesen immer nur für bestimmte Wirklichkeitsausschnitte. Strübing et al. lassen im Dunkeln, ob und wie unterschieden werden kann, ob – in ihren Worten – Daten trainiert oder eben überformt werden.

4.3 Varianten der Abduktion

Der letzte Punkt kann hinsichtlich der Vielfalt der Abduktion verdeutlicht werden. Der Wissenschaftsphilosoph Schurz (2008) unterscheidet in einem sehr umfassend-taxonomischen Aufsatz verschiedene Formen des abduktiven Schließens. Er misst in der Wissenschaft der vereinheitlichenden Abduktion (common cause abduction) eine besondere Bedeutung zu. Letztere grenzt er insbesondere von spekulativer Abduktion ab, welche für zu erklärende Phänomene je eigene theoretische Konzepte einführt. Wenn bspw. das Verhalten in verschiedenen Situationen durch je zu einer Situation gehörige verschiedene Rollen „erklärt“ wird, handelt es sich augenscheinlich nicht um fruchtbare Theoriebildung. Neue theoretische Konzepte sollten hingegen eine Vielzahl interkorrelierter, aber analytisch unabhängiger Phänomene erklären können. Schurz postuliert, dass wissenschaftliche Ideen häufig mit Vermutungen über eine gemeinsame Ursache beginnen. Bspw. könnten gemeinsame Dispositionen von Objekten oder Situationen darauf zurückgeführt werden, dass alle einer gemeinsamen Art angehören. Die Einführung einer solchen Kategorie ist dann Ausgangspunkt der Formulierung eines gemeinsamen zugrundeliegenden kausalen Mechanismus, der diese Dispositionen erklärt.

Seine Ausführungen erinnern stark an sozialwissenschaftliche Idealtypenbildung. Auf Ebene der Methoden wirken aber auch die iterative Kodierung in der GT ebenso wie strukturierte Inhaltsanalysen prädestiniert für solche abduktiven Schlüsse. Schurz exemplifiziert sie interessanterweise durch statistische Verfahren, die man in der quantitativen Sozialforschung „strukturentdeckend“ (Faktorenanalyse usw.) nennen würde. Man könnte ergänzen: Derlei Techniken, angewandt auf standardisierte Daten aus einer vorgefassten Zufallsstichprobe, können gerade die Funktion der „monströsen Apparaturen“ erfüllen, die „leise Spuren“ im Datenmaterial verstärken, welche Strübing et al. (2018: 87) an den Naturwissenschaften so bewundern. Ebenso kann eine Zusammenstellung stilisierter Fakten, auf eine ganz und gar nicht methodisch abgerüstete Weise, ausgesprochen ergiebig sein für die abduktive Anregung neuer Konzepte.

Theoretische Innovation kann folglich durch den Einsatz höchst unterschiedlicher Techniken und Instrumente gefördert werden. Das sollte zumindest Anlass sein, die herausragende Stellung des Innovationspotentials primärer Sinnstrukturen, die bereits in den Ausführungen zum Basiskriterium präjudiziert ist, zu hinterfragen. Schurz (2008) zählt weitere Formen abduktiver Schlüsse auf (Gesetzes-Abduktionen, Analogien usw.). Welche Formen abduktiven Schließens mit welchen Mitteln herbeigeführt werden sollen, hängt naheliegenderweise vom Forschungsgegenstand, der Problemstellung und dem Kontext des gesamten kumulativen Forschungsprozesses (wie viel bereits bekannt ist) ab. Das heißt aber auch: Theoriebeladene Beobachtungen und deduktive Theorien legen dem Wissenschaftler zuweilen Scheuklappen an und führen zu den oben beschrieben Problemen; gleichzeitig entfalten übergreifende Theorien und „frameworks“ ein hohes abduktives Potential, gerade weil sie uns die Beschränkung auferzwingen, im Netzwerk bekannter nomologischer Beziehungen denken zu müssen (Muthukrishna & Henrich 2019). Ich bezweifle daher, dass Gütekriterien über den Entstehungszusammenhang bzw. die empirisch verankerte Theoriebildung in derselben Weise kanonisiert werden können wie Gütekriterien hinsichtlich des Begründungszusammenhangs.

5 Zweiter blinder Fleck: Erfahrungswissenschaftlich geöffneter Methodenbegriff

Ein weiterer möglicher Kritikpunkt an der analytisch-empirischen Güteauffassung lässt sich unmittelbar dem Text von Strübing et al. entnehmen. Der bereits erwähnte starke Empiriebegriff, der primäre Sinnkonstruktionen gegen die „zu starken theoretischen Vorannahmen und gegenüber den Reifikationen vorgängiger Begriffsbildung“ schützen soll, wird flankiert von einem reduzierten Methodenbegriff (Strübing et al. 2018: 87). Und hier wird, wie auch an anderen Stellen (z. B. Strübing et al. 2018: 85, 93, 97), die „standardisierte“ Forschung zur Kontrastfolie, welche zur Warnung vor den Verletzungen der vorgeschlagenen Gütekriterien herangezogen wird. Denn standardisierte Forschung gehe von einem „strikt normativen Verständnis von Methode“ aus, einem „normativen Standard des Verfahrens in allen Fällen gleicher Art“. Die Forderung nach Gegenstandsangemessenheit relativiere diesen „hochtrabenden Universalismus an heterogenen Gegenständen“. Stattdessen sei ein „erfahrungswissenschaftlich geöffneter Methodenbegriff“ erforderlich (Strübing et al. 2018: 87):

Die Forschung hat ein umfangreiches Erfahrungswissen darüber gesammelt, wie am besten vorzugehen ist. Sie kennt regulative Maximen und Faustregeln, Klugheitslehren und strategische Empfehlungen, sinnvolle Schrittfolgen und Vorsichtsmaßnahmen gegen Kunstfehler, und sie verfügt über viele gute Kniffe: tricks of the trade […] Diese Offenheit und Flexibilität hat ihren methodologischen Grund im unstillbaren Erfindungsbedarf für das empirische Vorgehen.

Diesen Erfindungsbedarf „leugnet der positivistische Methodenbegriff“.

Eine erfahrungswissenschaftliche Methodologie verweist zwangsläufig auf ein grundlegendes wissenschaftstheoretisches Problem, nämlich die Theoriebeladenheit der Beobachtung. Qualitativ orientierte Autoren wie Hirschauer oder Strübing erkennen die Bedeutung der Theoriebeladenheit für die Forschungspraxis grundsätzlich an (Hirschauer 2008: 174; Strübing 2002: 330–331), aber beziehen es meist auf die zu prüfenden Theorien, nicht aber auf Mess- und Hilfstheorien der empirischen Methoden, die mitunter so bezeichnete „mensurelle Theoriebeladenheit“ (Carrier 2006: 69). Eine Diskussion dieses Problems ermöglicht eine Präzisierung dessen, was sinnvollerweise unter einem erfahrungswissenschaftlichen Methodenbegriff verstanden werden sollte. Es soll gezeigt werden, dass die präsupponierten theoretischen Annahmen, die zur Feststellung von Tatsachen verwendet werden, nicht deckungsgleich mit den zu prüfenden theoretischen Aussagen sind. Sie können unter Zuhilfenahme anderer Daten und Verfahren in aller Regel unabhängig überprüft werden (vgl. z. B. Albert 1969: 278–279).

Wissenschaftliche Erkenntnis erfordert, dass intersubjektiver Konsens über basale empirische Fakten hergestellt werden kann. Dieser Konsens ist gleichwohl nicht willkürlich, sondern folgt methodischen Regeln. Oder anders gesagt: Sofern wir uns auf gewisse Methoden geeinigt haben, helfen sie uns, Einigkeit über Beobachtungen herzustellen, sodass nicht über einzelne Beobachtungen jeweils neu verhandelt werden muss. Eine Perspektive auf Methoden ist folglich, sie als transparente Übereinkünfte zu betrachten, wie wissenschaftlicher Konsens über singuläre Fakten erzielt werden kann. Mit „Methoden“ sind hier gleichermaßen konkrete Instrumente (zur Messung und Auswertung, bspw. Fragebatterien oder in Statistikprogrammen implementierte Schätzmethoden) als auch die allgemeinen Verfahrensregeln zur Konstruktion dieser Instrumente gemeint. Derlei Verfahrensregeln werden durch Annahmen und Theorien über die Instrumente und ihre Beziehung zum Untersuchungsgegenstand begründet, deren Überprüfung nicht im Fokus des jeweiligen Forschungsprojektes steht. Die Darlegung und Fixierung dieser methodischen Regeln erlaubt es allerdings, sie selbst ggf. zum Gegenstand kritischer Diskussion machen zu können. Erst durch diese Objektivierung der Verfahren wird Wissenschaft möglich. Das ist der erfahrungswissenschaftlich geöffnete analytisch-empirische Methodenbegriff.

Das Schlagwort der mensurellen Theoriebeladenheit verweist also auf ein kompliziertes Geflecht einander stützender Theorien. „Was als Prüfung der Korrespondenz zwischen Theorie und Tatsache erscheint, ist in nicht unerheblichem Ausmaß eine Prüfung der Kohärenz zwischen verschiedenen Theorien“ (Carrier 2006: 77). Auch Beobachtungen (sogar Basissätze) haben jeweils nur den Status von vorläufigen Hypothesen. Anders gesagt: „Whether a proposition is a ‘fact’ or a ‘theory’ in the context of a test-situation depends on our methodological decision“ (Lakatos 1976: 44). Analytisch-empirische Gütekriterien erzwingen in diesem Zusammenhang eine Präzisierung der Annahmen, die einer theoriebeladenen Beobachtung zugrunde liegen, und helfen bei der Konstruktion geeigneter Prüfungsverfahren. Wenn die Stabilität einer zu messenden Eigenschaft angenommen wird, dann sollte die Retest-Reliabilität, ausgedrückt als Korrelation zwischen zwei Messzeitpunkten, hoch sein. Sofern das nicht der Fall ist, kann es entweder an unserem Messinstrument liegen oder an einer falschen Theorie über die Eigenschaft.

Ein simples Beispiel: Einkommensdaten können genutzt werden, um eine Theorie über die Entstehung von Ungleichheit zu testen. Ob das Messinstrument, d. h. die Frage bzw. der Fragebogen, tatsächlich reliabel und valide ist, lässt sich jedoch ggf. unabhängig von der eigentlich interessierenden Theorie prüfen. Im Falle des Einkommens könnten z. B. andere Datenquellen wie Steuer- oder Sozialversicherungsdaten zur Validierung herangezogen werden. Obzwar deren Validität ebenfalls von theoretischen Annahmen abhängt, handelt es sich dabei um andere datengenerierende Prozesse und mithin um andere (theoretisch begründete und wiederum prüfbare) Annahmen. Konkordanz kann dann als vorläufige Bestätigung gedeutet werden. Ganz allgemein existiert mit der Survey-Methodologie ein ganzes interdisziplinäres Fach, das sich der Qualitätssicherung von standardisierten Messinstrumenten widmet, gerade auch für die Messung von Ein- und Vorstellungen, deren Validierung vor deutlich größeren Problemen stehen mag als das Beispiel der Einkommensmessung. Zur Erklärung des Antwortverhaltens in einer Befragungssituation werden dabei selbst wiederum soziologische oder kognitionspsychologische Theorien genutzt.

Diese ganze Argumentation bezieht sich nicht nur auf Messungen im engeren Sinne, sondern auch auf Hilfstheorien wie die statistische Theorie über Stichproben. Die Schätzung unbekannter Populationsparameter anhand von Stichproben ist nichts anderes als eine theoriebeladene Beobachtung.^[5] Die Richtlinien, die aus solchen Hilfstheorien abgeleitet werden, sind wiederum abhängig vom Forschungsziel, von Annahmen über den Untersuchungsgegenstand und praktischen Erwägungen (z. B. Kosten, Befragungsdauer usw.). Stets liegen aber (mal mehr oder weniger geprüfte und formalisierte) Theorien zugrunde. Die „Normativität“ der Methoden zielt somit selbstverständlich auf gegenstandsangemessene Empfehlungen. Gütekriterien sollen gerade dabei helfen, angesichts höchst unterschiedlicher Forschungsgegenstände möglichst passende Instrumente zu entwickeln. Die entsprechenden Empfehlungen sind dabei prinzipiell fehlbar. Sie sind damit zugleich offen für unterschiedliche Einschätzung. Es ist natürlich nicht gewährleistet, dass Gütekriterien immer und überall zu eindeutigen Urteilen führen, ebenso wie allgegenwärtige Methodendiskussionen zu Forschungsdesign, Datenerhebung und -auswertung zeigen, dass die angedeutete Einheitlichkeit der „normativen Vorgaben“ eine Karikatur ist. Wie alle Bereiche kumulativer Forschung entwickelt sich die Methodenforschung im Widerstreit fort.

Ich sehe hier deshalb keinen prinzipiellen Unterschied zu den „Maximen und Faustregeln, Klugheitslehren und strategische Empfehlungen, sinnvolle[n] Schrittfolgen und Vorsichtsmaßnahmen gegen Kunstfehler“ (Strübing et al. 2018: 87). Einer Faustregel liegt eine angenommene (wenigstens probabilistische) Regelmäßigkeit zugrunde, ansonsten wäre sie nutzlos. Der Unterschied scheint vor allem darin zu bestehen, dass in der analytisch-empirischen Methodenforschung die Annahmen stärker expliziert und die Hilfstheorien systematisch geprüft werden.

6 Zwischenfazit

Das Ziel von Gütekriterien sollte sein, Prozeduren zu entwickeln, die bestenfalls bereits im Forschungsprozess einen intersubjektiven Konsens ermöglichen oder zumindest zu einer strukturierten Auseinandersetzung führen. Es muss sich um „Prüfverfahren“ und nicht nur „wohlklingende Prinzipien“ handeln (Diekmann 2007: 544). Sie sollten dabei nachvollziehbar sein, um selbst ohne Weiteres zum Gegenstand einer kritischen Diskussion werden zu können. Wie Eisewicht & Grenz (2018) über Strübing et al. feststellen, „geht der Vorschlag nicht über die Erkenntnis hinaus, dass Forschung zu überzeugen hat“, wenn je nach Fall oder Studie diskutiert werden muss, was nun die spezifische Bedeutung der Gütekriterien ist (Eisewicht & Grenz 2018: 370). Zusammenfassend sind die Forderungen nach erfahrungswissenschaftlicher Offenheit und auch Gegenstandsangemessenheit in einem gewissen Sinne unkontrovers, aber letztlich ohne wie auch immer geartete externe Erfolgskontrolle und ohne vergleichende Methodenforschung auch folgenlos.

Es wäre freilich ein Desideratum, die Fruchtbarkeit von Methoden zur Gewinnung sich bewährender Theorien systematisch zu erforschen. Was ich damit meine, sind Fragen der Art: Lässt sich für bestimmte Gegenstände und Zwecke ein intersubjektiver Konsens über (z. B.) die angemessenen Methoden herstellen und resultieren aus der Verwendung dieser Methoden systematisch Einsichten, die nur sehr unwahrscheinlich auf anderem Wege erzielt werden können und sich langfristig bewähren? Im Sinne der Qualitätssicherung müssten sich systematische Unterschiede zwischen i.d.S. rigiden und rezeptiven Forschungspraktiken zeigen lassen, sofern es sich hierbei um mehr als bloß ein Geschmacksurteil hinsichtlich der favorisierten Theorien und Befunde handelt. Die Problematik, welche Anregungen aufgenommen werden sollten, ist schließlich mit der Frage nach der Themenwahl verbunden, die sich im „Vorzimmer der Wissenschaft“ abspielt (Dahrendorf 1961: 34) und eine ganz andere Diskussion über die außerwissenschaftlichen Kriterien, welche die Auswahl von Forschungsfragen (nicht) leiten sollen, eröffnete.

So existieren zwar verschiedene Varianten der GT, für die jeweils Plausibilitätsargumente vorgebracht werden (Kelle 2010), aber, soweit mir bekannt, keine systematischen Versuche, dieselben Untersuchungsgegenstände mit unterschiedlichen Varianten zu erforschen und die Ergebnisse zu vergleichen. In gleicher Weise könnte das theoretische Sampling der GT und die darin enthaltenen Behauptungen über angemessene „Suchalgorithmen“ ganz grundlegend zum Forschungsgegenstand gemacht werden. Führt eine gezielte, iterative Fallauswahl (Strübing 2002: 333) wirklich zu robusten Theorien? Bewähren sie sich, wenn sie anschließend mittels Zufallsstichproben aus einer wohldefinierten Grundgesamtheit geprüft werden? Das sollte prinzipiell erforschbar sein. Eventuelle Diskrepanzen müssten Gründe haben, die für sich genommen aufschlussreich sein könnten.

Doch ganz gleich, ob sich entsprechende Regelmäßigkeiten der methodischen Theoriegewinnung nachweisen ließen, entbänden sie nicht von der Anwendung eines falsifizierenden Vorgehens. Dass „Originalitätsanforderungen […] im Schatten des Bemühens um Kontrolle und Replikation“ stehen (Strübing et al. 2018: 97), ist dem analytischen Wissenschaftsverständnis nach ganz und gar richtig. Originelle und neuartige Theorien können falsch sein. Es ist immer möglich, mehrere Theorien zur Erklärung ein und desselben neuen Sachverhalts aufzustellen. Daraus ergibt sich die Notwendigkeit eines deduktiven, hypothesenprüfenden Verfahrens. Es geht dann um die Auslese sich bewährender Theorien aus einer Menge allesamt empirisch angeregter, doch ex ante gleichermaßen plausibler Ansätze. Deswegen muss es auch zu jedem Zeitpunkt legitim sein, Forschung zu unternehmen, deren einziger Zweck darin besteht, eine bereits formulierte Erklärung oder Hypothese erneut zu überprüfen. Insofern können auch Gütekriterien zur Stärkung generativer Techniken lediglich komplementär sein und die analytisch-empirische Methodologie lediglich ergänzen.

7 Die Relevanz analytisch-empirischer Gütekriterien

Strübing et al. meinen mit Gütekriterien allgemeine Kriterien mit methodenübergreifender Geltung. Wenn sie jedoch schreiben, dass sich Gütekriterien in der standardisierten Sozialforschung „vor allem auf die Qualität eines Messvorgangs richten, also auf einen sehr kleinen Ausschnitt des Forschungsprozesses“ (Strübing et al. 2018: 84), so ist das wohl auf die terminologische Reservierung des Ausdrucks für die drei klassischen Gütekriterien der psychologischen Testtheorie zurückzuführen. Es gibt jedoch eine Vielzahl weiterer in der Literatur diskutierter methodenübergreifender Erfordernisse oder Kriterien. Frühere Arbeiten wie bspw. die von Steinke (1999: 158–192) rezipieren durchaus nicht-messtechnische Gütekriterien und diskutieren ihre Eignung für die qualitative Forschung. King et al. (1994: 63–74) versuchten in ihrem einflussreichen Beitrag, Gütekriterien statistischer Schätzer (Erwartungstreue, Effizienz, Konsistenz) auf qualitative Forschungsdesigns anzuwenden. Die pauschale Behauptung der messtechnischen Verkürzung fällt somit hinter den Diskussionsstand zurück.

Die Kanonisierung aller potentiellen Gütekriterien wäre indessen eine exegetische Leistung, die ich hier nicht versuchen möchte. Stattdessen beschränke ich mich auf die Relevanz ausgewählter grundlegender Anforderungen, die im Vorschlag von Strübing et al. unerwähnt bleiben, aber aus analytisch-empirischer Perspektive konkreten Methoden vorgelagert und mithin auch für qualitative Forschung relevant sind: 1) Gütekriterien der Theoriebildung, 2) interne und externe Validität, 3) Transparenz und Reproduzierbarkeit. Ich möchte zeigen, dass ihre Nichtberücksichtigung mindestens eilfertig ist.

7.1 Gütekriterien der Theoriebildung

Die analytisch-empirische Soziologie fokussiert keine Techniken, die bewusst zur „Entdeckung“ neuer Theorien und Forschungsfragen beitragen sollen. Vielerorts wird sogar die Auffassung vorherrschen, dass in den Sozialwissenschaften ohnehin ausreichend originelle Theorien kursieren, deren strenge und systematische Prüfung jedoch in aller Regel ausbleibt. Das ist auch eine Folge von Fehlanreizen im Publikationsbetrieb, wo beständig nach theoretischen Innovationen verlangt wird (Besbris & Khan 2017).

Für die analytisch-empirische Soziologie ist gleichwohl eine umfangreiche wissenschaftstheoretische Reflexion über Gütekriterien der Theoriebildung charakteristisch (z. B. Braun 2008), die sich auch in Lehrbüchern zur empirischen Sozialforschung wiederfindet (Diekmann 2007: 140 ff.). Braun (2008: 376) beklagt eindringlich die für die Soziologie typische strikte Trennung zwischen Theorie und Empirie, insbesondere in den führenden deutschsprachigen Theorielehrbüchern. Eben weil sich Theorie und Empirie wechselseitig anregen, sollten Kriterien der Theoriebildung zusammen mit Kriterien der empirischen Forschung diskutiert werden: Wie sollen Theorien ausgestaltet werden, um nachvollziehbar und prüfbar zu sein und wie sollten sie angesichts widersprüchlicher Evidenz modifiziert werden? Theoriebildung sollte ebenfalls ein kontrollierter Prozess mit eigener Methodologie sein (Tutić 2015: 3–4).

Theoretische Gütekriterien elaborieren zumeist nicht-empirische Auszeichnungsmerkmale wie Einfachheit, Widerspruchsfreiheit, Kohärenz mit dem Hintergrundwissen, die Größe des Anwendungsbereichs, die Vereinheitlichungsleistung und Prüfbarkeit (Carrier 2006: 99–101). Aus allgemeinen theoretischen Gütekriterien werden dann weitere Forderungen abgeleitet, etwa die Wünschbarkeit der Formalisierung (Ziegler 1972). Es ist vielleicht wichtig zu betonen, dass die Formalisierung von Theorien die theoretische Vorstellungskraft nicht verkümmern lässt, sondern dadurch, dass sie Ableitungsregeln bereitstellt, die über die normale Alltagssprache hinausgehen, als kontrolliertes Entdeckungsverfahren aufgefasst werden kann, das die nicht immer augenfälligen Implikationen von (ggf. empirisch angeregten) Prämissen aufzeigt (Tutić 2015: 4; Ziegler 1972: 14–19). Die theoretischen Gütekriterien sind mithin für je beide Verknüpfungen Theorie/Prüfung sowie Beobachtung/Theoriebildung höchst relevant. Ohne die genannten Kriterien einzeln zu diskutieren, kann man es bei der Feststellung belassen, dass Theoriebildung eine schöpferische, aber methodisch geleitete Reaktion auf empirische Irritationen und Überraschungen sein sollte.

In den Vorschlägen von Strübing et al. finden sich einige Anknüpfungspunkte an die oben genannten Merkmale. Der Abschnitt zur theoretischen Durchdringung enthält einige Sätze, die sich im Sinne der Widerspruchsfreiheit lesen lassen, etwa wenn davor gewarnt wird, „inkommensurable Theorieperspektiven“ zu kombinieren (Strübing et al. 2018: 92). Das Erfordernis, „Anschlussfähigkeit an andere Studien zu schaffen“ (Strübing et al. 2018: 91), sowie die im Originalitätskriterium enthaltene Forderung, nicht hinter den common sense, das Sachwissen des Feldes und den Forschungsstand zurückzufallen, bestimmt Formen der Kohärenz mit dem Hintergrundwissen (obwohl Originalität freilich darüber hinaus geht). Die theoretische Durchdringung ist zudem bei Studien besonders gelungen, die „Interesse an der Verallgemeinerung ihres Falles“ haben und somit den Anwendungsbereich der gewonnenen Theorie vergrößern. Allerdings schließt theoretische Durchdringung die Entwicklung „pointierte[r] Konzeptentwicklungen“ mit ein. Eine Studie, „die deskriptiv theorielos bleibt oder theoretisch subsumierend verfährt, und der es an Versuchen zur Begriffsbildung mangelt“, weist hinsichtlich des Kriteriums theoretischer Durchdringung eine geringe Güte auf (Strübing et al. 2018: 93). Solche Forderungen nach theoretischer Innovation sind aus analytisch-empirischer Sicht problematisch. Wie weiter oben erläutert, betreffen sie letztlich Vorentscheidungen zur Zielsetzung oder ergeben sich erst als Notwendigkeit aus der empirischen Inadäquanz bestehender Theorien. Bei Strübing et al. fehlen dafür explizite Hinweise dazu, wie die Theorien, deren Bildung das entscheidende Ziel empirischer Arbeit sein sollte, ausgestaltet sein sollten. Die Rezeption und Entwicklung von Gütekriterien der Theoriebildung könnte vor zu viel dichterischen Freiheiten und spielerisch-kreativer Praxis bewahren.

7.2 Interne Validität

Das Untersuchungsdesign kann als Einheit aus Forschungsfrage, Theorie, Daten und Datennutzung aufgefasst werden, die im Forschungsprozess nicht unabhängig voneinander zu betrachten sind (King et al. 1994: 13 und 46). Die Eigenschaften der internen und externen Validität, die in der quantitativen Methodenliteratur standardmäßig hervorgehoben werden, können am besten als Gütekriterien auf der Ebene von Untersuchungsdesigns aufgefasst werden. Diese Begriffe sollten nicht mit der Validität von Messungen verwechselt werden (wie Inhalts-, Konstrukt- und Kriteriumsvalidität). Interne Validität meint die Abwesenheit von Störfaktoren, welche dazu führen könnten, dass die interessierenden Zusammenhänge verzerrt geschätzt werden. Externe Validität meint hingegen die Generalisierbarkeit der Ergebnisse über das Untersuchungsdesign hinaus.

Intern valide Untersuchungsdesigns sind aus kritisch-rationaler Sicht wünschenswert, weil sie Kausalhypothesen einer besonders strengen Prüfung unterziehen. Zugleich können wir davon ausgehen, dass es sich tatsächlich um eine Widerlegung der getesteten Hypothese handelt, weswegen wir unsere Bemühungen hernach zielgerichtet auf die Revision der theoretischen Aussagen konzentrieren können. Experimentelle Versuchsaufbauten mit Randomisierung bspw. erhöhen die interne Validität der Schätzung von Kausaleffekten, weil sie sicherstellen, dass Unterschiede im beobachteten Verhalten ausschließlich auf den experimentellen Stimulus zurückzuführen sind (Diekmann 2007: 339).

Soweit sich qualitative Forschung mit der Erforschung von Ursache und Wirkung befasst, ist interne Validität dort ebenso relevant wie in der quantitativen Forschung. Man kann etwa Steinke (1999: 75) so verstehen, dass die GT zwar nicht um „Repräsentativität“, aber um die Sicherstellung der internen Validität bemüht ist:

Das Ziel der Grounded Theory besteht […] darin, eine Theorie aufzubauen, die ein Phänomen spezifiziert, indem sie es in Begriffen der Bedingungen (unter denen ein Phänomen auftaucht), der Aktionen und Interaktionen (durch welche das Phänomen ausgedrückt wird), in Konsequenzen (die aus dem Phänomen resultieren) erfaßt.

Das ist schließlich nichts anderes als ein Kausaleffekt. Um sicherzustellen, dass ein Phänomen und dessen Konsequenzen unter bestimmten Bedingungen auftritt, muss das Untersuchungsdesign intern valide sein. Denn Störfaktoren könnten dazu führen, dass ein Scheinzusammenhang zwischen wahrgenommenen Bedingungen und Konsequenzen hergestellt wird, der eigentlich ganz andere Ursachen hat. Diese Deutung ist sicherlich umstritten, aber nur weil Methoden und Theorien nicht die Sprache der Kausalanalyse nutzen, heißt das nicht, dass eine kausalanalytische Rekonstruktion unmöglich ist (z. B. Bright et al. 2016).

Eine plausible Quelle von Störfaktoren ist die Fallauswahl oder die vom Einverständnis der Untersuchten abhängige Gewährung des Feldzugangs. Dabei kann das Problem der endogenen Selektionsverzerrung auftreten (Elwert & Winship 2014). Ich versuche das anhand eines (etwas abstrakten) Beispiels zu illustrieren, das nicht nur auf die GT zugeschnitten ist: Angenommen wir interessieren uns für die Herstellung der sozial geteilten Auffassung über das Geschlecht von Personen in bestimmten sozialen Situationen. Wir beobachten Situationen, in denen gewisses Verhalten (V) gezeigt wird und dieses Verhalten führt zusammen mit den (unbeobachteten) Wissensbeständen (W) der beteiligten Personen zur Wahrnehmung von Geschlechterausprägungen (G). Beobachterinnen haben in der Regel nicht Zugang zu allen sozialen Situationen. Wenn nun sowohl die Formen des Verhaltens als auch die unbeobachteten Wissensbestände (etwa wegen der beteiligten Gruppen) die Stichprobe (S), also die beobachteten Situationen, zu denen Feldzugang bestand, beeinflussen, dann wäre der beobachtete Zusammenhang zwischen V und G potentiell verzerrt. Es wäre sogar möglich, dass gewisse Verhaltensweisen überhaupt nicht ursächlich für die Geschlechterwahrnehmung sind, aber auf Grund der selektiven Situationsstichprobe so erschienen und beschrieben würden (Abbildung 2).

Abb. 2:

Darstellung des Beispiels als DAG (directed acyclic graph). Technisch gesprochen ist die Variable S (Teilnahme bzw. Beobachtung, d. h. die Stichprobenmenge) ein „Collider“ (siehe Elwert & Winship 2014).

Um den Zusammenhang unverzerrt darzustellen zu können, wäre es nötig, für die nicht direkt beobachtbaren Wissensbestände zu „kontrollieren“, diese also bei den Schlussfolgerungen systematisch zu berücksichtigen und „konstant zu halten“. Vermutlich würden qualitative Forschende genau das versuchen: die zunächst unbeobachteten Wissensbestände der beteiligten Personen verstehen und diese dann nutzen, um die Selektivität der beobachteten Situationen einzuordnen und dadurch Zusammenhang von Verhalten und Geschlechterwahrnehmung unverzerrt zu beschreiben. Das wäre ein Bemühen um die interne Validität der Kausalschätzung. Ebenfalls ist sinnfällig, warum iteratives theoretisches Sampling anfällig für entsprechende endogene Selektionsverzerrungen sein könnte. Selektive Fallauswahl kann zur Formulierung verzerrter theoretischer Zusammenhänge führen, welche dann die weitere Fallauswahl auf eine falsche Fährte leiten.

Der Mehrwert eines analytisch-empirischen Kriteriums wie interner Validität liegt in der Klarheit des Vokabulariums und Instrumentariums, die zur Beschreibung und Behebung der Probleme entwickelt wurden. Statistik ist nicht nur Mathematik, sondern auch angewandte Epistemologie.^[6] Es geht um die Beantwortung der Frage, welche Schlüsse eigentlich aus Beobachtungen gezogen werden können, welche Annahmen dafür notwendig sind und welche Unsicherheit mit diesen Schlüssen verbunden ist. Auf einer qualitativen Ebene handelt es sich um logische Beziehungen, die auch ohne Quantifizierung ihre Gültigkeit behalten. Dazu zählen insbesondere auch Instrumente der Kausalanalyse, die sich in den letzten Jahrzehnten rasch fortentwickelt haben (King et al. 1994: 75–99; Morgan & Winship 2014). Sie stellen ein formales Gerüst bereit, mittels dessen die bloße Auflistung möglicher Bedrohungen der internen (oder externen) Validität durch die Explikation der je spezifischen Annahmen ersetzt werden kann, die einer Schlussfolgerung über Kausalität (oder Verallgemeinerbarkeit) zugrunde liegen. Wenn die Vermutung richtig ist, dass sich viele Varianten der qualitativen Forschung dieser Probleme durchaus bewusst sind, wäre die Übernahme entsprechender Kriterien und den damit verbunden Instrumenten keine Unterwerfung unter einen Methodenimperialismus. Dass diese Kriterien und formalen Methoden in der quantitativen Forschung entwickelt wurden, kann schließlich ganz und gar historisch kontingente Ursachen haben.

7.3 Externe Validität

Externe Validität bezieht sich auf die Übertragbarkeit von Ergebnissen auf andere gesellschaftliche Kontexte oder Gruppen. Offensichtliche Einschränkungen der Übertragbarkeit ergeben sich aus der Stichprobe, anhand derer die Ergebnisse gewonnen wurden. Eine Zufallsstichprobe aus der relevanten Grundgesamtheit gewährleistet in der Regel eine hohe Verallgemeinerbarkeit. Es ist freilich abhängig vom Erkenntnisinteresse, wohin Ergebnisse ggf. übertragen und verallgemeinert werden sollen. Allerdings wird es nur wenige soziologische Studien geben, die keinerlei Anspruch auf Verallgemeinerbarkeit über die jeweiligen Untersuchungskontexte und -populationen hinaus erheben. Wichtig ist der Bezug zur relevanten Grundgesamtheit. Drei kurze Richtigstellungen sind angebracht, da die Argumente, welche gegen externe Validität als universellem Kriterium angebracht werden, mitunter auf Missverständnissen der Stichprobentheorie zurückgehen (z. B. Strübing 2002: 333–335).

Erstens ist „Repräsentativität“ per se kein Gütekriterium. „Repräsentativität“ hat nicht einmal eine technische Definition in der statistischen Stichprobentheorie (Diekmann 2007: 430). Diekmann (2007: 432) spricht sogar von einem „Mythos der repräsentativen Stichprobe“. Es gibt lediglich verschiedene Formen der Zufallsstichprobe, deren größter Vorzug aus Sicht der Statistik eine angebbare Auswahlwahrscheinlichkeit ist. „Repräsentative“ Quotenstichproben und andere Formen nichtzufälliger Auswahl ohne diese Eigenschaft haben entsprechend große Nachteile. Die Eigenschaften eines gewählten Stichprobendesigns und mithin dessen Adäquanz sind freilich in Hinblick auf das jeweilige Forschungsdesign und das Erkenntnisziel zu untersuchen. Wie Diekmann (2007: 431) ausführt, sind für die Prüfung von behaupteten (nahezu) universellen Zusammenhängen Zufallsstichproben entbehrlich. Aus diesem Grund wird für Experimente, die vornehmlich interne Validität gewährleisten sollen, die Rekrutierung von Probanden aus speziellen Populationen (wie Universitätsstudierende) oftmals als unproblematisch angesehen. Da jedoch viele sozialtheoretische Positionen eine große Variabilität, Heterogenität und Kontextabhängigkeit sozialer Regelmäßigkeiten nahelegen, wird diese Praxis dementsprechend kritisiert (Henrich et al. 2010). Um (vermeintlich universelle) Zusammenhänge einem strengeren Test zu unterziehen, kann die Übertragbarkeit experimenteller Ergebnisse auf andere Kontexte systematisch überprüft werden (Bader et al. 2021). Die Bedingungen der Übertragbarkeit und mögliche Einflussquellen (bei z. B. kulturvergleichenden Untersuchen) können mittels kausaler Modellierung beschrieben werden (Deffner et al. 2022).

Zweitens ist es nicht zutreffend, dass die quantitative Forschung nur mit bekannten Grundgesamtheiten arbeitet. Es gibt eine Vielzahl von Techniken wie Schneeballstichproben oder das Capture-Recapture-Verfahren (Gautschi & Hangartner 2010), die genau zur Erforschung unbekannter Populationen eingesetzt wurden. Wichtig ist bei solchen Methoden, die Beschränkungen und Annahmen für die Leser offenzulegen. Die statistische Theorie hilft dabei, die Unsicherheit über Schlussfolgerungen einzuschätzen. Sie ermöglicht eine Beurteilung der externen Validität, welche sich aus der Diskrepanz zwischen den intendierten Anwendungsfällen, über die etwas ausgesagt werden soll, und der tatsächlichen Aussagekraft der Daten ergibt.

Drittens müssen die Untersuchungseinheiten nicht Individuen sein. Es kann auch eine Stichprobe aus einer Grundgesamtheit von Situationen, Zeitpunkten oder sprachlichen Äußerungen gezogen werden. Es können auch, wie Strübing (2002: 335) es ausdrückt, unterschiedliche „Kontext-Konstellationen“ sein. Um bei seinem Beispiel zu bleiben: Die Untersuchung von Phantomschmerzen könnte erstmal von möglichst umfassenden Statistiken ausgehen, in welchen Zusammenhängen Amputationen vorgenommen werden, um daraus dann eine Auswahl von zu untersuchenden Kontexten vorzunehmen. Ich bezweifle zudem, dass allein aus einer größeren Anzahl von untersuchten Typen eine größere Verallgemeinerbarkeit resultiert (Strübing 2002: 336). Eigentümlichkeiten einzelner Fälle könnten zu einer Überanpassung summarischer Aussagen an seltene Umstände führen. Die Kenntnis von relativen Häufigkeiten hingegen kann helfen, die Informationen entsprechend zu gewichten sowie präzisere Konditionalaussagen für das Auftreten bestimmter Beobachtungen zu formulieren.

Wenn es sich um eine reine ethnographische teilnehmende Beobachtung handelt, mag zudem jede dieser Kontext-Konstellationen als ein Fall aufgefasst werden. Sobald aber Interviews mit Einzelpersonen geführt werden, wird die Auswahl innerhalb jeder Kontext-Konstellationen relevant: Welche Personen sind eigentlich auskunftsbereit und welche nicht? Der Versuch, nach Möglichkeit innerhalb eines bestimmten Kontextes Zufallsstichproben zu rekrutieren, wäre hier gerade ein Mittel, um dem systematischen Ausschluss bestimmter, womöglich theoretisch nicht antizipierter Perspektiven entgegenzuwirken. Wenn man noch etwas weitergehen möchte, bestehen selbst Einzelfallstudien, etwa einer psychiatrischen Anstalt, strenggenommen nicht aus einer einzigen Beobachtung, sondern können in Zeitreihen vieler nacheinander beobachteter Interaktionen oder Situationen zerlegt werden. Für die Validität der entwickelten Theorie stellt sich immerzu die Frage, welche Interaktionen aus welchen Gründen im Sample sind und welche anderen ausgeschlossen oder nicht beobachtet wurden.

Die Frage der externen Validität ist offensichtlich besonders relevant für Einzelfallstudien: Small (2009) bspw. versucht darzulegen, warum bewusste Fallauswahl für die Theorie-Entwicklung oder für Existenzbehauptungen der Art „Es gibt mindestens eine Mutter, die durch Elternabende in der Kita Freundschaften schließt“ ausreicht. Derlei Existenzbehauptungen sind jedoch nicht besonders informativ und schöpfen nicht den Anspruch qualitativer Sozialwissenschaft aus. Wenn Strübing et al. (2018: 90) den Wert von Einzelfallstudien (einer Psychiatrie, eines Slums usw.) für allgemeine Erkenntnisse verteidigen, ist dem entgegenzuhalten, dass Inferenzen dieser Art von starken zusätzlichen theoretischen Annahmen über den Untersuchungskontext abhängen. Alle induktiven Schlüsse sind lokal und inhaltlich begründet, d. h. basieren bspw. auf zusätzlichen substantiellen Annahmen über die Gleichartigkeit der Anwendungsfälle (Psychiatrien, Slums, Patienten usw.), über die verallgemeinert werden soll (Norton 2003). Derartige Annahmen sollten mindestens expliziert, verteidigt, ggf. getestet und im Sinne des Kriteriums externer Validität bewertet werden.

7.4 Transparenz und Replizierbarkeit

Zuletzt möchte ich kurz auf die Anforderungen der Transparenz und Replizierbarkeit eingehen, die von Strübing et al. nicht diskutiert werden, deren Zentralität für eine analytisch-empirische Perspektive aus dem bereits Gesagten jedoch ersichtlich sein sollte. Transparenz bezieht sich dabei auf die Güte der Dokumentation. Replizierbarkeit meint die Möglichkeit der erneuten kritischen Prüfung durch weitere Forschung. Replizierbarkeit ist dabei eine Eigenschaft des Forschungsdesigns: Inwiefern eine Untersuchung in ähnlicher Weise erneut durchgeführt werden kann.

Transparenz bezieht sich auf alle Facetten des Forschungsprozesses von der Offenlegung theoretischer Annahmen und methodischer Entscheidungen, eine präzise Beschreibung der Stichprobengewinnung, die auch Angaben über allfällige Verweigerungen beinhalten sollte, usw. bis hin zur Veröffentlichung aller relevanten Daten und Materialien. Kritisch-rational gesprochen geht es darum, die Kritisierbarkeit von Forschung zu maximieren. Die Abwesenheit entsprechender Forderungen steht im Gegensatz zu bspw. der jüngeren Debatte in der amerikanischen Ethnographie (Murphy et al. 2021), in der auch ganz praktische Konsequenzen für die Datenerhebung und Dokumentation diskutiert werden, z. B. ob nicht die Verwendung von Audioaufnahmen für wörtlich zitierte Äußerungen der Standard sein sollte und Abweichungen von diesem Standard begründungsbedürftig seien (Murphy et al. 2021: 46), oder ob Orts- und Personennamen nur in Ausnahmefällen anonymisiert werden sollten (Murphy et al. 2021: 47–50).

Damit verbunden ist die Frage, inwiefern qualitative Forschung objektiv (d. h. unabhängig von der durchführenden Person) und wiederholbar ist. Qualitative Forschung ist laut Strübing (2002: 336) dadurch gekennzeichnet, dass es häufig nicht möglich ist, den Prozess in Datenerhebung und Dateninterpretation aufzuspalten. Innerhalb der qualitativen Forschung gibt es jedoch nicht nur unterschiedlich „objektive“ Methoden, sondern es ist zu vermuten, dass sich jede Forschung auf wenigstens einige Beobachtungen stützt, die prinzipiell von anderen Beobachtern bestätigt werden könnten. Dazu zählen verbale Äußerungen oder beobachtete Handlungen. Soweit sich qualitative Forschung auf solche Beobachtungen stützt, sollte diese Teilmenge „objektiver“ Daten so transparent als möglich dokumentiert werden. Einige Ethnographen gehen so weit, prinzipiell nachprüfbare Beobachtungen durch externe „fact checker“ überprüfen zu lassen und die Verwendung von subjektiven Berichten zu minimieren, die sie nicht anderweitig erhärten konnten (Desmond 2016). Sofern über bestimmte Tatsachenbehauptungen intersubjektive Einigkeit besteht, sollte es möglich sein, wenigstens deren Interpretation durch Dritte zu replizieren.

Viele in diesem Sinne „objektive“ Daten sollten sogar replizierbar sein. Hier muss auf unterschiedliche Bedeutungen von Replizierbarkeit hingewiesen werden. Die schwächste Bedeutung wäre die Wiederholbarkeit der Bestimmung eines Datums (Balzer 2009: 161). Bei der Datenerhebung werden bestimmte von der betreffenden wissenschaftlichen Gemeinschaft beherrschte Regeln beachtet. „Bei wiederholter Bestimmung nach der gleichen Methode können verschiedene Sachverhalte auftreten“, d. h. trotz identischer Regelanwendung muss der Inhalt des Datums nicht identisch sein. Es ist damit nur gemeint, dass „eine Methode wiederholt angewandt […] zu Daten ‚gleicher Art‘ führt“ (Balzer 2009: 161). Auch bei standardisierten Messinstrumenten ist nicht gewährleistet, dass wiederholte Messung bei denselben Untersuchungseinheiten zu identischen Werten führt. Diese nicht exakte Wiederholbarkeit kann unsystematische Quellen haben, die mit dem theoretisch interessanten Konstrukt oder Zusammenhang unkorreliert sind und mithin beschrieben werden können, als ob sie das Ergebnis von Zufallsprozessen wären. In der quantitativen Forschung spricht man von stochastischen Fehlertermen. Über viele Fälle hinweg betrachtet, sollte sich das Ergebnis dennoch replizieren lassen. Es könnte jedoch auch sein, dass sich das betrachtete soziale System oder theoretisch relevante Zusammenhänge gewandelt haben. Geeignete Forschungsdesigns können die Quellen der Irreplizierbarkeit identifizieren, damit die richtigen Schlussfolgerungen für die Bewertung einer Theorie gezogen werden können. Daraus ergibt sich die Bedeutung der Trennung systematischer und unsystematischer Einflüsse auch für die qualitative Forschung (King et al. 1994: 55–63).

Wenn von Strübing postuliert wird, qualitative Studien ließen sich nicht replizieren, weil „die Herstellung identischer Ausgangsbedingungen für die erneute Untersuchung nicht zu leisten sei“ (Strübing 2002: 334), erfordert das eine bessere Begründung. Sofern Theorien Zusammenhangswissen enthalten, sollten diese Zusammenhänge und die mit ihnen verbundenen Phänomene nicht einzigartig sein. Selbst wenn bestimmte beobachtete Interaktionen von den daran beteiligten Personen nicht wiederholt werden, sollte es ähnliche Situationen geben, in denen andere Person auf ähnliche Weise handeln oder Ähnliches äußern. Im Extremfall von wirklich einzigartigen Ereignissen kann sich Wiederholbarkeit der Bestimmung aber auch nur auf die Inhalte von schriftlichen Quellen oder Artefakten beziehen, die verschiedenen Forschern vorlegt werden können (so z. B. in der Geschichtswissenschaft, Balzer 2009: 162).

Tab. 2:

Replikationstypen nach Freese & Peterson (2017: 152, Abbildung 2).

	Gleiche Methodik	Andere Methodik
Alte Daten	Verifizierbarkeit	Robustheit
Neue Daten	Wiederholbarkeit	Verallgemeinerbarkeit

In diesem Zusammenhang ist die Typologie von Replikationen nach Freese & Peterson (2017) aufschlussreich (siehe Tabelle 2). Für einige Formen qualitativer Forschung sollte Verifizierbarkeit durch Bereitstellung der Rohdaten und Kodierprozeduren zumindest teilweise möglich sein. Für andere wäre vielleicht Wiederholbarkeit anhand einer neuen Studie in einem ähnlichen Kontext wie die Originalstudie möglich. Obschon qualitative Forschung womöglich niemals in Gänze den Anforderungen der Replizierbarkeit entsprechen kann (Freese & Peterson 2017: 159), sollte ein vollständiger Kriterienkatalog in irgendeiner Form Grundlinien für die objektiven Teilaspekte der Forschung formulieren (siehe einige der zahlreichen von Eisewicht & Grenz 2018 im Anhang gesammelten älteren Kriterien-Vorschläge).

Eine darüberhinausgehende Forderung wäre freilich, dass der Anteil objektiver und replizierbarer Daten so groß als möglich sein sollte. Diese klassische „positivistische“ Position formulierte Scheuch (1969) in einem anderen Zusammenhang gegenüber Habermas und den „Sozialphilosophen“ hinsichtlich der Selbstbeschränkung der Wissenschaft, denn

[…] nicht die Sache oder das Problemverständnis bestimmt schließlich die Grenzen der Forschung, sondern letztlich das jeweils verfügbare, d. h. den Anforderungen an Objektivität entsprechende, Instrumentarium.

Denn die Wissenschaft leite ihre Rechtfertigung nicht daraus ab,

auf alle Fragen eine zumindest vorläufige Antwort geben zu können (oder doch eine solche Antwort zu versuchen), sondern aus dem Selbstverständnis, die ihr jeweils möglichen Antworten auf Fragestellungen mit einem höheren Grad an Verbindlichkeit interpersoneller Art zu geben, als dies ohne Wissenschaft möglich ist

und wird deshalb „diesen Vorwurf eines eingegrenzten Explikationsbereiches nicht als prinzipiellen Vorwurf, sondern als eine Aufforderung zur Weiterentwicklung verstehen“ (Scheuch 1969: 154–155). Dem Argument, dass viele Phänomene nur mittels qualitativer Methoden erforscht werden könnten, deren intersubjektive Nachprüfbarkeit gering ist, wäre dann entgegenzuhalten, dass die Wissenschaft darüber schweigen oder bessere Methoden entwickeln sollte. Das wäre eine zweifellos extreme Schlussfolgerung. Die entgegengesetzte Auffassung wäre, dass auch Replizierbarkeit nur eine Anforderung unter vielen ist. Es ist schließlich nicht möglich, die Erfüllung aller Gütekriterien gleichzeitig zu maximieren. Diese wichtigen Zielkonflikte sollen sich allerdings auch in den Gütekriterien der qualitativen Sozialforschung widerspiegeln und mit einer Diskussion über absolute Mindestanforderungen verbunden werden.

8 Schluss

Dieser Beitrag verfolgte mehrere Ziele zugleich: Im ersten Teil sollte die Fruchtbarkeit der vorgeschlagenen Gütekriterien aus analytisch-empirischer Sicht diskutiert werden. Es wurden sich hierbei auf zwei mögliche blinde Flecken der analytisch-empirischen Qualitätskontrolle konzentriert: Erstens die Ausblendung des Entstehungszusammenhangs und die damit einhergehende fehlende Methodisierung der Abduktion; zweitens ein angeblich zu stark normative Methodenbegriff, der nicht erfahrungswissenschaftlich geöffnet und zu wenig gegenstandsangemessen sei. Das Fazit zum ersten Punkt ist letztlich, dass es berechtigte Bedenken hinsichtlich der Vernachlässigung des Entstehungszusammenhangs gibt, aber die Gütekriterien sich kaum in praktische Empfehlungen umsetzen lassen. Das größte Anregungspotential sehe ich noch im Kriterium der empirischen Sättigung, das sich letztlich weniger zur Beurteilung der Ergebnisse des Forschungsprozesses eignet, sondern zur Kultivierung einer gesunden Forschungshaltung beitragen kann. Zum zweiten Punkt lässt sich sagen, dass meiner Auffassung nach der Zweck aller Gütekriterien in einem gewissen Sinne darin besteht zu prüfen, ob Methoden gegenstandsangemessen sind. Das beinhaltet auch immer die Frage, ob und unter welchen theoretischen Annahmen Schlussfolgerungen aus der vorliegenden Evidenz abgeleitet werden können. Wie Strübing et al. (2018: 86) selbst betonen, werden Untersuchungsgegenstände durch „Theorie, Fragestellung, empirischem Fall, Methode und Datentypen […] erst konstituiert“. Die Gütekriterien nach Strübing et al. regen aber nicht zu Methodenforschung an, welche über die Explikation entsprechender Annahmen zu einer systematischen Prüfung des widerspruchsfreien Zusammenwirkens dieser Elemente führen. Um vorgeschlagene Kriterien wie Gegenstandsangemessenheit greifbar zu machen, bräuchte es die methodenvergleichende Erforschung ähnlicher Fragestellungen und den anschließenden Versuch, deren relative Eignung zu bestimmen. Ohne eine gewisse Objektivierung verbleiben Gütekriterien auf der Ebene vager Leitideen.

Im zweiten Teil sollte die Diskussion deswegen auch in die entgegengesetzte Richtung angestoßen werden. Die Übertragbarkeit von Gütekriterien aus der quantitativen Forschung auf die qualitative wird freilich seit Jahrzehnten diskutiert. Strübing et al. (2018) gehen anscheinend davon aus, dass diese Diskussion nicht weitergeführt werden muss und schlagen deshalb gänzlich eigene Kriterien vor. Ich habe zu zeigen versucht, dass ich die Frage nach der Übertragbarkeit für noch nicht abschließend beantwortet halte und dabei absichtlich Kriterien ausgewählt, die sich nicht auf messtechnische Fragen beziehen. Aus analytisch-empirischer Sicht sind all jene Gütekriterien wirklich unverzichtbar, welche sich mit den zulässigen Schlüssen aus Prämissen und Evidenz beschäftigen. Die Auseinandersetzung legt weitere Forschungsfragen nahe. Das wäre zunächst auf der wissenschaftstheoretischen Ebene eine stärkere Klärung des Begriffs und der Funktion von Gütekriterien. Was sinnvollerweise darunter verstanden werden kann, ist allerdings untrennbar verbunden mit allgemeineren Fragen der sozialwissenschaftlichen Methodologie und Wissenschaftsphilosophie. Eine Verständigung verschiedener soziologischer Strömungen über die Möglichkeit gemeinsamer Gütekriterien wird daher immer auch die Bedeutung grundlegender Konzepte wie „Kausalität“ oder „Wiederholbarkeit von Beobachtungen“ diskutieren müssen. Ein damit verbundenes Desideratum wäre, nicht nur methodologische Schriften zu exegieren, sondern die tatsächliche Praxis der Theoriebildung und der empirisch vorfindbaren Qualitätskontrolle in der quantitativen wie qualitativen Forschung wissenschaftssoziologisch zu untersuchen. Womöglich werden real bestehende Übereinstimmungen durch terminologische Unterschiede und gegenseitiges Missverstehen verdeckt.

Anmerkung

Ich bedanke mich bei Dave Balzer, Natascha Nisic, Gunnar Otte, Tim Sawert, Clara Englert und den Teilnehmer:innen des Kolloquiums Methoden und Sozialstruktur in Mainz sowie bei zwei anonymen Gutachter:innen für konstruktive Kritik und äußerst hilfreiche Hinweise zur Verbesserung des Aufsatzes.

About the author

Nico Sonntag

Nico Sonntag, geb. 1991 in Frankfurt am Main. Studium der Soziologie und Psychologie in Mannheim. Promotion in Wuppertal. Seit 2021 wissenschaftlicher Mitarbeiter am Institut für Soziologie der Johannes Gutenberg-Universität Mainz. Von 2019 bis 2020 wissenschaftlicher Mitarbeiter am Institut für Soziologie in Wuppertal und von 2015 bis 2019 wissenschaftlicher Mitarbeiter am Max-Planck-Institut für Gesellschaftsforschung in Köln.

Forschungsschwerpunkte: Wirtschaftssoziologie, Religionssoziologie, historische Sozialforschung, Wissenschaftstheorie, Methodologie.

Wichtigste Publikationen: Wer profitiert vom Meisterzwang? Die Reform der Handwerksordnung als natürliches Experiment zur Prüfung der Theorie beruflicher Schließung, Soziale Welt 69: 213–251 (2019, mit M. Lutter); Analytische oder analytisch-empirische Soziologie? Zeitschrift für Theoretische Soziologie 10: 114–131 (2021).

Literatur

Akademie für Soziologie, 2019: Grundsätze der analytisch-empirischen Soziologie. https://akademie-soziologie. de/wp-content/uploads/2019/12/Ziele-und-Aufgaben-Akademie-Soziologie-Grundsa 2019.pdf (zuletzt aufgerufen am 30.09.2021).Search in Google Scholar

Albert, H., 1969: Im Rücken des Positivismus? Dialektische Umwege in kritischer Beleuchtung. S. 103–123 in: T. W. Adorno., H. Albert, R. Dahrendorf, J. Habermas, H. Pilot & K. Popper, Der Positivismusstreit in der deutschen Soziologie. Neuwied und Berlin: Luchterhand.Search in Google Scholar

Bader, F., B. Baumeister, R. Berger & M. Keuschnigg, 2021: On the Transportability of Laboratory Results. Sociological Methods & Research 50: 1452–1481.10.1177/0049124119826151Search in Google Scholar

Balzer, W., 2009: Die Wissenschaft und ihre Methoden. Grundsätze der Wissenschaftstheorie. Freiburg/München: Karl Alber.Search in Google Scholar

Besbris, M. & S. Khan, 2017: Less Theory. More Description. Sociological Theory 35: 147–153.10.1177/0735275117709776Search in Google Scholar

Braun, N., 2008: Theorie in der Soziologie. Soziale Welt 59: 373–395.10.5771/0038-6073-2008-4-373Search in Google Scholar

Bright, L.K., D. Malinsky & M. Thompson, 2016: Causally Interpreting Intersectionality Theory. Philosophy of Science 83: 60–81.10.1086/684173Search in Google Scholar

Carrier, M., 2006: Wissenschaftstheorie zur Einführung. Hamburg: Junius.Search in Google Scholar

Christensen, G., J. Freese & E. Miguel, 2019: Transparent and reproducible social science research. Oakland: University of California Press.10.1525/9780520969230Search in Google Scholar

Dahrendorf, R., 1961: Sozialwissenschaft und Werturteil. S. 27–48 in: Gesellschaft und Freiheit. Zur soziologischen Analyse der Gegenwart. München: Piper.10.2307/2089639Search in Google Scholar

Deffner D, J. M. Rohrer & R. McElreath, 2022: Causal Framework for Cross-Cultural Generalizability. Advances in Methods and Practices in Psychological Science 5: 1–18.10.1177/25152459221106366Search in Google Scholar

Desmond, M., 2016: Evicted: Poverty and profit in the American city. New York: Crown.Search in Google Scholar

Diekmann, A., 2007: Empirische Sozialforschung: Grundlagen, Methoden, Anwendungen. Reinbek bei Hamburg: Rowohlt.Search in Google Scholar

Eisewicht, P. & T. Grenz, 2018: Die (Un)Möglichkeit allgemeiner Gütekriterien in der Qualitativen Forschung – Replik auf den Diskussionsanstoß zu „Gütekriterien qualitativer Forschung“ von Jörg Strübing, Stefan Hirschauer, Ruth Ayaß, Uwe Krähnke und Thomas Scheffer. Zeitschrift für Soziologie 47: 364–373.10.1515/zfsoz-2018-0123Search in Google Scholar

Elwert, F. & C. Winship, 2014: Endogenous Selection Bias: The Problem of Conditioning on a Collider Variable. Annual Review of Sociology 40: 31–53.10.1146/annurev-soc-071913-043455Search in Google Scholar

Freese, J. & D. Peterson, 2017: Replication in Social Science. Annual Review of Sociology 43: 147–165.10.1146/annurev-soc-060116-053450Search in Google Scholar

Gautschi, T. & D. Hangartner, 2010: Die Untersuchung verborgener Populationen: Eine Capture-Recapture-Studie mit Heroinabhängigen. Zeitschrift für Soziologie 39: 402–417.10.1515/zfsoz-2010-0504Search in Google Scholar

Greenland, S., 1998: Induction versus Popper: substance versus semantics. International Journal of Epidemiology 27: 543–548.10.1093/ije/27.4.543Search in Google Scholar

Henrich, J., S.J. Heine & A. Norenzayan, 2010: Most people are not WEIRD. Nature 466: 29–29.10.1037/14805-007Search in Google Scholar

Hirschauer, S., 2008: Die Empiriegeladenheit von Theorien und der Erfindungsreichtum der Praxis. S. 165–187 in: H. Kalthoff, S. Hirschauer & G. Lindemann (Hrsg.), Theoretische Empirie. Zur Relevanz qualitativer Forschung. Frankfurt am Main: Suhrkamp.Search in Google Scholar

Holweg, H., 2012: Methodologie der qualitativen Sozialforschung – Eine Kritik. Berlin: epubli.Search in Google Scholar

Johfre, S.S. & J. Freese, 2021: Reconsidering the Reference Category. Sociological Methodology 51: 253–269.10.1177/0081175020982632Search in Google Scholar

Kalthoff, H., S. Hirschauer & G. Lindemann (Hrsg.), 2008: Theoretische Empirie. Zur Relevanz qualitativer Forschung. Frankfurt am Main: Suhrkamp.Search in Google Scholar

Kelle, U., 2010: The development of categories: Different approaches in grounded theory. S. 191–213 in: A. Bryant & K. Charmaz (Hrsg.), The Sage Handbook of Grounded Theory. London: Sage.10.4135/9781848607941.n9Search in Google Scholar

Kelle, U., B. Langfeldt & B. Metje, 2019: Qualitätssicherung von Einstellungsskalen mit Hilfe qualitativer Methoden und von „Mixed-Methods-Designs“ – die Messung religiöser Überzeugungen. S. 225–257 in: N. Menold & T. Wolbring (Hrsg.), Qualitätssicherung sozialwissenschaftlicher Erhebungsinstrumente. Wiesbaden: Springer Fachmedien Wiesbaden.10.1007/978-3-658-24517-7_8Search in Google Scholar

King, G., R.O. Keohane & S. Verba, 1994: Designing social inquiry. Princeton: Princeton University Press.10.1515/9781400821211Search in Google Scholar

Lakatos, I., 1976: Falsification and the Methodology of Scientific Research Programmes. S. 205–259 in: S.G. Harding (Hrsg.), Can Theories be Refuted? Essays on the Duhem-Quine Thesis. Dordrecht: Springer Netherlands.10.1007/978-94-010-1863-0_14Search in Google Scholar

Lindemann, G., 2008: Theoriekonstruktion und empirische Forschung. S. 107–128 in: H. Kalthoff, S. Hirschauer & G. Lindemann (Hrsg.), Theoretische Empirie. Zur Relevanz qualitativer Forschung. Frankfurt am Main: Suhrkamp.Search in Google Scholar

Lundberg, I., R. Johnson & B.M. Stewart, 2021: What Is Your Estimand? Defining the Target Quantity Connects Statistical Evidence to Theory. American Sociological Review 86: 532–565.10.1177/00031224211004187Search in Google Scholar

Morgan, S.L. & C. Winship, 2014: Counterfactuals and Causal Inference: Methods and Principles for Social Research. Cambridge: Cambridge University Press.10.1017/CBO9781107587991Search in Google Scholar

Murphy, A.K., C. Jerolmack & D. Smith, 2021: Ethnography, Data Transparency, and the Information Age. Annual Review of Sociology 47: 41–61.10.1146/annurev-soc-090320-124805Search in Google Scholar

Musgrave, A., 1974: Logical versus Historical Theories of Confirmation. The British Journal for the Philosophy of Science 25: 1–23.10.1093/bjps/25.1.1Search in Google Scholar

Muthukrishna, M. & J. Henrich, 2019: A problem in theory. Nature Human Behaviour 3: 221–229.10.1038/s41562-018-0522-1Search in Google Scholar

Norton, J.D., 2003: A Material Theory of Induction. Philosophy of Science 70: 647–670.10.2307/j.ctv25wxcb5Search in Google Scholar

Popper, K., 1935: Logik der Forschung: Zur Erkenntnistheorie der Modernen Naturwissenschaft. Wien: Springer.10.1007/978-3-7091-4177-9Search in Google Scholar

Reichertz, J., 2013: Die Abduktion in der qualitativen Sozialforschung: Über die Entdeckung des Neuen. Wiesbaden: Springer VS.10.1007/978-3-531-93163-0Search in Google Scholar

Scheuch, E.K., 1969: Methodische Probleme gesamtgesellschaftlicher Analysen. S. 153–182 in: T.W. Adorno (Hrsg), Spätkapitalismus oder Industriegesellschaft? Verhandlungen des 16. Deutschen Soziologentages. Stuttgart: Enke.Search in Google Scholar

Schurz, G., 2002: Karl Popper, Deduktion, Induktion und Abduktion. S. 126–143 in: J.M. Böhm, H. Holweg & C. Hoock (Hrsg.), Karl Poppers kritischer Rationalismus heute. Tübingen: Mohr Siebeck.Search in Google Scholar

Schurz, G., 2008: Patterns of abduction. Synthese 164: 201–234.10.1007/s11229-007-9223-4Search in Google Scholar

Small, M.L., 2009: „How many cases do I need?“: On Science and the Logic of Case Selection in Field-based Research. Ethnography 10: 5–38.10.1177/1466138108099586Search in Google Scholar

Steinke, I., 1999: Kriterien qualitativer Forschung: Ansätze zur Bewertung qualitativ-empirischer Sozialforschung. Weinheim: Juventa.Search in Google Scholar

Strübing, J., 2002: Just do it? Zum Konzept der Herstellung und Sicherung von Qualität in grounded theory-basierten Forschungsarbeiten. KZfSS Kölner Zeitschrift für Soziologie und Sozialpsychologie 54: 318–342.10.1007/s11577-002-0042-9Search in Google Scholar

Strübing, J., S. Hirschauer, R. Ayaß, U. Krähnke & T. Scheffer, 2018: Gütekriterien qualitativer Sozialforschung. Ein Diskussionsanstoß. Zeitschrift für Soziologie 47: 83–100.10.1515/zfsoz-2018-1006Search in Google Scholar

Tutić, A., 2015: Book Review: Richard Swedberg: The Art of Social Theory. Rationality, Markets and Morals 6: 1–5.Search in Google Scholar

Yanai, I. & M. Lercher, 2020: A hypothesis is a liability. Genome Biology 21: 1–5.10.1186/s13059-020-02133-wSearch in Google Scholar

Ziegler, R., 1972: Theorie und Modell: Der Beitrag der Formalisierung zur soziologischen Theorienbildung. München: Oldenbourg.Search in Google Scholar

Published Online: 2023-02-11

Published in Print: 2023-03-31

Dieses Werk ist lizensiert unter einer Creative Commons Namensnennung 4.0 International Lizenz.