Die Validität statistischer Methoden, der verwendeten Modelle und der implizit damit verbundenen Voraussetzungen bestimmt die Glaubwürdigkeit und Interpretierbarkeit von Studienergebnissen aus Versorgungs- wie patientenorientierter Forschung. Ändern sich diese Ergebnisse, wenn die Daten mit anderen Verfahren ausgewertet werden? Wurde die Studie mit dem optimalen statistischen Ansatz ausgewertet? Bleiben die Ergebnisse robust, wenn die Daten von den durch die statistischen Methoden implizierten Voraussetzungen abweichen? Der Artikel soll helfen, sich solchen wichtigen Fragen zu stellen.

Einleitung

Statistische Modelle sind mathematische Konstrukte, die Annahmen über Daten einer Stichprobe formalisieren. Noch allgemeiner formalisieren sie Eigenschaften einer Population, aus der die Datenstichprobe gezogen wurde. Statistische Modelle repräsentieren in einer recht idealisierten Form datengenerierenden Prozesse und Wahrscheinlichkeitsverteilungen. Damit approximieren sie die Verteilungen, aus denen beobachtete Stichproben erzeugt wurden. Auf statistischen Modellen basieren Rückschlüsse über die interessierende Population. In der klinischen Medizin sind statistische Modelle für die Interpretation von Daten zu Therapieeffekten, zu Diagnose und Prognosestrategien sowie zu Daten in der Versorgungsforschung wichtig. Oft werden statistische Modelle als handhabbare Formen der Wirklichkeit aufgefasst.

Beispielsweise sagen statistische Modelle ein individuelles Schlaganfallrisiko vorher [1] und quantifizieren für bestimmte Patientenkonstellationen die Wahrscheinlichkeit, einen Schlaganfall in einem bestimmten Zeitintervall zu erleiden. Abb. 6 in Rothwell et al. [2] stellt die Ergebnisse aus einem Cox-Modell [3] dar, das aufgrund von 4 Patienteneigenschaften (Ausmaß Stenose, Geschlecht, letztes Ereignis, Zeit seit letztem Ereignis) das 5‑Jahres-Risiko für einen ipsilateralen Schlaganfall quantifiziert. Das Bild gibt behandelnden Ärzten Informationen zu den von ihnen betreuten Patienten und repräsentiert klinische Wirklichkeit.

Es gibt ein weites Spektrum von Modellen für die Analysen der klinischen und der Versorgungsdaten

Kuehnl et al. [4] untersuchen den Zusammenhang von Behandlungsvolumen auf das Schlaganfall- und Mortalitätsrisiko vor Entlassung aus dem Krankenhaus unter Carotisendarteriektomie (CEA) bzw. Carotis-Stenting (CAS). Ein Mehrebenen-Poisson-Regressionsmodell [5] untersucht, ob gewisse Volumenkategorien mit der Häufigkeit von Tod und/oder Schlaganfall in Beziehung stehen. Dabei werden neben bekannten Risikoparametern der Patienten und Institutionen auch unbeobachtete Faktoren mittels Zufallsfaktoren in die Analyse integriert. Die aus dem Modell abgeleiteten Informationen können Einfluss auf Entscheidungen zu Mindestmengen haben.

Ein weites Spektrum von Modellen steht für die Analysen der klinischen Daten und der Versorgungsdaten zur Verfügung. Schaut man in die Literatur, so verwenden Veröffentlichungen oft wenige Modelltypen, die sich in der Praxis durchgesetzt haben. Sind das die wirklich guten Modelle oder ist diese Wahl dadurch bestimmt, dass es das einzig wahre Modell zu einer Fragestellung nicht gibt? Wenn es die eindeutige Modellwahl nicht gibt (bei Rothwell et al. [2] hätte man auch andere Prädiktionsmodelle verwenden können, etwa ein Accelerated-Failure-Time-(AFT-)Modell [6]; Kuehnl et al. [4] hätten auch ein Negativ-Binomialmodell [7] anstelle des Poisson-Modells benutzen können), so stellt sich die Frage, wie findet man ein gutes Modell? Gibt es überhaupt das gute Modell? Was ist, wenn es das gute Modell nicht gibt und letztendlich ein Spektrum möglicher Modelle für eine angemessene Analyse zur Verfügung steht?

Die Werkzeugkiste der statistischen Modelle

Dieser Abschnitt versucht einen Überblick über verfügbare Regressionsmodelle zu geben. Das Urmodell aller statistischen Modelle ist die lineare Regression. Sie untersucht, wie sich der Mittelwert normalverteilter Beobachtungen durch die Ausprägung von Einflussfaktoren bestimmen lässt. Mit der Kenntnis der Streuung kann dann in verschiedenen Gruppierungen der Einflussfaktoren die Verteilung der Beobachtungen bestimmt werden. Die logistische Regression [8] modelliert den Einfluss von Faktoren (X) auf die Wahrscheinlichkeit eines binären Ergebnisses (Y = 0,1): P(Y = 1|X). Sie ist für klinische Anwendungen eines der wichtigsten Modellierungsinstrumente. Die Poisson-Regression [5] formalisiert die Häufigkeit von Ereignissen. Sie wird für die Berechnungen von Inzidenzen eingesetzt. Formal müssen beim Einsatz der Poisson-Regression die Mittelwerte von Gruppen gleich der in der Gruppe vorliegenden Varianz sein. Das ist eine wichtige Annahme, die nicht immer erfüllt ist. Oft liegt Over-Dispersion in den Daten vor, bei der die entsprechenden Varianzen größer als der Mittelwert sind. Im Falle von Over-Dispersion kommt es zur Verwendung eine Negativ-Binomialregression [7]. Zeitdauer und ihre Beeinflussung durch Faktoren werden in der Regel mittels Cox-Modell oder proportionalen Hazards-Modells [6] modelliert. Auch hier liegen Voraussetzungen vor, die nicht immer automatisch erfüllt sind. Alternative Überlebenszeitmodelle sind ebenfalls verfügbar [9].

Die Regressionsdiagnostik prüft die Passgenauigkeit von Modellen an den vorliegenden Datensatz

Es gibt nun verschiedene Techniken, um die Passgenauigkeit von Modellen an den vorliegenden Datensatz zu prüfen. Dies nennt man Regressionsdiagnostik [10]. Weiterhin stellt sich die Frage, ob diese Techniken in Fragestellungen mit wenigen oder mit sehr vielen (hochdimensionalen) Einflussgrößen zum Einsatz gebracht werden. Im Fall sehr vieler Einflussgrößen werden Regularisierungsverfahren (penalisierte Regression) eingesetzt [11]. Werden Regressionsverfahren zur Erstellung von Prädiktionsregeln verwendet, so können durch Resampling-Verfahren und Kreuzvalidierung erste Validierungen vorgenommen werden [11].

Weiterhin stellt sich die Frage nach der Kodierung der Einflussgrößen als kategorielle Variablen oder als metrische Variablen mit speziellen funktionalen Formen (linear, Spline oder Polynom; [10]).

Modellvalidierung und Modelldiagnose sind Gebiete der methodischen Statistik, die sich mit Fragen nach Kriterien und Prüfverfahren beschäftigen, um Modelle hinsichtlich ihrer Passgenauigkeit zu den Daten zu bewerten. Auch hier steht ein großer und spezifizierter Methodenapparat zur Verfügung. Empirische Ergebnisse zeigen, dass die vorhandenen Verfahren es in der Regel nicht erlauben, eindeutig ein optimales Modell aus einer Reihe von konkurrierenden Optionen für die Analyse eines Datensatzes zu wählen.

Zusammenfassend zeigt sich eine sehr reichhaltige Trickkiste statistischer Modelle, zu der es wenig zuverlässige Anleitungen hinsichtlich der Verwendung der verfügbaren Instrumente gibt. Es existiert kein Kanon der perfekten Modelle, aus dem eindeutig für ein bestehendes Projekt der richtige Ansatz gewählt werden kann. Dieses offensichtliche Problem hat massive Konsequenzen für die Praxis: (1) Man beschränkt sich auf das wenige Bekannte, (2) man brilliert als Statistiker und wählt spezielle exotische Modelle, (3) man beruft sich auf fragwürdige Standards oder (4) klammert sich an ein Ritual. Die STRATOS-Initiative (STRengthening Analytical Thinking for Observational Studies) versucht hier Richtlinien zu entwickeln [12] und den Wirrwarr zur Modellwahl zu lichten.

Nutzung statistischer Modelle

Bei der Analyse von randomisierten kontrollierten Studien (RCTs) erlauben statistische Modelle die Adjustierung hinsichtlich Einflussgrößen und reduzieren damit die Variabilität in der Studienpopulation. Dies erhöht die Power der Studie und erleichtert das Erkennen von Effekten. Modelle erlauben weiterhin eine Beantwortung von inhaltlich präzisen Fragen zum Therapieeffekt (als nur die Frage: Gibt es einen signifikanten Therapieeffekt?): etwa hinsichtlich prädiktiver Marker (Interaktion zwischen Biomarker und Therapie). Modelle erlauben die Berechnung von Konfidenzintervallen zu relevanten Parametern. Damit liefern sie wichtige Informationen für künftige Studienplanungen und wesentliche Beiträge zur Modellbildung im Health Technologie Assessment (HTA) bzw. zu gesundheitsökonomischen Überlegungen. Die Verwendung von Modellen für longitudinale Daten in RCTs führt zu einem effektiveren Erfassen von Patienteninformationen und erleichtert die Behandlung fehlender Werte durch den Verlust eines Patienten in der Studie.

Register und klinische Kohorten sind Informationsquellen für Prädiktions- oder Klassifikationsmodelle

Register und klinische Kohorten dienen vielfältigen Zwecken. Formal handelt es sich um nichtrandomisierte Beobachtungsstudien. Ihre Verwendung zum Studium von Therapieeffekten oder der Interaktion von Biomarkern und Therapien muss immer mit dem Einfluss von Störgrößen umgehen. Hier ist ein weites Spektrum von Verfahren entwickelt worden, die versuchen Verzerrung in der Schätzung eines Therapieeffektes durch Störgrößen zu eliminieren oder zu minimieren. Ob für das relevante Projekt klassische Adjustierung durch multivariable Modelle ausreicht, um Imbalances zu kontrollieren, oder Methoden des Propensity-Scores verwendet werden, obliegt der Entscheidung des Forschers. Register und klinische Kohorten sind weiterhin relevante Informationsquellen für Prädiktionsmodelle (Prognose) oder Klassifikationsmodelle (Diagnose). Somit sind Fragen zur Validierung von Biomarkern ein zentrales Problem. Hierzu gibt es ein reichhaltiges Methodenspektrum. Neben klassischen statistischen Modellen kommen auch vermehrt Modelle aus dem maschinellen Lernen zum Einsatz (Random Forests, Vector Support Machine, Deep Learning …; [11]). Eine komplexe Registerstudie aus der Anästhesie zur Analyse einer Interaktion zwischen Geschlecht und Haloperidol ist in [13] zusammen mit den Versuchen durch statistische Modellierung, Bias zu beherrschen, dargestellt.

Versorgungsforschung verwendet in der Regel Modelle, die die hierarchischen Clusterstrukturen der Versorgungsrealität widerspiegeln: Patienten sind in Praxen oder Kliniken eingewiesen, räumliche Strukturen als Einflussfaktor auf Versorgungsleistungen etc. Bei Analysen basierend auf Routinedaten fehlt oft die präzise Charakterisierung der einbezogenen Patienten und Institutionen. Zufallseffekte erlauben die Berücksichtigung solcher fehlenden Informationen. Für Fragestellungen der Versorgungsforschung haben sich deshalb die Zufallseffektmodelle oder auch Mehrebenenmodelle [14, 15] als wichtiges statistisches Instrumentarium etabliert. Sie können zur Analyse randomisierter Interventionsdaten (clusterrandomisierte Studien; [16]) oder zur Analyse von Beobachtungsdaten [4] verwendet werden. Fragen zum institutionellen Ranking, die oft im Rahmen der Qualitätssicherung diskutiert werden, bedienen sich der gleichen Klasse von Modellen [17].

Das Silberzahn-Uhlmann-Phänomen

Die statistische Analyse gegebener Daten zielt auf robuste und präzise Ergebnisse. Präzision ist in der Regel an der Länge der Konfidenzintervalle zu Schätzern interessierender Parameter erkennbar. Weniger offensichtlich ist, ob diese Ergebnisse robust sind. Studienergebnisse sind robust, wenn sie nicht von vielfältigen Beschränkungen aufgrund vorliegender Daten, implizit gemachter Annahmen und der durchgeführten Analyse abhängen. Robuste Studienergebnisse ändern sich im Wesentlichen nicht, wenn für deren Herleitung angemessene alternative Annahmen und Analysestrategien verwendet werden.

Raphael Silberzahn und Eric L. Uhlmann [18] berichten von einem Experiment bei dem 29 Analyseteams an einem Datensatz der Frage nachgehen, ob bei dunkelhäutigen Fußballspielern das Risiko für einen Platzverweis höher ist als bei hellhäutigen Spielern. Jede der 29 alternativen Analyseansätze war gut begründet und die gefundenen relativen Risiken variierten von einer leicht erhöhten Tendenz bis hin zu einem starken Trend zum Nachteil dunkelhäutiger Spieler. Wäre die zu dieser Fragestellung veröffentlichte und einem Peer-Review unterzogene Arbeit eine dieser 29 Analysen gewesen, so hätte das Ergebnis zwischen keinem bis hin zu großem Einfluss der Rasse des Fußballspielers liegen können. Die Variabilität der Ergebnisse verdeutlicht den Einfluss subjektiver Entscheidungen zur Analysestrategie innerhalb der 29 Teams.

Für viele Wissenschaftler ist das weite Spektrum der aus einem Datensatz abgeleiteten möglichen Effekte verwirrend. Sie fragen, ob überhaupt das richtige Modell für die Analyse verwendet wurde? Sie glauben an ein richtiges, objektives Vorgehen. Aber vielleicht ist es falsch, eine einzelne Analyse zu ernst zu nehmen.

Das von Silberzahn und Uhlmann berichtete Phänomen ist allgegenwärtig. Es ist kaum sichtbar, weil nur selten mehrere Teams simultan, unabhängig voneinander einen gegebenen Datensatz zu einer gegebenen Frage auswerten. Es zeigt sich jedoch bei systematischen Reviews randomisierter kontrollierter Studien. Die dort beobachtete Variabilität der Therapieeffekte hat neben den subjektiven Entscheidungen bei der statistischen Analyse noch weitere Komponenten: Unterschiede in den Protokollen, Unterschiede in der Umsetzung der Studie. Die Robustheit der Aussage zum Therapieeffekt wird in solchen systematischen Reviews durch die Analyse der Verzerrungsanfälligkeit und durch den Forest-Plot [19] der Studienergebnisse sichtbar. Weiterhin gibt es mannigfaltige Versionen von Prädiktionsalgorithmen zu spezifischen Fragestellungen. Bedeutet dies, dass alle in der Literatur aufgeführten Algorithmen falsch sind, oder führen diese trotz verschiedener Einflussgrößen zu kongruenten Prädiktionen? Bei Studien aus dem Versorgungssetting (Mindestmengen, Qualitätsbewertung) ist in der Regel nichts über die Robustheit der Ergebnisse gegenüber der Wahl der statistischen Strategie bekannt. Zu welcher Variabilität von Ergebnissen kann das Silberzahn-Uhlmann-Phänomen hier führen?

Gibt es das objektiv richtige Modell?

Die Existenz des objektiv richtigen Modells und der objektiv richtigen Analyse zur Beschreibung empirischer Daten wird von Statistikern angezweifelt. Georg Box sagt: „Essentially, all models are wrong, but some are useful“ [20, S. 424]. Es besteht somit grundsätzlich Unsicherheit über das richtige (passende, nützliche) Modell.

Modelle dürfen nicht mit der Wirklichkeit verwechselt werden. Gesucht werden Modelle, die als alternative Analysen zu einer Frage an einem Datensatz passen und einen robusten und reliablen Blick auf die hinter den Daten stehende Wirklichkeit erlauben. Ergebnisse, die robust bleiben gegenüber verschiedenen passenden Modellen, werden möglicherweise als objektiv existierend anerkannt. Wie kann ein Forscherteam ausreichend viele optionale Modelle entwickeln und einsetzen? Ist zum Verständnis einer Forschungsfrage die von Silberzahn und Uhlmann [18] beschriebene Crowd-Analyse notwendig? Welchen Entscheidungsprozessen folgt ein Forscherteam um die eigenen Analysestrategien zu finden? Was kann die Modellwahl beeinflussen und zu einer begründeten Vielfalt von Modellen führen?

Gelman und Hennig [21] geben hierzu eine kurze Liste von Entscheidungen, die bei der statistischen Modellierung und Festlegung der Analysestrategie aus dem weiten Spektrum von Möglichkeiten zu fällen sind:

  1. 1.

    Empfehlungen zur Wahl von Variablen, nach denen im Modell adjustiert werden soll,

  2. 2.

    Umgang mit Ausreißern in den Daten: Welche sind wirkliche Ausreißer? Welche ergaben sich aufgrund von Messfehlern? Welche Ausreißer entstehen dadurch, dass die Messung korrekt ist, das Individuum aber nicht in die interessierende Population passt?

  3. 3.

    Umgang mit Messproblemen und Störgrößen (Confounding),

  4. 4.

    Definition von Effektmaßen (absolut, relativ?),

  5. 5.

    Gewinnung des Datensatzes aus der Grundpopulation (Fehlwerte),

  6. 6.

    Festlegen von Glattheitsbedingungen und Einschränkungen auf niedrigdimensionale Situationen,

  7. 7.

    Festlegung der funktionellen Form der Einflussgrößen (kategorial, stetig, linear, nichtlinear),

  8. 8.

    gibt es numerische Informationen zu Modellparameter (Streuung, bekannte Risiken)?

Anstelle der Suche nach dem objektiv richtigen Modell bietet sich somit für ein Forscherteam eine sorgfältige Dokumentation und Begründung der durchgeführten Analyseschritte an. Der Platz für eine solche Dokumentation ist der statistische Analyseplan (SAP). In der Regel werden SAPs selten veröffentlicht. Sie sind oft eine trockene und technische Lektüre. Ihre Offenlegung trägt aber wesentlich zur wissenschaftlichen Qualität eines Projektes bei. Ein SAP und die Studiendaten sind die Grundvoraussetzung für die Reproduzierbarkeit der Studienergebnisse durch externe Gruppen [22].

Wie soll man mit Modellunsicherheit umgehen?

Transparenz ist notwendig, um alle impliziten und expliziten Entscheidungen darzulegen und zu rechtfertigen, die zur statistischen Analyse geführt haben. Die Angabe externer und nachprüfbarer Quellen macht das subjektive Vorgehen nachvollziehbar. Die Dokumentation gibt Einblick in die Verwendung externer Information und wie daraus Modellannahmen entstanden sind. Sie dokumentiert die Entscheidungen, die der durchgeführten Analyse und den daraus gezogenen Schlüssen zugrunde liegen. Diese Transparenz umfasst weiterhin die impliziten und expliziten Annahmen über die Entstehung der Daten für die folgende Analyse. Hierzu zählen beispielsweise die Annahmen, ob fehlende Werte zufällig entstanden sind („missing at random“, MAR; [23]), ob Einflussgrößen fehlerfrei oder mit Messfehler erhoben wurden [24]. Transparenz, die die Hintergründe und Einflüsse einer Analyse offenlegt, trägt zur Konsensbildung bei.

Wissenschaftlicher Konsens basiert auf Begründungen, klaren Argumenten und Offenlegung der Motive und der Darlegung, wie dies mit dem bestehenden Sachwissen in Beziehung steht. Konsens ist ein Gruppenprozess. Ein Analyst sollte deshalb seine Arbeitsweise so klar darstellen, dass mit seiner Darstellung die Konsensbildung gestärkt wird. Konsensbildung bedingt weiterhin, dass die Analyse unparteiisch durchgeführt wurde, dass sie konkurrierenden Perspektiven Rechnung trägt, klar die Bevorzugung von Lieblingshypothesen vermeidet und offen für Kritik ist.

Silberzahn und Uhlmann [18] implizieren zwei weitere wichtige Aspekte: (1) Aufmerksamkeit gegenüber multiplen Perspektiven. Breiman nennt dies das Rashomon-Phänomen [25]. In dem japanischen Roman Rashomon beobachten vier Personen ein Verbrechen. Vor Gericht berichten sie die gleichen Fakten aber als vier völlig verschiedene Geschichten. (2) Offenlegung des Kontextes, in dem der Statistiker seine Analyse entwickelt hat: spezifischer individueller Hintergrund und Forschungsinteressen sowie Perspektiven des Projektes. Es ist von Interesse zu verstehen, wie der Kontext und die Ziele eines Projektes mit den Entscheidungen zusammengehen, die die Analysestrategie festlegen.

Die Tugenden von Gelman und Hennig

Gelman und Hennig [21] sehen in der Objektivierung statistischer Modellierung ein grundsätzliches wissenschaftliches Problem. Objektive statistische Modellbildung ist nur in Ausnahmefällen und in sehr einfachen Settings möglich. Praktisch führt dieser Objektivierungsanspruch der statistischen Modellbildung zum Verschweigen wichtiger Informationen, zu fehlender Nachvollziehbarkeit wichtiger Ergebnisse und zur Beschränkung der wissenschaftlichen Kreativität. Gelman und Hennig empfehlen die Dichotomie zwischen objektiv und subjektiv durch einen Katalog von Tugenden zu ersetzen, die in Tab. 1 formuliert sind.

Tab. 1 Die Tugenden einer guten statistischen Analyse nach Gelman und Hennig [6]

Ausblick und Diskussion

Die Darstellung der Modellbildung in den Beiträgen zur klinischen Forschung ist extrem begrenzt. In Fachzeitschriften wird weder der Platz in entsprechenden Veröffentlichungen zur Verfügung gestellt noch besteht ein tieferes Interesse an diesem Thema bei den medizinischen Kollegen. Teilweise wird dies damit begründet, dass es objektiv das gute und richtige Modell gibt und der Projektstatistiker, dieses auch verantwortungsvoll umgesetzt hat. Dennoch sind viele Ergebnisse nicht eindeutig reproduzierbar, welche Rolle dem Statistiker dabei zukommt, wird im Moment kaum diskutiert.

Silberzahn und Uhlmann [18] haben in ihrem kleinen Experiment gezeigt, dass selbst bei gleichem Datensatz und einer gleichen sehr präzise gestellten Fragestellung (präzise Quantifizierung eines relativen Risikos) sorgfältig arbeitende Statistiker zu einem weiten Spektrum von Antworten kommen. Es gibt also prinzipiell einen starken Effekt der Modell- und Analysewahl auf das Ergebnis eines Projektes. Dieses Phänomen ist sowohl bei sorgfältig geplanten randomisierten kontrollierten Studien zu erwarten als auch bei der Analyse von Beobachtungsdaten.

Vance Berger hatte 2008 dieses Problem für RCTs adressiert [26] und vorgeschlagen, einen Kanon guter Auswertungsverfahren (die den State of the Art repräsentieren) aufzustellen, auf den die statistische Community zurückgreifen kann. Ist ein Statistiker bei der Analyse seines Problems davon überzeugt, dass die im Kanon vorgegebene Musterlösung unpassend ist, so kann er in entsprechenden Sensitivitätsanalysen davon abweichen, wenn er diese Abweichung wissenschaftlich begründen kann. Im Moment ist ein solcher Methodenkanon noch nicht konsentiert. Die STRATOS-Bewegung versucht dies für die Analyse von Beobachtungsstudien [12]. Zur Analyse von RCTs ist ein solcher Kanon ebenfalls nicht verfügbar. Vielmehr existiert eine ICH Guideline on Statistical Principles for Clinical Trials (ICH E9) [27], die Aussagen über Konzepte der Auswertung macht, aber keine Empfehlung über die Verwendung spezifischer Methoden und Modelle ausspricht. Somit ist der von Vance Berger vor 10 Jahren geforderte Kanon als Ausgangspunkt für statistische Modellbildung und Formulierung statistischer Analysestrategien noch nicht verwirklicht.

Die Verantwortung zur Erstellung eines statistischen Analyseplans tragen die Projektwissenschaftler

Die volle Verantwortung zur Erstellung eines statistischen Analyseplans (SAP) liegt somit in der Hand der Projektwissenschaftler. Das Dokument kann neben der trockenen statistischen Programmierung aber auch Kommentare enthalten, die die Vorgehensweise auch für die nichtstatistikbewanderten Kollegen interessant macht. Beim Verfassen eines Analyseplans können die Tugenden von Gelman und Hennig [21] problemlos berücksichtigt werden. Es gibt weiterhin Plattformen, auf denen ein SAP zur Diskussion und zum Review eingestellt werden kann. Als Beispiel kann [28] dienen. Nach Einstellen des Dokumentes fand ein internationaler Review durch vier interessierte Kollegen statt. Nach dem Review und dessen Einarbeitung in das Dokument wurde der SAP auf PubMed verfügbar gemacht. Dieser Prozess hat das Dokument in größere Übereinkunft mit den Tugenden von Gelman und Hennig gebracht.

Die Zukunft wird eine Zunahme an veröffentlichten SAPs bringen. Die Reproduzierbarkeitskrise in der Biomedizin [29] wie auch in anderen Wissenschaftsbereichen (Psychologie und Wirtschaft) wird diese Entwicklung erzwingen. Was diesbezüglich für die vorklinische Forschung gilt, ist auch in der klinischen Forschung relevant. Ein gewisser Beitrag muss hier aus der Statistik kommen: die Entwicklung von Instrumenten zur umfassenden Offenlegung der Konzeptionierung und Durchführung einer statistischen Analyse und der dabei gewählten statistischen Modelle. Damit lassen sich wissenschaftliche Kreativität und methodische Strenge produktiv verbinden.

Fazit für die Praxis

  • Ob RCT oder Beobachtungsstudie, es stehen eine Vielzahl von Modellierungsansätze zur Verfügung, um die Forschungsfrage statistisch zu bearbeiten.

  • Die Modellwahl bestimmt das quantitative Ergebnis, eine objektive Modellwahl ist selten möglich.

  • Dies eröffnet die Möglichkeit eines breiten Ergebnisspektrums für die Analyse.

  • Analysestrategie und Modellwahl müssen unparteiisch begründet und transparent dargestellt sein;

  • Modellierung und Analysestrategie müssen eine klar nachvollziehbare Verbindung zum beobachteten Sachverhalt besitzen.

  • Die Analyse muss multiple Perspektiven und Kontextabhängigkeit berücksichtigen.

  • Die Analyse muss versuchen robust gegenüber Annahmen zu sein.

  • Zur Reproduzierbarkeit von Studienergebnissen wird es notwendig werden, ausführliche Analysepläne zu veröffentlichen. Wissenschaftliche Zeitschriften sollten diese in den zum Artikel gehörenden elektronischen Supplements zur Veröffentlichung anbieten.