Wie Sie den richtigen statistischen Test wählen: Ein Entscheidungsleitfaden

Die meisten Forschenden wählen keinen statistischen Test. Sie erben ihn. Ein Betreuer hat einen t-Test verwendet, also verwendet der nächste Doktorand auch einen t-Test, und der übernächste ebenso. Das funktioniert oft genug, dass niemand fragt, warum, bis ein Gutachter es tut. Das Beruhigende daran: Die Wahl des richtigen Tests ist keine Gedächtnisleistung. Sie ergibt sich aus drei einfachen Fragen zu Ihren Daten, in dieser Reihenfolge gestellt. Beantworten Sie sie, und der Test wählt sich fast immer von selbst.

1Beginnen Sie mit Ihren Daten, nicht mit dem Test

Der Fehler besteht darin, beim Test anzufangen, den man bereits kennt, und nach einem Weg zu suchen, ihn anzuwenden. Beginnen Sie vom anderen Ende. Welche Art von Endpunkt haben Sie gemessen, wie viele Gruppen vergleichen Sie, und verhält sich Ihre Datenmenge so, wie der Test es voraussetzt? Diese drei Fragen, in dieser Reihenfolge, führen Sie für fast jede gängige Studie zum richtigen Test. Abbildung 1 ist die Übersicht, zu der sie führen.

Abbildung 1. Die gesamte Entscheidung in einer Übersicht. Finden Sie Ihren Endpunkttyp in der oberen Zeile, dann die Zeile, die zu Ihrer Fragestellung passt. Dieser Leitfaden erklärt vor allem, wie Sie diese Übersicht auf Ihre eigene Studie anwenden.

2Frage eins: Welche Art von Endpunkt haben Sie gemessen?

Alles beginnt mit dem Typ Ihres Endpunkts, also dem, was Sie tatsächlich vergleichen.

Ein kontinuierlicher Endpunkt ist eine Zahl auf einer Skala, wie Blutdruck, Tumorvolumen, ein Laborwert oder ein Symptom-Score.
Ein kategorialer Endpunkt ist ein Label oder eine Anzahl, wie lebend oder tot, Ansprecher oder Nicht-Ansprecher, oder die Anzahl von Ereignissen.
Ein Überlebenszeit-Endpunkt ist die Zeit bis zu einem Ereignis, wie das Gesamtüberleben oder die Zeit bis zur Progression.

Jeder Typ weist auf eine andere Testfamilie hin, die drei Spalten in Abbildung 1. Wenn Sie hier einen Fehler machen, ist nichts mehr richtig, was danach folgt. Ein Überlebenszeitendpunkt, der in einen t-Test gezwungen wird, verliert zum Beispiel die zeitliche Information und die Zensierungen, die ihn zu einem Überlebenszeitendpunkt machen.

3Frage zwei: Wie viele Gruppen, und sind sie verbunden?

Bei einem kontinuierlichen Endpunkt lautet die nächste Frage, wie viele Gruppen Sie vergleichen und ob sie unabhängig oder gepaart sind.

Zwei unabhängige Gruppen, Behandlung gegen Kontrolle, weisen auf einen t-Test hin, oder auf den Mann-Whitney-Test, wenn die Daten schief verteilt sind.
Zwei Messungen an denselben Personen, vorher gegen nachher, sind gepaart und benötigen einen Paarvergleichstest. Gepaarte Daten als unabhängig zu behandeln ist einer der häufigsten Fehler und lässt Ihr Ergebnis in der Regel schwächer erscheinen, als es tatsächlich ist.
Drei oder mehr Gruppen erfordern eine Varianzanalyse (ANOVA), keinen t-Test für jedes Paar.

Abbildung 2. Die häufigste Entscheidung in der klinischen Forschung. Zwei Fragen, unabhängig oder gepaart, und normalverteilt oder schief, bestimmen den Test für Zwei-Gruppen-Vergleiche. Die Frage nach der Paarung ist die, bei der Autoren am häufigsten falsch liegen.

4Frage drei: Erfüllen Ihre Daten die Voraussetzungen des Tests?

Die gängigen Tests, t-Test, ANOVA und Pearson-Korrelation, werden als parametrisch bezeichnet. Sie setzen voraus, dass Ihre Daten annähernd einer Normalverteilung folgen, der symmetrischen Glockenform. Wenn die Daten eindeutig schief verteilt sind oder die Stichprobe klein ist und Sie es nicht beurteilen können, ist ein nicht-parametrischer Test die sicherere Wahl. Mann-Whitney ersetzt den t-Test, Wilcoxon den gepaarten t-Test, Kruskal-Wallis die ANOVA. Diese Tests stellen geringere Anforderungen an Ihre Daten und kosten selten viel. Abbildung 3 zeigt den Unterschied, der die Entscheidung bringt.

Abbildung 3. Wenn eine Verteilung symmetrisch ist, beschreibt der Mittelwert sie gut, und der t-Test passt. Bei einem langen Schwanz ziehen wenige extreme Werte den Mittelwert vom typischen Fall weg, und ein rangbasierter Test wie Mann-Whitney ist die ehrlichere Wahl.

5Wenn Sie einen Zusammenhang suchen, keinen Unterschied

Manchmal vergleichen Sie gar keine Gruppen. Sie möchten wissen, ob zwei Dinge zusammen variieren, oder ob eines das andere vorhersagt. Für zwei kontinuierliche Variablen, die gemeinsam steigen und fallen, verwenden Sie Korrelation, Pearson bei annähernder Normalverteilung beider, Spearman sonst. Wenn Sie einen Endpunkt aus mehreren Variablen gleichzeitig vorhersagen und für Störvariablen adjustieren möchten, benötigen Sie Regression. Die lineare Regression behandelt einen kontinuierlichen Endpunkt, die logistische Regression einen Ja-oder-Nein-Endpunkt und die Cox-Regression einen Überlebenszeitendpunkt. Regression ist auch der Weg, um die Frage zu beantworten, die Gutachter am häufigsten stellen: ob Ihr Effekt nach Adjustierung für Alter, Stadium und die anderen üblichen Variablen noch gilt.

6Die Fehler, die das Vertrauen eines Gutachters kosten

Eine Handvoll von Fehlern taucht immer wieder auf, und ein Gutachter entdeckt jeden davon in Sekunden. Keiner ist exotisch, und alle lassen sich vermeiden, sobald Sie die drei Fragen ehrlich beantwortet haben. Abbildung 4 ist die kurze Liste, an der Sie Ihre eigene Analyse vor der Einreichung messen können.

Abbildung 4. Jeder Punkt hier ist ein Fehler bei der Testwahl, keine schwierige Analyse. Jeder ist allein aus dem Methodenteil ersichtlich, was genau der Grund ist, warum Gutachter sie so schnell finden.

Die Wahl eines Tests ist nicht der schwierige Teil der Forschung, aber die falsche Wahl untergräbt still alles, was darauf aufbaut. Beginnen Sie mit Ihren Daten, beantworten Sie die drei Fragen der Reihe nach, und die Wahl ist in der Regel offensichtlich. Wenn nicht, ist das der Moment, jemanden zu fragen, bevor Sie die Analyse durchführen, nicht nachdem ein Gutachter sie zurückgeschickt hat.

Wie Sie den richtigen statistischen Test wählen