Wie Sie Statistik korrekt berichten: P-Werte, Konfidenzintervalle und Effektmaße (Checkliste für Gutachter)

Es gibt einen Moment in fast jedem statistischen Review, in dem die Wissenschaft gut aussieht, die Berichterstattung aber nicht. Ein einzelner p-Wert ohne Effektmaß. Das Wort “signifikant”, das für “groß” steht. Eine Tabelle mit Tests ohne Angabe, welcher Test verwendet wurde oder warum. Die zugrunde liegende Analyse mag einwandfrei sein, aber der Leser kann das nicht beurteilen, und ein Gutachter, der es nicht beurteilen kann, beginnt, dem Rest zu misstrauen.

Das Beruhigende daran: Die meisten dieser Probleme sind Berichterstattungsprobleme, keine Analyseprobleme. Untersuchungen eingereicherter Manuskripte zeigen, dass die große Mehrheit ihre Tests nicht klar beschreibt und dass ein erheblicher Anteil Schlussfolgerungen zieht, die die Daten nicht belegen. Sie können fast alles davon vermeiden, ohne Ihre Analyse anzufassen, indem Sie einfach so berichten, wie ein Gutachter es liest. Hier erfahren Sie wie.

1Der p-Wert ist nicht das Ergebnis

Ein p-Wert beantwortet eine einzige schmale Frage: Wenn es wirklich keinen Effekt gäbe, wie überraschend wären dann Daten wie Ihre? Das ist alles. Er ist nicht die Größe des Effekts, nicht die Wahrscheinlichkeit, dass Ihre Hypothese wahr ist, und kein Maß für Wichtigkeit. Für sich allein berichtet, sagt er dem Leser fast nichts Verwertbares. Zwei weitere Zahlen tragen das eigentliche Ergebnis: die Effektgröße und ihr Konfidenzintervall.

Abbildung 1. Die Effektgröße (der Punkt) ist Ihre Antwort: wie groß der Unterschied ist. Das Konfidenzintervall (die Linie) ist seine Präzision: wie sicher Sie sind. Der p-Wert verdichtet all das zu einem einzigen Ja-oder-Nein bezüglich der gestrichelten Linie. Berichten Sie alle drei, und der Leser sieht das vollständige Bild.

2Ergänzen Sie jeden Effekt mit einem Konfidenzintervall

Die Effektgröße ist die Antwort auf die Frage, die Ihre Studie gestellt hat: der Unterschied der Mittelwerte, die Odds Ratio, die Hazard Ratio, die Korrelation. Das Konfidenzintervall zeigt, wie präzise Sie ihn gemessen haben. Ein enges Intervall bedeutet, dass Sie den Effekt gut eingegrenzt haben; ein breites bedeutet, dass Sie es nicht getan haben, auch wenn der p-Wert klein ist. Berichten Sie beides immer zusammen. “Das Risiko sank um 38% (95% CI 12% bis 56%)” sagt einem Gutachter alles; “p < 0,05” sagt ihm fast nichts.

Abbildung 2. Dasselbe Ergebnis, auf zwei Arten berichtet. Die zweite gibt dem Leser die Größenordnung, die Präzision und einen exakten p-Wert, sodass er das Ergebnis selbst beurteilen kann, anstatt es auf Vertrauensbasis hinzunehmen.

3“Signifikant” ist ein statistischer Begriff, kein Synonym für groß

In einem Ergebnisabschnitt sollte “signifikant” nur erscheinen, wenn ein Test und ein p-Wert dahinterstehen. Es für “groß” oder “wichtig” zu verwenden, ist einer der schnellsten Wege, den Kommentar zu provozieren, den jeder Autor fürchtet: In welchem Sinne signifikant? Wenn Sie meinen, der Effekt war groß, sagen Sie das und nennen Sie die Zahl. Behalten Sie “signifikant” für die statistische Signifikanz, und lassen Sie auch dann Effektgröße und Intervall das Gewicht tragen.

4Nennen Sie den Test, und zeigen Sie, dass Sie seine Voraussetzungen geprüft haben

Das einzige häufigste Berichterstattungsversagen ist, den statistischen Test nicht zu nennen oder ihn zu nennen, ohne ihn zu begründen. Für jede Analyse sollte der Leser sehen können, welchen Test Sie verwendet haben, warum er der richtige war, und dass Sie geprüft haben, was er voraussetzt. Ein t-Test setzt Dinge voraus, die ein Mann-Whitney nicht tut. Eine lineare Regression setzt Dinge voraus, die Sie hätten prüfen sollen. Nennen Sie den Test, bestätigen Sie, dass die Voraussetzungen geprüft wurden, und nennen Sie die Software und die Version. Dieser eine Absatz beseitigt eine ganze Kategorie von Gutachterzweifeln.

5Nennen Sie exakte Zahlen und berichten Sie alles, was Sie vorab spezifiziert haben

Zwei Gewohnheiten runden es ab. Erstens: Berichten Sie exakte p-Werte, “p = 0,03”, nicht “p < 0,05”, und nicht ein bloßes “n.s.” Der exakte Wert trägt Informationen, die der Schwellenwert wegwirft. Zweitens: Berichten Sie alle Endpunkte, die Sie vorab spezifiziert haben, nicht nur die, die Signifikanz erreicht haben. Analysen, die nicht funktionierten, still fallenzulassen oder viele Vergleiche durchzuführen und nur den zu berichten, der signifikant war, ist genau das Muster, auf das Gutachter geschult sind zu achten. Vorher spezifizieren, dann alles berichten.

Abbildung 3. Sechs Punkte, die fast jeden statistischen Kommentar eines Gutachters zur Berichterstattung beseitigen. Keiner davon ändert Ihre Analyse. Sie ändern, ob der Leser ihr vertrauen kann.

All das macht ein schwaches Ergebnis nicht stark, und nichts davon ist eine Frage ausgefeilterer Statistik. Es geht darum, dem Leser zu zeigen, wie groß Ihr Befund ist, wie sicher Sie sind und wie Sie dorthin gelangt sind. Tun Sie das, und der Gutachter, der Ihre Ergebnisse liest, hat nichts zu beanstanden, was genau die Position ist, in der Sie sein möchten.

Wie Sie Statistik korrekt berichten: P-Werte, Konfidenzintervalle und Effektmaße

1Der p-Wert ist nicht das Ergebnis

2Ergänzen Sie jeden Effekt mit einem Konfidenzintervall

3“Signifikant” ist ein statistischer Begriff, kein Synonym für groß

4Nennen Sie den Test, und zeigen Sie, dass Sie seine Voraussetzungen geprüft haben

5Nennen Sie exakte Zahlen und berichten Sie alles, was Sie vorab spezifiziert haben

Priv.-Doz. Dr. med. Sied Kebir, MD, PhD

Sollen Ihre Ergebnisse so geprüft werden, bevor ein Gutachter sie sieht?