Die Überlebenszeitanalyse ist der Kern der meisten onkologischen Artikel, und sie ist der Bereich, in dem ich als Gutachter am genauesten hinschaue. Nicht weil ich es genießé, sondern weil stark wirkende Ergebnisse dort am häufigsten auseinanderfallen. Eine Kaplan-Meier-Kurve kann überzeugend aussehen und dennoch auf einer Endpunktdefinition beruhen, die nie angegeben wurde, auf einem Zensierungsmuster, das das Ergebnis still verzerrt, oder auf einer Hazard Ratio aus einem Modell, dessen zentrale Annahme nie geprüft wurde. Wenn die Überlebenszeitberichterstattung nachlässig ist, beginnt ein erfahrener Gutachter, dem Rest des Artikels zu misstrauen. Wenn sie sauber ist, signalisiert das, dass die gesamte Studie mit derselben Sorgfalt durchgeführt wurde.
Dieser Leitfaden zeigt, wie man Überlebenszeitanalysen so berichtet, dass ein Gutachter nichts zu beanstanden hat. Er ist aus der Perspektive des Schreibtisches auf der anderen Seite verfasst. Jeder Abschnitt endet mit den konkreten Fehlern, die einen Kommentar, und manchmal eine Ablehnung, nach sich ziehen.
1. Definieren Sie Ihre Endpunkte zuerst
Das häufigste Problem ist kein statistischer Fehler. Es ist ein Endpunkt, der nie präzise definiert wurde. Jeder Überlebenszeitendpunkt benötigt drei Dinge, die in klaren Worten angegeben werden: den Startpunkt (der Indexzeitpunkt), das Ereignis und was mit Patienten passiert, die das Ereignis nie erleiden.
- Gesamtüberleben (OS): von einem definierten Indexzeitpunkt (zum Beispiel Randomisierung, Diagnose oder Behandlungsbeginn) bis zum Tod aus jeglicher Ursache. Der sauberste Endpunkt, weil der Tod eindeutig ist.
- Progressionsfreies Überleben (PFS): vom Indexzeitpunkt bis zur Krankheitsprogression oder dem Tod aus jeglicher Ursache, je nachdem, was zuerst eintritt. Sie müssen angeben, wie die Progression definiert wurde, zum Beispiel anhand von RANO in der Neuro-Onkologie oder RECIST 1.1 bei soliden Tumoren.
- Zeit bis zur Progression (TTP): wie PFS, außer dass Todesfälle ohne vorherige Progression zensiert werden, anstatt als Ereignisse zu zählen. PFS und TTP sind nicht austauschbar, und der Unterschied verändert das Ergebnis.
Ein Endpunkt ohne angegebenen Indexzeitpunkt. Progression, die nur als “klinisch oder radiologisch” beschrieben wird, ohne genannte Kriterien. PFS und TTP werden so verwendet, als wären sie dasselbe. Nennen Sie den Start, das Ereignis und die Kriterien, je einen kurzen Satz.
2. Zensierung: Sagen Sie, was Sie getan haben, und prüfen Sie, ob es fair ist
Zensierung bedeutet, dass ein Patient das Ereignis bis zum Ende der Beobachtungszeit noch nicht erlitten hatte, sei es, weil die Studie endete oder weil er aus der Nachbeobachtung ausgeschieden ist. Zwei Dinge müssen im Artikel erscheinen.
- Wie viele Patienten zensiert wurden und warum. Eine hohe Rate von Patienten, die aus der Nachbeobachtung ausgeschieden sind, ist selbst ein Befund, den der Leser sehen muss.
- Die mediane Nachbeobachtungszeit und wie Sie diese berechnet haben. Die anerkannte Methode ist der umgekehrte Kaplan-Meier-Schätzer, bei dem Ereignisse und Zensierungen vertauscht werden, nicht einfach die mediane Beobachtungszeit.
Das tiefere Problem ist die informative Zensierung. Kaplan-Meier setzt voraus, dass zensierte Patienten dasselbe künftige Risiko tragen wie diejenigen, die weiter beobachtet werden. Wenn kränkere Patienten ausscheiden, sodass die Zensierung mit der Prognose zusammenhängt, ist die Kurve verzerrt, weil sie besser erscheint als die Realität. Sie können nicht vollständig beweisen, dass die Zensierung nicht informativ war, aber Sie sollten zeigen, dass Sie dies in Betracht gezogen haben.
Keine mediane Nachbeobachtungszeit oder eine, die als einfache Beobachtungszeit berechnet wurde. Ein großer, ungeklärter Verlust aus der Nachbeobachtung. Kein Hinweis darauf, dass die Zensierung möglicherweise informativ war.
3. Die Kaplan-Meier-Kurve: Die Konventionen, die Gutachter erwarten
Eine Überlebensabbildung hat einige unverzichtbare Elemente. Ihre Weglassung ist der schnellste Weg, Unerfahrenheit zu signalisieren.
- Eine Tabelle der Anzahl der gefährdeten Patienten unter der x-Achse. Das ist nicht optional. Ohne sie kann der Leser nicht beurteilen, wie zuverlässig der spätere Teil der Kurve ist.
- Zensierungsmarkierungen auf jeder Kurve, damit der Leser sieht, wo Patienten zensiert wurden statt ein Ereignis zu erleiden.
- Das mediane Überleben für jede Gruppe mit seinem 95%-Konfidenzintervall, im Text oder auf der Abbildung selbst berichtet.
- Ein Kurvenschwanz, der nicht überinterpretiert wird. Sobald nur noch eine Handvoll Patienten gefährdet ist, ist dieser Teil der Kurve am wenigsten zuverlässig, und feste Schlussfolgerungen sollten nicht darauf beruhen.
Keine Anzahl gefährdeter Patienten unter der Kurve. Autoren, die aus dem fernen Schwanz eine sichere Schlussfolgerung ziehen, wo noch drei Patienten verbleiben. Diese beiden zusammen sind die häufigsten Probleme bei Überlebensabbildungen, die ich sehe.
4. Gruppenvergleiche: Log-Rank, Hazard Ratios und die Annahme, die alle vergessen
Um zwei Überlebenskurven zu vergleichen, berichten Sie in der Regel einen Log-Rank-p-Wert und eine Hazard Ratio aus einem Cox-Proportional-Hazards-Modell. Beides ist Standard. Ein Schritt wird viel zu oft übersprungen.
- Berichten Sie die Hazard Ratio mit ihrem 95%-Konfidenzintervall, nicht allein einen p-Wert. “HR 0,62 (95% CI 0,44 bis 0,88, p = 0,007)” sagt dem Leser die Größe des Effekts und seine Präzision. Ein bloßes “p < 0,05” sagt ihm fast nichts.
- Prüfen Sie die Annahme proportionaler Hazards. Eine Cox-Hazard Ratio ist eine einzige Zahl, die voraussetzt, dass das relative Risiko zwischen den Gruppen über die Zeit konstant bleibt. Wenn sich die Kurven kreuzen oder annähern, ist diese Annahme verletzt und die Hazard Ratio irreführend. Testen Sie dies, zum Beispiel mit Schoenfeld-Residuen oder einem Log-Log-Plot, und bestätigen Sie, dass Sie dies getan haben.
- Legen Sie die Kovariablen in jedem adjustierten Modell vorab fest. Ein multivariables Cox-Modell mit Kovariablen, die nach Sichtung der Daten gewählt wurden, ist ein klassischer Weg, Signifikanz zu konstruieren, und Gutachter sind geschult, dies zu vermuten.
Eine Hazard Ratio ohne Konfidenzintervall. Keine Erwähnung der Annahme proportionaler Hazards, insbesondere wenn sich die veröffentlichten Kurven sichtbar kreuzen. Ein verdächtig aufgeräumtes multivariables Modell ohne Anzeichen einer Vorspezifikation.
5. Die Verzerrung, die Beobachtungsstudien ruiniert: unsterbliche Zeit
Wenn Ihre Studie keine randomisierte Studie ist, verdient eine Verzerrung einen eigenen Abschnitt, weil sie sowohl häufig als auch gravierend ist. Der Bias durch unsterbliche Zeit entsteht, wenn Patienten nach etwas gruppiert werden, das erst nach dem Indexzeitpunkt eintreten kann, zum Beispiel “Patienten, die Behandlung X erhalten haben” versus “diejenigen, die sie nicht erhalten haben.” Die behandelte Gruppe muss per Definition lange genug überlebt haben, um die Behandlung zu erhalten. Diese garantierte Überlebenszeit ist die unsterbliche Zeit, und sie lässt die Behandlung schützend wirken, obwohl sie möglicherweise gar nichts bewirkt.
Die übliche Lösung ist eine Landmark-Analyse, bei der Patienten nach ihrem Status zu einem festen Zeitpunkt klassifiziert werden, oder eine zeitvariable Kovariable im Cox-Modell. Wenn Ihr Studiendesign eine solche Struktur hat, gehen Sie darauf ein, bevor ein Gutachter es tut. Für einen erfahrenen Leser ist es ein sofortiges Warnsignal, und ein unbehandeltes beendet oft das Review.
6. Eine Vorab-Checkliste
Überprüfen Sie vor der Einreichung, ob das Manuskript jeden dieser Punkte enthält.
- Jeder Endpunkt mit seinem Indexzeitpunkt, seinem Ereignis und seiner Zensierungsregel definiert.
- Progressionskriterien genannt (RANO, RECIST 1.1 oder der relevante Standard).
- Mediane Nachbeobachtungszeit, berechnet nach der umgekehrten Kaplan-Meier-Methode.
- Anzahl der Ereignisse und Anzahl der zensierten Patienten, pro Gruppe.
- Kaplan-Meier-Kurven mit Anzahl gefährdeter Patienten und Zensierungsmarkierungen.
- Medianes Überleben mit 95%-Konfidenzintervallen.
- Hazard Ratios mit 95%-Konfidenzintervallen, nie allein ein p-Wert.
- Eine Aussage darüber, dass die Annahme proportionaler Hazards geprüft wurde.
- Kovariablen für jedes adjustierte Modell vorab festgelegt und die Statistiksoftware sowie die Version genannt.
All das macht ein schwaches Ergebnis nicht stark. Was es tut: Es beseitigt jeden leichten Grund, an Ihnen zu zweifeln, sodass Ihr Befund nach seinen Verdiensten beurteilt wird. Das ist das ganze Spiel.