In quasi ogni revisione statistica c'è un momento in cui la scienza sembra a posto ma il reporting no. Un p-value isolato senza dimensione dell'effetto. La parola “significativo” usata per indicare “grande.” Una tabella di test senza indicare quale test sia stato usato o perché. L'analisi sottostante potrebbe essere perfettamente corretta, ma il lettore non riesce a capirlo, e un revisore che non riesce a capirlo inizia a dubitare del resto.

La parte rassicurante è che la maggior parte di questi sono problemi di reporting, non di analisi. Indagini su manoscritti sottomessi riscontrano che la grande maggioranza non descrive i test in modo chiaro e che una quota sorprendente trae conclusioni non supportate dai propri dati. Si può evitare quasi tutto senza toccare la propria analisi, semplicemente riportandola nel modo in cui un revisore la legge. Ecco come.

1Il p-value non è il risultato

Un p-value risponde a una sola domanda ristretta: se non vi fosse davvero alcun effetto, quanto sarebbero sorprendenti dati come i vostri. Questo è tutto. Non è la dimensione dell'effetto, non è la probabilità che la vostra ipotesi sia vera e non è una misura di importanza. Riportato da solo, dice al lettore quasi nulla di utilizzabile. Altri due numeri portano il risultato vero: la dimensione dell'effetto e il suo intervallo di confidenza.

effetto maggiore → nessun effetto dimensione dell'effetto (quanto grande) 95% CI (quanto sicuro) Il p-value chiede solo se questo intervallo supera la linea del nessun-effetto.
Figura 1. La dimensione dell'effetto (il punto) è la risposta: quanto grande è la differenza. L'intervallo di confidenza (la barra) è la sua precisione: quanto si è sicuri. Il p-value collassa tutto questo in un solo sì-o-no riguardo alla linea tratteggiata. Riportate tutti e tre e il lettore vede il quadro completo.

2Abbinate ogni effetto a un intervallo di confidenza

La dimensione dell'effetto è la risposta alla domanda che il vostro studio ha posto: la differenza nelle medie, l'odds ratio, l'hazard ratio, la correlazione. L'intervallo di confidenza indica con quale precisione lo avete misurato. Un intervallo ristretto indica che avete definito l'effetto con precisione; uno ampio indica il contrario, anche se il p-value è piccolo. Riportateli sempre insieme. “Il rischio è diminuito del 38% (95% CI 12%–56%)” dice tutto a un revisore; “p < 0,05” non dice quasi nulla.

VAGO “Il gruppo B è migliorato significativamente (p < 0,05).” CHIARO “Il gruppo B è migliorato di 12 punti (95% CI 5–19, p = 0,003).” la dimensione, la precisione e il risultato esatto del test, in una riga
Figura 2. Lo stesso risultato riportato in due modi. Il secondo fornisce al lettore la dimensione, la precisione e un p-value esatto, così da poter valutare il risultato invece di fidarsi sulla parola.

3“Significativo” è un termine statistico, non sinonimo di grande

In una sezione dei risultati, “significativo” dovrebbe comparire solo quando dietro c'è un test e un p-value. Usarlo per dire “grande” o “importante” è uno dei modi più rapidi per invitare il commento che ogni autore teme: significativo in che senso? Se si intende che l'effetto era grande, lo si dica e si fornisca il numero. Si usi “significativo” per la significatività statistica, e anche allora si lasci che siano la dimensione dell'effetto e l'intervallo a portare il peso.

4Nominate il test e mostrate di aver verificato le sue assunzioni

Il singolo fallimento di reporting più comune è non nominare il test statistico, o nominarlo senza giustificarlo. Per ogni analisi, il lettore deve poter vedere quale test si è usato, perché era quello giusto e che si sono verificate le sue assunzioni. Un t-test assume cose che un Mann-Whitney non assume. Una regressione lineare assume cose che avrebbero dovuto essere verificate. Si enunci il test, si dica che le assunzioni sono state verificate e si nomini il software e la versione utilizzati. Questo paragrafo elimina un'intera categoria di dubbi del revisore.

5Fornite numeri esatti e riportate tutto ciò che avete pre-specificato

Due abitudini completano il quadro. Prima, riportare p-value esatti, “p = 0,03,” non “p < 0,05,” e non un semplice “n.s.” Il valore esatto porta informazioni che la soglia elimina. Seconda, riportare tutti gli esiti pre-specificati, non solo quelli che hanno raggiunto la significatività. Eliminare silenziosamente le analisi che non hanno funzionato, o eseguire molti confronti e riportare solo quello che ha raggiunto la significatività, è esattamente il comportamento che i revisori sono addestrati a individuare. Pre-specificate, poi riportate tutto.

Verificate il vostro reporting statistico prima della submission Ogni effetto è riportato con la sua dimensione, non solo un p-value Ogni effetto ha accanto a sé un intervallo di confidenza al 95% I p-value sono esatti (p = 0,03), mai solo p < 0,05 o n.s. Ogni test è nominato, giustificato e le sue assunzioni verificate “Significativo” è usato solo per la significatività statistica Tutti gli esiti pre-specificati sono riportati; software e versione sono nominati
Figura 3. Sei voci che eliminano quasi ogni commento statistico che un revisore formula sul reporting. Nessuna cambia la vostra analisi. Cambiano se il lettore può fidarsi di essa.

Niente di tutto ciò trasforma un risultato debole in uno forte, e niente di tutto ciò riguarda il fare statistica più sofisticata. Si tratta di permettere al lettore di vedere la dimensione di ciò che si è trovato, quanto si è sicuri e come ci si è arrivati. Fatto questo, il revisore che legge i vostri risultati non ha nulla da segnalare, che è esattamente la posizione in cui volete trovarvi.