Come Scegliere il Test Statistico Giusto: Una Guida Decisionale

La maggior parte dei ricercatori non sceglie un test statistico. Lo eredita. Un supervisore usava il t-test, quindi lo studente successivo usa il t-test, e così quello dopo ancora. Funziona abbastanza spesso da non far chiedere il perché, fino a quando un revisore non lo chiede. La parte rassicurante è che scegliere il test giusto non è un esercizio di memoria. Dipende da tre domande semplici sui propri dati, poste nell'ordine giusto. Rispondendovi, il test si sceglie quasi da solo.

1Si parte dai dati, non dal test

L'errore è partire dal test che si conosce già e cercare un modo per applicarlo. Occorre partire dall'altra estremità. Che tipo di esito si è misurato, quanti gruppi si stanno confrontando e i dati si comportano come il test richiede. Queste tre domande, in questo ordine, portano al test giusto per quasi ogni studio comune. La Figura 1 è la mappa a cui conducono.

Figura 1. L'intera decisione in un colpo d'occhio. Trovate il tipo di esito nella riga superiore, poi la riga che corrisponde a ciò che state chiedendo. La maggior parte di questa guida è semplicemente come leggere questa mappa per il proprio studio.

2Prima domanda: che tipo di esito avete misurato?

Tutto inizia dal tipo di esito, ovvero ciò che si sta effettivamente confrontando.

Un esito continuo è un numero su una scala, come la pressione sanguigna, il volume tumorale, un valore di laboratorio o un punteggio sintomatologico.
Un esito categoriale è un'etichetta o un conteggio, come vivo o morto, responder o non-responder, o il numero di eventi.
Un esito tempo all'evento indica quanto tempo prima che accada qualcosa, come la sopravvivenza globale o il tempo alla progressione.

Ogni tipo indica una diversa famiglia di test, le tre colonne della Figura 1. Sbagliare questa scelta rende tutto il resto sbagliato. Un esito di sopravvivenza forzato in un t-test, ad esempio, elimina la tempistica e la censura che lo rendono un esito di sopravvivenza.

3Seconda domanda: quanti gruppi, e sono collegati?

Per un esito continuo, la domanda successiva è quanti gruppi si confrontano e se sono indipendenti o appaiati.

Due gruppi indipendenti, trattamento contro controllo, indicano un t-test, o il test di Mann-Whitney quando i dati sono asimmetrici.
Due misurazioni sulle stesse persone, prima contro dopo, sono appaiate e richiedono un test appaiato. Trattare dati appaiati come indipendenti è uno degli errori più comuni e di solito fa sembrare il risultato più debole di quanto sia realmente.
Tre o più gruppi richiedono l'analisi della varianza (ANOVA), non una serie di t-test tra ogni coppia.

Figura 2. La decisione più comune nella ricerca clinica. Due domande, indipendente o appaiato, e normale o asimmetrico, fissano il test per i confronti a due gruppi. La domanda sull'appaiamento è quella che gli autori sbagliano più spesso.

4Terza domanda: i vostri dati soddisfano le assunzioni del test?

I test più noti, il t-test, l'ANOVA e la correlazione di Pearson, sono detti parametrici. Assumono che i dati seguano approssimativamente una distribuzione normale, la forma a campana simmetrica. Quando i dati sono chiaramente asimmetrici, o il campione è piccolo e non si riesce a capire, la scelta più sicura è un test non parametrico. Mann-Whitney sostituisce il t-test, Wilcoxon sostituisce il t-test appaiato, Kruskal-Wallis sostituisce l'ANOVA. Questi richiedono meno ai propri dati e raramente costano molto. La Figura 3 mostra la differenza che lo determina.

Figura 3. Quando una distribuzione è simmetrica, la media la descrive bene e il t-test è adatto. Quando ha una coda lunga, pochi valori estremi allontanano la media dal caso tipico, e un test basato sui ranghi come Mann-Whitney è la scelta onesta.

5Quando si studia una relazione, non una differenza

A volte non si confrontano gruppi. Si vuole sapere se due cose variano insieme, o se una predice l'altra. Per due variabili continue che salgono e scendono insieme, si usa la correlazione: Pearson quando entrambe sono approssimativamente normali e Spearman quando non lo sono. Quando si vuole predire un esito da più variabili contemporaneamente, e aggiustare per i confondenti, serve la regressione. La regressione lineare gestisce un esito continuo, quella logistica un esito sì/no, quella di Cox un esito tempo all'evento. La regressione è anche il modo per rispondere alla domanda che i revisori pongono più spesso: se l'effetto rimane anche dopo aver tenuto conto di età, stadio e degli altri confondenti abituali.

6Gli errori che fanno perdere la fiducia del revisore

Una manciata di errori ricorre continuamente, e un revisore li individua tutti in pochi secondi. Nessuno è esotico, e tutti sono evitabili una volta che si risponde onestamente alle tre domande. La Figura 4 è il breve elenco con cui confrontare la propria analisi prima della submission.

Figura 4. Ogni voce è un errore di selezione del test, non un'analisi semplicemente difficile. Ogni errore è visibile dalla sola sezione dei metodi, ed è esattamente per questo che i revisori li trovano così in fretta.

Scegliere un test non è la parte difficile della ricerca, ma scegliere quello sbagliato mina silenziosamente tutto ciò che vi si costruisce sopra. Si parta dai propri dati, si risponda alle tre domande nell'ordine giusto e la scelta sarà di solito ovvia. Quando non lo è, quel momento è quello in cui chiedere a qualcuno prima di eseguire l'analisi, non dopo che un revisore l'ha rinviata indietro.

Come Scegliere il Test Statistico Giusto