Cómo elegir la prueba estadística correcta: una guía de decisión

La mayoría de los investigadores no eligen una prueba estadística. La heredan. Un supervisor usó un t-test, por lo que el siguiente estudiante usa un t-test, y el siguiente también. Funciona con suficiente frecuencia como para que nadie pregunte por qué, hasta que lo hace un revisor. Lo tranquilizador es que elegir la prueba correcta no requiere un ejercicio de memoria. Se deriva de tres preguntas sencillas sobre sus datos, formuladas en orden. Respóndalas y la prueba casi siempre se elige sola.

1Comience con sus datos, no con la prueba

El error consiste en comenzar desde la prueba que ya conoce y buscar la manera de aplicarla. Comience desde el otro extremo. Qué tipo de resultado midió, cuántos grupos está comparando y si sus datos se comportan de la manera que la prueba espera. Esas tres preguntas, en ese orden, lo llevan a la prueba correcta para casi cualquier estudio habitual. La Figura 1 es el mapa al que conducen.

Figura 1. Toda la decisión en una sola vista. Encuentre el tipo de resultado a lo largo de la parte superior y luego la fila que corresponde a lo que usted está preguntando. La mayor parte de esta guía explica simplemente cómo leer este mapa para su propio estudio.

2Primera pregunta: ¿qué tipo de resultado midió usted?

Todo comienza con el tipo de resultado, es decir, lo que usted está comparando realmente.

Un resultado continuo es un número en una escala, como la presión arterial, el volumen tumoral, un valor de laboratorio o una puntuación de síntomas.
Un resultado categórico es una etiqueta o un recuento, como vivo o muerto, respondedor o no respondedor, o el número de eventos.
Un resultado de tiempo hasta el evento es cuánto tiempo transcurre hasta que ocurre algo, como la supervivencia global o el tiempo hasta la progresión.

Cada tipo apunta a una familia diferente de pruebas, las tres columnas de la Figura 1. Si se equivoca en esta, nada de lo que venga a continuación será correcto. Un resultado de supervivencia forzado en un t-test, por ejemplo, descarta el tiempo y el censuramiento que lo convierten en un resultado de supervivencia.

3Segunda pregunta: ¿cuántos grupos tiene y están vinculados entre sí?

Para un resultado continuo, la siguiente pregunta es cuántos grupos compara y si son independientes o apareados.

Dos grupos independientes, tratamiento frente a control, apuntan a un t-test, o al Mann-Whitney cuando los datos están sesgados.
Dos mediciones sobre las mismas personas, antes frente a después, son apareadas y requieren una prueba apareada. Tratar datos apareados como independientes es uno de los errores más frecuentes y, por lo general, hace que el resultado parezca más débil de lo que realmente es.
Tres o más grupos requieren un análisis de varianza (ANOVA), no una serie de t-tests entre cada par.

Figura 2. La decisión más frecuente en la investigación clínica. Dos preguntas, independiente o apareado y normal o sesgado, determinan la prueba para comparaciones de dos grupos. La pregunta sobre el apareamiento es la que los autores responden mal con mayor frecuencia.

4Tercera pregunta: ¿sus datos cumplen los supuestos de la prueba?

Las pruebas habituales, el t-test, ANOVA y la correlación de Pearson, se denominan paramétricas. Suponen que sus datos siguen aproximadamente una distribución normal, la forma de campana simétrica. Cuando los datos están claramente sesgados, o la muestra es pequeña y no se puede determinar, la opción más segura es una prueba no paramétrica. Mann-Whitney sustituye al t-test, Wilcoxon sustituye al paired t-test, Kruskal-Wallis sustituye a ANOVA. Estas pruebas exigen menos de sus datos y rara vez le cuestan demasiado. La Figura 3 muestra la diferencia que determina la elección.

Figura 3. Cuando una distribución es simétrica, la media la describe bien y el t-test es adecuado. Cuando tiene una cola larga, unos pocos valores extremos alejan la media del caso típico, y una prueba basada en rangos como Mann-Whitney es la elección honesta.

5Cuando analiza una relación, no una diferencia

A veces no está comparando grupos en absoluto. Usted quiere saber si dos cosas se mueven juntas, o si una predice a la otra. Para dos variables continuas que aumentan y disminuyen juntas, use correlación: Pearson cuando ambas son aproximadamente normales y Spearman cuando no lo son. Cuando desea predecir un resultado a partir de varias variables a la vez, y ajustar por factores de confusión, necesita regresión. La regresión lineal maneja un resultado continuo, la logistic regression un resultado de sí o no, y la Cox regression un resultado de tiempo hasta el evento. La regresión es también la manera de responder a la pregunta que los revisores hacen con más frecuencia: si su efecto se mantiene después de tener en cuenta la edad, el estadio y los demás sospechosos habituales.

6Los errores que hacen perder la confianza del revisor

Un puñado de errores aparece una y otra vez, y un revisor los detecta todos en segundos. Ninguno es exótico, y todos son evitables una vez que usted ha respondido honestamente las tres preguntas. La Figura 4 es la lista breve con la que contrastar su propio análisis antes de enviarlo.

Figura 4. Cada elemento aquí es un error en la selección de la prueba, no un análisis meramente difícil. Cada uno es visible solo desde la sección de métodos, que es exactamente por qué los revisores los encuentran tan rápido.

Elegir una prueba no es la parte difícil de la investigación, pero elegir la incorrecta socava silenciosamente todo lo que se construye sobre ella. Comience desde sus datos, responda las tres preguntas en orden y la elección suele ser obvia. Cuando no lo es, ese es el momento de consultar a alguien antes de ejecutar el análisis, no después de que un revisor lo haya devuelto.

Cómo elegir la prueba estadística correcta