Imaginemos a los matemáticos de hace unos siglos preocupados por el tema de "
¿cómo calcular la media de una característica en una población?". Ya han decidido
que lo más económico es coger muestras de gente, y calcular la media (p. ej. la altura). El problema con el
que se encuentran es
que cada investigador se encuentra con un valor distinto
Queda claro
que la realidad
no es "perfecta"... y se dan cuenta de
que cada resultado tiene una probabilidad de salir, y unos resultados son más probables
que otros.
A base de estudiar la cuestión, los matemáticos se dan cuenta de
que se puede hablar de un "teorema central del límite",
que viene a decir
que cuantas más veces repitas algo, al final las probabilidades de aparición de ese "algo" resulta
que se distribuyen como una curva normal, independientemente de cómo se distribuyera el "algo" en la población. En nuestro caso, sería
que si calculas 200 veces la media de la altura, las 200 medias
que te han ido saliendo se distribuyen normalmente (es muy poco probable
que te dé un resultado muy pequeño o muy grande, y será muy probable
que te dé siempre una media "media". Más o menos es algo así,
no domino mucho el tema).
Siguiendo este teorema, aunque
no tengas ni idea de cuál es la distribución real de la altura de la población de origen, podrás decir
que la distribución
de su media calculada un montón de veces sigue una curva normal.
Claro, eso está muy bien cuando puedes hacer tropocientas observaciones. Pero... ¿y si
no puedes? Ya
no puedes aplicar ese teorema... sobre todo porque aunque vayas obteniendo medias,
no vas a lograr hacerte una idea de si hay mucha variabilidad (varianza) o
no (por culpa de un n tan pequeño).
Pues aquí es donde entra en juego un señor llamado Gosset,
que firmaba sus trabajos con el pseudónimo de Student. Este hombre demostró (
no me preguntéis cómo)
que también puedes estimar la distribución de probabilidades sin saber la varianza de la distribución. Y así nace la famosa
distribución de probabilidad llamada
t de Student.
Esta distribución te ayuda a saber cómo de probable es el hallazgo de una media en una muestra, cuando tu muestra es pequeña.
De hecho, con su forma de calcularlo, parece ser
que si hicieras crecer el n, al final la curva
que te sale es sospechosamente parecida a la normal
Así
que, en resumidas cuentas, la t de Student es una forma de calcular una distribución de probabilidad
cuando no sabes la varianza a causa de un n pequeño (aunque su método también podrías usarlo con un n grande si quisieras, pero teniendo el teorema del límite central ¿para qué complicarse más la vida?).
Después de todo este rollo, saltamos a la cuestión de qué pasa cuando quieres hacer un contraste de medias (o un contraste de hipótesis sobre medias), es decir, contrastar alguna cosa
sobre una media.
Lo mejor de lo mejor es usar pruebas paramétricas y para ello la normalidad es un requisito.
Puede ser
que, cuando vayas a hacer el contraste, ya sepas por estudios anteriores
que la población es normal. Si lo sabes de antemano, tu n te importa ya un pimiento. Si
no lo sabes, lo
que harás será coger un n tan grande
que no vas a tener ni
que pensar en ello. Podrás usar pruebas "paramétricas" porque tienes seguridad de esa "normalidad" gracias al "teorema del límite central"
que decíamos antes. La
mayoría de veces, para curarse en salud, se exige un n grande.
La cuestión es
que hay varios tipos de pruebas paramétricas, y una de ellas se llama
prueba t. ¿Y sabéis cuando se usa? Pues resulta
que se usa cuando
NO SABES LA VARIANZA de la población (aunque sepas
que la población es "normal" o lo supongas por tener un n grande). ¿
No os suena esto al mismo problema
que tenían con la distribución de probabilidad? Pues ahí está la cuestión: parece ser
que lleva el mismo nombre porque se fundamenta en las mismas bases.
La T de Student en contraste de medias la podremos usar, pues, sea cual sea el n, mientras estés seguro de la normalidad de la distribución pero
no conozcas con seguridad la varianza.
Que a lo mejor os preguntáis... ¿pero si sé
que la población es normal porque ya hay datos previos, como es
que no sé la varianza? Pues porque a lo mejor hay algo
que te puede hacer pensar
que los datos hayan cambiado. P. ej. es lo
que ocurre con el CI y el efecto Flynn, aquello de
que en las sucesivas generaciones el CI va aumentando*... Sabes
que el CI medido en una nueva generación puede tener una media distinta y quién sabe si también ha cambiado su variabilidad... Así
que si quieres comparar la media del CI de dos generaciones distintas... toca usar la prueba t.
Hasta aquí lo
que yo he llegado a entender de todo este lío gordo.
No sé si he liado más, reconozco
que yo misma pillo todo esto con pinzas.
*Ya hay datos de que lo del efecto Flynn se ha detenido.