Estos son los principales conceptos a tener en cuenta en el desarrollo de un tamaño de muestra
Población. Conjunto de individuos de nuestro interés. Universo Muestra. Selección de la población
Unidad muestral. Tipo de individuos de la población. Muestreo aleatorio o probabilístico, confiado al azar.
Etapas de un muestreo. Unidades muestrales de distinto nivel en cada etapa. En la última etapa, la unidad muestral deben ser los elementos de la población. En las anteriores deben ser conglomerados de elementos poblacionales.
Muestreo
Elección de elementos de la muestra.
Regla de las muestras probabilísticas
Cada elemento de la población debe tener una probabilidad no nula, y conocida de ser elegido.
TAMAÑO DE LA MUESTRA
El tamaño de la muestra repercute directamente sobre la precisión de las estimaciones.
Esta precisión de cada resultado, también depende de la varianza poblacional respecto a cada variable, es decir, de la heterogeneidad de la población.
Como se puede entender intuitivamente si la población fuese muy homogénea bastaría con una muestra muy escasa, para llegar a un determinado nivel de error de muestreo. En el caso de una variable dicotómica o binaria, con valores posibles 0 (NO) y 1 (SI), el producto de los tantos por uno de SI y de NO (el producto de las probabilidades p * ( 1 - p ), siendo p la probabilidad de que un determinado individuo corresponda a la categoría SI)) equivalen a la varianza en la muestra.
Por ejemplo, si el 80 % de los individuos responden SI, la varianza sería : 0.8 * 0.2 = 0.16. Si el porcentaje fuera del 50 %, la varianza sería : 0.5 * 0.5 = 0.25. Esta es la máxima varianza posible en este tipo de variables, coincide con la máxima heterogeneidad de la población, y requeriría, para un nivel de precisión dado, una muestra mayor. En el caso extremo contrario, en que toda la población fuera SI, la varianza sería 0, y el tamaño de muestra sería mínimo, pues bastaría un sólo individuo, para representar a toda la población.
Esta circunstancia ya ha sido utilizada al hablar del muestreo por estratos, con afijación óptima, en que ponderábamos el tamaño de la submuestra de cada estrato, multiplicándolo por la desviación típica de cada estrato.
Para determinar el tamaño de la muestra, conviene tener una idea lo más precisa que sea posible, sobre la varianza poblacional de las variables de nuestro estudio, por ejemplo mediante estudios prospectivos (con n=100, por ejemplo), u otras informaciones disponibles.
En ausencia de ellas, algunas orientaciones generales se pueden usar. Así, por ejemplo, se suele tener en consideración, a la hora de diseñar una muestra, que en las áreas urbanas, y respecto a gran diversidad de variables, la población es más heterogénea que en las áreas rurales.
Si no es posible tener una idea, aún aproximada de la varianza poblacional, siempre es posible dimensionar la muestra para el peor de los casos, que, en caso de variables dicotómicas, expresables en proporciones de SI y de NO, correspondería a proporciones del 50 % para una categoría, y 50 % para la otra (p=0.5).
Como quiera que para cada variable la varianza será distinta, cada una de ellas exigiría un tamaño de muestra. La solución suele pasar por el calculo de una muestra que garantice la precisión deseada, en las preguntas clave, o en una parte importante de las preguntas, indicándose en el resto de las preguntas, una presición menor.. Si son muchas y muy diversas las variables, suelen, directamente hacerse los cálculos para el peor de los casos (p=0.5).
Nivel de confianza
Es la probabilidad de que una afirmación sobre la población, basada en el análisis de una
muestra, sea correcta, es decir, la probabilidad de acertar.
Muchas variables aleatorias se distribuyen siguiendo una curva normal. Las curvas normales permiten caracterizar muchas distribuciones con sólo conocer su media y su desviación típica. La curva normal es simétrica, y se extiende indefinidamente hacia ambos lados, si bien con una superficie bajo la curva cada vez más pequeña. el área total bajo la curva es 1. Si tomamos la parte central, hasta más/menos 2 desviaciones típicas, incluirá un área de 0.9544, y si fueran 3 desviaciones típicas, 0.9974.
De entre todas las muestras posibles en una población de N individuos, tomando cada vez n de ellos, la mayoría nos daría, para las diversas variables, unas estimaciones realmente cercanas a las existentes en la población. Pero otras, menos numerosas, presentarán sesgos, de carácter no intencionado, sino aleatorio, que nos alejarán más o menos de los parámetros muestrales.
La distribución de estas posibles muestras, que se acercarían en mayor o menor medida a los parámetros poblacionales reales, sigue una distribución normal, lo que nos permitirá acotar la probabilidad de acertar en nuestras estimaciones, incluyendo, como es habitual en ciencias sociales, un área bajo la curva de 0.9544, correspondiente a más/menos 2 desviaciones típicas, y que se traduce en una probabilidad de acertar en nuestras estimaciones del 95.44 %.
Además del nivel de confianza de nuestras estimaciones, y de cara al cálculo del tamaño de la muestra, habremos de decidir el error de muestreo que estamos dispuestos a tolerar en las mismas. En la práctica, esto suele traducirse en lo que se suele denominar ‘horquilla’ es decir, un par de valores entre los cuales pensamos que esta el parámetro poblacional. Así cuando se dice que el porcentaje de determinada intención de voto se encuentra entre un 31.6% y un 34.3%.
Ello no significa podamos proporcionar una seguridad total respecto a que el porcentaje real en la población se encuentre con certeza entre ambos valores, pues aunque improbable, podría suceder que la muestra estuviera aleatoriamente sesgada en un sentido o en otro. Por ello, nos vemos obligados, además de proporcionar un intervalo, especificar el nivel de confianza de nuestra estimación.
Cálculo del tamaño de la muestra
El tamaño necesario para la muestra dependerá de varios factores:
El error de muestreo que se esté dispuesto a tolerar en las estimaciones. En las proporciones vendrá dado en términos de proporción, es decir de tanto por uno. En las variables numéricas vendrá dado en las mismas unidades de la variable (por ejemplo en años, o centímetros), es decir, se tratará un error ‘absoluto’. También sería posible especificarlo en términos relativos.
La varianza de las variables en la población. En variables dicotómicas, las proporciones 0.5 SI, 0.5 NO representan la máxima varianza, siendo P * ( 1- P ) = 0.5 * 0.5 = 0.25.
El nivel de
confianza que se desee para las afirmaciones. (2 Desv.Tip. = 0.9544).
El tipo de muestreo. Con un muestreo adecuadamente estratificado, con gran homogeneidad
interna en cada estrato, se puede llegar a obtener más precisión en las estimaciones.
El tamaño de la población (o Universo). En particular en poblaciones chicas, en las cuales la muestra puede representar una fracción no despreciable, digamos un 5% o más, de la población. Se habla en estos casos de Universos pequeños, siendo necesaria en estos casos la introducdión de ciertas correcciones en las fórmulas para el cálculo del tamaño muestral.
UNIVERSOS GRANDES
Para la estimación de proporciones poblacionales n = K2 P ( 1- P ) /
e2
UNIVERSOS PEQUEÑOS
n = N K2 P ( 1- P ) / (
( N - 1 ) e2 + K2
P ( 1- P ) ) Donde
n = Tamaño de la muestra
N = Tamaño de la población
P = Proporción de una variable
P ( 1 - P ) = Varianza
K = Nivel de Confianza (en términos de desviaciones típicas. 2 = 0.9544) e = error de muestreo. En términos de proporción (tanto por uno)
Para estimación de medias poblacionales, en variables numéricas
n = N K2 o2 / ( N e2 + K2 o2 )
Donde
o2 = Cuasivarianza poblacional, estimada como la ccuasivarianza muestral : S2 = Sumatorio de los cuadrado de las desviaciones con respecto a la media, divididos por ( N - 1 )