Muestreo (estadística)

(Redirigido desde «Muestreo en estadística»)

Se le conoce como muestreo a la técnica para la selección de una muestra a partir de una población estadística.[1]

Representación visual del proceso de muestreo

Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase un estudio a toda la población. En las investigaciones llevadas por empresarios y de la medicina se usa muestreo extensivamente en recoger información sobre poblaciones.[2]

Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que consienta no solo hacer estimaciones de la población sino estimar también los márgenes de error correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el resultado sea una muestra representativa, pero sí podemos actuar de manera que esta condición se alcance con una probabilidad alta.

En el muestreo, si el tamaño de la muestra es más pequeño que el tamaño de la población, se puede extraer dos o más muestras de la misma población. Al conjunto de muestras que se pueden obtener de la población se denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extracción, sigue la llamada distribución muestral.

Definición de la población

editar

El éxito de la práctica estadística se basa en la definición precisa del problema. En el muestreo, esto incluye definir la "población" de la que se extrae nuestra muestra. Una población puede definirse como el conjunto de personas o elementos con las características que se desea comprender. Dado que rara vez se dispone del tiempo o el dinero suficientes para recopilar información de todas o cada una de las personas de una población, el objetivo pasa a ser encontrar una muestra (o subconjunto) representativa de esa población.

A veces, lo que define a una población es obvio. Por ejemplo, un fabricante tiene que decidir si un lote de material de producción tiene la calidad suficiente para entregárselo al cliente o si debe desecharse o reelaborarse debido a su mala calidad. En este caso, el lote es la población.

Aunque la población de interés suele estar formada por objetos físicos, a veces es necesario muestrear en el tiempo, el espacio o alguna combinación de estas dimensiones. Por ejemplo, una investigación sobre el personal de los supermercados podría examinar la longitud de las colas en las cajas en distintos momentos, o un estudio sobre pingüinos en peligro de extinción podría tener como objetivo conocer el uso que hacen de los distintos territorios de caza a lo largo del tiempo. En cuanto a la dimensión temporal, puede centrarse en periodos u ocasiones concretas.

En otros casos, la "población" examinada puede ser incluso menos tangible. Por ejemplo, Joseph Jagger estudió el comportamiento de las ruletas de un casino de Montecarlo y lo utilizó para identificar una rueda sesgada. En este caso, la "población" que Jagger quería investigar era el comportamiento global de la ruleta (es decir, la distribución de probabilidad de sus resultados a lo largo de infinitas pruebas), mientras que su "muestra" estaba formada por los resultados observados de esa ruleta. Consideraciones similares surgen cuando se toman medidas repetidas de alguna característica física, como la conductividad eléctrica del cobre.

Esta situación se plantea a menudo cuando se busca conocimiento sobre el sistema de causas del que la población observada es un resultado. En tales casos, la teoría del muestreo puede tratar a la población observada como una muestra de una "superpoblación" mayor. Por ejemplo, un investigador podría estudiar la tasa de éxito de un nuevo programa para dejar de fumar en un grupo de prueba de 100 pacientes, con el fin de predecir los efectos del programa si se pusiera en | marcha en todo el país. En este caso, la superpoblación es "todo el mundo en el país, con acceso a este tratamiento", un grupo que aún no existe, ya que el programa todavía no está disponible para todos.

La población de la que se extrae la muestra puede no coincidir con la población de la que se desea obtener información. A menudo existe un solapamiento amplio pero no completo entre estos dos grupos debido a cuestiones de marco, etc. (véase más adelante). A veces pueden estar completamente separados: por ejemplo, se pueden estudiar ratas para comprender mejor la salud humana, o se pueden estudiar registros de personas nacidas en 2008 para hacer predicciones sobre las personas nacidas en 2009.

El tiempo invertido en precisar la población muestreada y la población objeto de estudio suele estar bien empleado, ya que plantea muchas cuestiones, ambigüedades y preguntas que, de otro modo, se habrían pasado por alto en esta fase.

Marco de muestreo

editar

En el caso más sencillo, como el muestreo de un lote de material de producción (muestreo de aceptación por lotes), lo más deseable sería identificar y medir cada uno de los elementos de la población e incluir cualquiera de ellos en nuestra muestra. Sin embargo, en el caso más general esto no suele ser posible ni práctico. No hay forma de identificar a todas las ratas en el conjunto de todas las ratas. Cuando el voto no es obligatorio, no hay forma de identificar qué personas votarán en unas próximas elecciones (antes de las elecciones). Estas poblaciones imprecisas no son susceptibles de muestreo de ninguna de las formas que se indican a continuación y a las que podríamos aplicar la teoría estadística.

Como remedio, buscamos un marco de muestreo que tenga la propiedad de que podamos identificar cada elemento e incluirlo en nuestra muestra.[3][4][5][6]​ El tipo de marco más sencillo es una lista de elementos de la población (preferiblemente toda la población) con la información de contacto adecuada. Por ejemplo, en una encuesta de opinión, los posibles marcos de muestreo incluyen un censo electoral y una guía telefónica.

Una muestra probabilística es una muestra en la que cada unidad de la población tiene una probabilidad (mayor que cero) de ser seleccionada en la muestra, y esta probabilidad puede determinarse con precisión. La combinación de estos rasgos permite producir estimaciones no sesgadas de los totales de la población, ponderando las unidades muestreadas según su probabilidad de selección.

Ejemplo: Queremos estimar los ingresos totales de los adultos que viven en una calle determinada. Visitamos cada hogar de esa calle, identificamos a todos los adultos que viven en él y seleccionamos al azar un adulto de cada hogar. (Por ejemplo, podemos asignar a cada persona un número aleatorio, generado a partir de una distribución uniforme entre 0 y 1, y seleccionar a la persona con el número más alto de cada hogar). A continuación, entrevistamos a la persona seleccionada y averiguamos sus ingresos.

Las personas que viven solas son seleccionadas con toda seguridad, por lo que simplemente añadimos sus ingresos a nuestra estimación del total. Pero una persona que vive en un hogar de dos adultos sólo tiene una posibilidad entre dos de ser seleccionada. Para reflejar este hecho, cuando lleguemos a un hogar de este tipo, contaremos los ingresos de la persona seleccionada dos veces para el total. (La persona seleccionada de ese hogar puede considerarse que también representa a la persona no seleccionada.)

En el ejemplo anterior, no todo el mundo tiene la misma probabilidad de selección; lo que la convierte en una muestra probabilística es el hecho de que se conoce la probabilidad de cada persona. Cuando cada elemento de la población tiene la misma probabilidad de selección, esto se conoce como un diseño de igual probabilidad de selección (EPS). Este tipo de diseño también se denomina "autoponderación", ya que todas las unidades de la muestra tienen el mismo peso.

El muestreo probabilístico incluye: Muestreo aleatorio simple, Muestreo sistemático, Muestreo estratificado, Muestreo probabilístico proporcional al tamaño y Muestreo por conglomerados o Muestreo polietápico. Estas diversas formas de muestreo probabilístico tienen dos cosas en común:

  1. Cada elemento tiene una probabilidad conocida distinta de cero de ser muestreado e
  2. implica una selección aleatoria en algún momento.

El muestreo aleatorio incorpora el azar como recurso en el proceso de selección. Cuando este último cumple con la condición de que todos los elementos de la población tienen alguna oportunidad de ser escogidos en la muestra, si la probabilidad correspondiente a cada sujeto de la población es conocida de antemano, recibe el nombre de muestreo probabilístico. Una muestra seleccionada por muestreo de juicio puede basarse en la experiencia de alguien con la población. Algunas veces una muestra de juicio se usa como guía o muestra tentativa para decidir cómo tomar una muestra aleatoria más adelante.[7][8]

Cada observación mide una o más propiedades (como peso, ubicación, color o masa) de objetos o individuos independientes. En el mue«streo de encuestas», se pueden aplicar ponderaciones a los datos para ajustar el diseño de la muestra, particularmente en el muestreo estratificado.[9]​ Los resultados de la teoría de la probabilidad y la teoría estadística se emplean para guiar la práctica. En la investigación comercial y médica, el muestreo se usa ampliamente para recopilar información sobre una población.[10]​ El muestreo de aceptación se utiliza para determinar si un lote de producción de material cumple con las especificaciones vigentes.

Muestreo aleatorio simple

editar

Forman parte de este tipo de muestreo todos aquellos métodos para los que se puede calcular la probabilidad de extracción de cualquiera de las muestras posibles. Este conjunto de técnicas de muestreo es el más aconsejable, aunque en ocasiones no es posible optar por él.

  • Sin reposición de los elementos: Cada elemento extraído se descarta para la subsiguiente extracción. Por ejemplo, si se extrae una muestra de una "población" de bombillas para estimar la vida media de las bombillas que la integran, no será posible medir más que una vez la bombilla seleccionada.
  • Con reposición de los elementos: Las observaciones se realizan con reemplazo de los individuos, de forma que la población es idéntica en todas las extracciones. En poblaciones muy grandes, la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse con reposición aunque, realmente, no lo sea.
  • Con reposición múltiple: En poblaciones muy grandes, la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse con reposición.

Para realizar este tipo de muestreo, y en determinadas situaciones, es muy útil la extracción de números aleatorios mediante ordenadores, calculadoras o tablas construidas al efecto.

Muestreo sistemático

editar

Se utiliza cuando el universo o población es de gran tamaño, o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, denominada coeficiente de elevación:

                                                 K= N/n,

donde N es el tamaño de la población y n el tamaño de la muestra.

Para determinar en qué fecha se producirá la primera extracción hay que elegir al azar un número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno.

Esto quiere decir que si tenemos un determinado número de personas que es la población (N) y queremos escoger de esa población un número más pequeño el cual es la muestra (n), dividimos el número de la población por el número de la muestra que queremos tomar y el resultado de esta operación será el intervalo, entonces escogemos un número al azar desde uno hasta el número del intervalo, y a partir de este número escogemos los demás siguiendo el orden.

Muestreo estratificado

editar

Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos con respecto a alguna característica de las que se van a estudiar. A cada uno de estos estratos se le asignaría una cuota que determinaría el número de miembros del mismo que compondrán la muestra. Dentro de cada estrato se suele usar la técnica de muestreo sistemático, una de las técnicas de selección más usadas en la práctica.

Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de muestreo estratificado:

  • Asignación proporcional: el tamaño de la muestra dentro de cada estrato es proporcional al tamaño del estrato dentro de la población.
  • Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. Para ello es necesario un conocimiento previo de la población.

Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que, dentro de cada uno de estos grupos, puede haber cierta homogeneidad. En la asignación proporcional, si la población está compuesta de un 55% de mujeres y un 45 % de hombres, se tomaría una muestra que contenga también esos mismos porcentajes de hombres y mujeres. En la asignación óptima, si todos los hombres piensan igual, pero las mujeres son impredecibles, se tomaría una muestra con más del 55% de mujeres.

Para una descripción general del muestreo estratificado y los métodos de inferencia asociados con este procedimiento, suponemos que la población está dividida en h subpoblaciones o estratos de tamaños conocidos N1, N2,..., Nh tal que las unidades en cada estrato sean homogéneas respecto a la característica en cuestión. La media y la varianza desconocidas para el i-ésimo estrato son denotadas por mi y si2, respectivamente.

Muestreo por etapas múltiples

editar

Esta técnica es la única opción cuando no se dispone de lista completa de la población de referencia o bien cuando por medio de la técnica de muestreo simple o estratificado se obtiene una muestra con unidades distribuidas de tal forma que resultan de difícil acceso. En el muestreo a estudios múltiples, se subdivide la población en varios niveles ordenados que se extraen sucesivamente por medio de un procedimiento de embudo. El muestreo se desarrolla en varias fases o extracciones sucesivas para cada nivel.

Por ejemplo, si es necesario construir una muestra de profesores de primaria en un país determinado, estos pueden subdividirse en unidades primarias representadas por circunscripciones didácticas y unidades secundarias que serían los propios profesores. En primer lugar extraemos una muestra de las unidades primarias (para lo cual debemos tener la lista completa de estas unidades) y en segundo lugar extraemos aleatoriamente una muestra de unidades secundarias de cada una de las primarias seleccionadas en la primera extracción.

Muestreo por conglomerados

editar

Se utiliza cuando la población se encuentra dividida, de manera natural, en grupos que se supone que contienen toda la variabilidad de la población, es decir, la representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio.

Dentro de los grupos seleccionados se ubicarán las unidades elementales, por ejemplo, las personas a encuestar, y podría aplicársele el instrumento de medición a todas las unidades, es decir, los miembros del grupo, o sólo se le podría aplicar a algunos de ellos, seleccionados al azar. Este método tiene la ventaja de simplificar la recolección de información muestral.

Cuando, dentro de cada conglomerado seleccionado, se extraen algunos individuos para integrar la muestra, el diseño se llama muestreo bietápico.

Las ideas de estratos y conglomerados son, en cierto sentido, opuestas. El primer método funciona mejor cuanto más homogénea es la población respecto del estrato, aunque más diferentes son estos entre sí. En el segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben ser muy parecidos entre sí.

Homogeneidad de las poblaciones o sus subgrupos

editar

Homogéneo significa, en el contexto de la estratificación, que no hay mucha variabilidad. Los estratos funcionan mejor cuanto más homogéneos son cada uno de ellos respecto a la característica a medir. Por ejemplo, si se estudia la estatura de una población, es bueno distinguir entre los estratos mujeres y hombres porque se espera que, dentro de ellos, haya menos variabilidad, es decir, sean menos heterogéneos. Dicho de otro modo, no hay tantas diferencias entre unas estaturas y otras dentro del estrato que en la población total.

Por el contrario, la heterogeneidad hace inútil la división en estratos. Si se dan las mismas diferencias dentro del estrato que en toda la población, no hay por qué usar este método de muestreo. En los casos en los que existan grupos que contengan toda la variabilidad de la población, lo que se construyen son conglomerados, que ahorran algo del trabajo que supondría analizar toda la población. En resumen, los estratos y los conglomerados funcionan bajo principios opuestos: los primeros son mejores cuanto más homogéneo es el grupo respecto a la característica a estudiar y los conglomerados, si representan fielmente a la población, esto es, contienen toda su variabilidad, o sea, son heterogéneos.

El espacio muestral es: Conjunto formado por todos los resultados posibles de un experimento aleatorio. Ejemplo: Al lanzar un dado no cargado el espacio muestral del dado sería: 1-2-3-4-5-6.

Muestreo no probabilístico

editar

Es aquel para el que no se puede calcular la probabilidad de extracción de una determinada muestra ya que no todos los sujetos tienen la misma probabilidad de ser elegidos. Por tal motivo, se busca seleccionar a individuos que tienen un conocimiento profundo del tema bajo estudio y se considera que la información aportada por esas personas es vital para la toma de decisiones.

Muestreo por cuotas

editar

Es la técnica más difundida sobre todo en estudios de mercado y sondeos de opinión. En primer lugar es necesario dividir la población de referencia en varios estratos definidos por algunas variables de distribución conocida (como el género o la edad). Posteriormente se calcula el peso proporcional de cada estrato, es decir, la parte proporcional de población que representan. Finalmente se multiplica cada peso por el tamaño de n de la muestra para determinar la cuota precisa en cada estrato. Se diferencia del muestreo estratificado en que una vez determinada la cuota, el investigador es libre de elegir a los sujetos de la muestra dentro de cada estrato.

Muestreo de bola de nieve

editar

Indicado para estudios de poblaciones clandestinas, minoritarias o muy dispersas pero en contacto entre sí. Consiste en identificar sujetos que se incluirán en la muestra a partir de los propios entrevistados. Partiendo de una pequeña cantidad de individuos que cumplen los requisitos necesarios, servirán como localizadores de otros con características análogas.

Muestreo subjetivo por decisión razonada

editar

En este caso las unidades de la muestra se eligen en función de algunas de sus características de manera racional y no casual. Una variante de esta técnica es el muestreo compensado o muestreo equilibrado, en el que se seleccionan las unidades de tal forma que la media de la muestra para determinadas variables se acerque a la media de la población, la cual funciona sobre la base de referencias o por recomendación, después se reconoce por medio de la estadística.

Véase también

editar

Referencias

editar
  1. Muestreo (publicado por la ((Universidad de Sonora))
  2. Salant, Priscilla, I. Dillman, and A. Don. How to conduct your own survey. No. 300.723 S3.. 1994.
  3. Robert M. Groves (2009). Metodología de encuestas. ISBN 978-0470465462. 
  4. Lohr, Sharon L.. Muestreo: Diseño y análisis. 
  5. Särndal, Carl-Erik; Swensson, Bengt; Wretman, Jan. Muestreo de encuestas asistido por modelos. 
  6. Scheaffer, Richard L.; William Mendenhal; R. Lyman Ott. (2006). Muestreo elemental de encuestas. 
  7. Martínez Bencardino, Ciro (2012). Estadística y muestreo. Bogotá: Ecoe. 
  8. Cochran, William G. (1980). Técnicas de muestreo. México: CECSA. 
  9. Lance, P.; Hattori, A. (2016). Sampling and Evaluation. Web: MEASURE Evaluation. pp. 6-8, 62-64. 
  10. Salant, Priscilla, I. Dillman, and A. Don. How to conduct your own survey. No. 300.723 S3. 1994.

Bibliografía

editar
  • Singh, G N, Jaiswal, A. K., and Pandey A. K. (2021), Improved Imputation Methods for Missing Data in Two-Occasion Successive Sampling, Communications in Statistics: Theory and Methods. DOI:10.1080/03610926.2021.1944211
  • Chambers, R L, and Skinner, C J (editors) (2003), Analysis of Survey Data, Wiley, ISBN 0-471-89987-9
  • Deming, W. Edwards (1975) On probability as a basis for action, The American Statistician, 29(4), pp. 146–152.
  • Gy, P (2012) Sampling of Heterogeneous and Dynamic Material Systems: Theories of Heterogeneity, Sampling and Homogenizing, Elsevier Science, ISBN 978-0444556066
  • Korn, E.L., and Graubard, B.I. (1999) Analysis of Health Surveys, Wiley, ISBN 0-471-13773-1
  • Lucas, Samuel R. (2012). doi 10.1007%2Fs11135-012-9775-3 "Beyond the Existence Proof: Ontological Conditions, Epistemological Implications, and In-Depth Interview Research."], Quality & Quantity, doi 10.1007/s11135-012-9775-3.
  • Stuart, Alan (1962) Basic Ideas of Scientific Sampling, Hafner Publishing Company, New York
  • Smith, T. M. F. (1984). «Present Position and Potential Developments: Some Personal Views: Sample surveys». Journal of the Royal Statistical Society, Series A 147 (The 150th Anniversary of the Royal Statistical Society, number 2): 208-221. JSTOR 2981677. doi:10.2307/2981677. 
  • Smith, T. M. F. (1993). «Populations and Selection: Limitations of Statistics (Presidential address)». Journal of the Royal Statistical Society, Series A 156 (2): 144-166. JSTOR 2982726. doi:10.2307/2982726.  (Portrait of T. M. F. Smith on page 144)
  • Smith, T. M. F. (2001). «Centenary: Sample surveys». Biometrika 88 (1): 167-243. doi:10.1093/biomet/88.1.167. 
  • Smith, T. M. F. (2001). «Biometrika centenary: Sample surveys». En D. M. Titterington and D. R. Cox, ed. Biometrika: One Hundred Years. Oxford University Press. pp. 165-194. ISBN 978-0-19-850993-6. 
  • Whittle, P. (May 1954). «Optimum preventative sampling». Journal of the Operations Research Society of America 2 (2): 197-203. JSTOR 166605. doi:10.1287/opre.2.2.197.