Amostragem Estratificada e Amostragem por Cotas
Qual a diferença?
Os dois tipos são métodos de seleção de amostras: um é um método probabilístico e ou outro não.
Métodos Probabilísticos x Não-probabilísticos
Um método de amostragem probabilístico, como dito no artigo sobre pesquisas eleitorais, é aquele onde todas as unidades na população pesquisada têm chance (positiva, conhecida) diferente de zero de serem incluídas na amostra.
Parte-se de um cadastro das unidades populacionais — ou uma listagem delas — onde as unidades são selecionadas através de sorteio aleatório. Aquelas selecionadas respondem o questionário da pesquisa — sendo necessário localizá-las para aplicar o questionário.
No caso das pesquisas eleitorais, imaginemos que fosse possível obter uma listagem de todos os eleitores de uma dada região em um dado momento — aqui definimos o nosso cadastro. Esse cadastro precisaria conter informações que permitissem localizar cada um dos eleitores que seriam selecionados de forma aleatória.
A ideia é justamente essa: uma vez que se é possível listar, ou conhecer, as unidades que fazem parte da população (tamanho N) pesquisada, é possível estabelecer a probabilidade de inclusão dessas unidades na amostra (tamanho n). No caso de uma amostra aleatória simples sem reposição, define-se:
Essas probabilidades são então consideradas na fase de estimação, após a coleta dos dados amostrais — utiliza-se técnicas de inferência estatística com base na teoria das probabilidades — através da utilização do peso amostral que é definido como o inverso da probabilidade de inclusão:
Métodos de amostragem não-probabilístico não partem do cadastro para a seleção das unidades amostrais, não sendo então possível determinar as probabilidades de inclusão de todas as unidades populacionais — algumas unidades possuem probabilidade zero de pertencer à amostra.
Estratificação
A ideia da estratificação é organizar as unidades populacionais em subgrupos homogêneos. Partindo então do cadastro, seria necessário termos informações auxiliares para que as unidades populacionais pudessem ser agrupadas.
No caso do cadastro de eleitores, imaginemos que além das informações que permitissem localizar cada eleitor, tivéssemos também informações quanto ao sexo (mulheres e homens), grupo etário (16–24, 25–34, 35–44, 45–54 e 55 e +) e grau de escolaridade (até ensino médio e ensino superior) de cada eleitor. Poderíamos formar subgrupos como:
- mulheres de 16–24 anos de idade com até o ensino médio
- mulheres de 16–24 anos de idade com ensino superior
- mulheres de 25–34 anos de idade com até o ensino médio
- mulheres de 25–34 anos de idade com ensino superior
- …
- homens de 55 e + anos de idade com ensino superior
Todos os 40 subgrupos seriam formados e os eleitores estariam agrupados neles. A esses subgrupos damos o nome de estratos. A partir do cadastro conhecemos o tamanho de cada estrato na população e selecionamos uma amostra via AAS, por exemplo, dentro de cada estrato — dessa forma, todos os subgrupos estão representados na amostra.
O tamanho da amostra que será selecionada dentro de cada estrato pode ser dimensionado por três critérios diferentes de alocação:
- igual (ou homogênea): mesmo tamanho de amostra selecionado de cada estrato sem importar o seu tamanho populacional
- proporcional: o tamanho da amostra de cada estrato é proporcional ao tamanho do estrato na população
- ótima: que além de levar em conta a proporcionalidade, leva em conta também o grau de heterogeneidade dentro de cada estrato (Sh)
No caso da população de eleitores de uma dada localidade:
- Suponha que temos uma população de 200 mil eleitores estratificada em 40 estratos definidos por sexo, grupo etário e grau de instrução:
- Suponha que uma amostra de 1111 eleitores é selecionada;
- Suponha que o estrato na população para mulheres de 16–24 anos de idade com até o ensino médio tem um total de 8.184 mulheres;
- Suponha que seja utilizada a alocação proporcional: logo, selecionaríamos para a amostra, 45 mulheres de 16–24 anos e com até o ensino médio.
- Cada mulher destas tem probabilidade de inclusão definida como o inverso do peso amostral, dado por:
- Cada mulher destas tem um peso amostral igual a 181,86 — intuitivamente, o peso amostral diz que cada mulher selecionada nesse estrato representa outras 182 (aproximadamente) com as mesmas características — e a probabilidade de inclusão dada por 0,005.
- Vale dizer que se a Maria tem 22 anos de idade e possui o ensino médio completo e foi selecionada para ser entrevistada, é a Maria que iremos localizar, a partir de suas informações disponíveis no cadastro, e coletar seus dados!
Cotas (ou quotas)
Já a ideia da amostragem por cotas é que conhecemos a população de pesquisa e algumas características dela. No entanto, o cadastro com as unidades da população de pesquisa não se encontra disponível.
As características conhecidas permitem estabelecer cotas — ou quantidade de entrevistas — por, por exemplo, sexo, idade e grau de instrução. O entrevistador é designado a uma certa quantidade de entrevistas para realizar dadas as características do entrevistado.
Normalmente, em associação à amostragem por cotas, os institutos de pesquisa utilizam também a amostragem por julgamento, onde os entrevistadores decidem qual indivíduo entrevistar com base nessas cotas e, as vezes com base em algumas perguntas de elegibilidade incluídas nos questionários.
Normalmente também, utiliza-se amostragem por ponto de fluxo — que são pontos específicos na localidade onde os entrevistadores são lançados e abordam as pessoas que passam por ali para entrevistar. Portanto, não se utiliza sorteio aleatório das unidades.
No caso da população de eleitores, imaginemos que apenas temos as seguintes informações:
- Sabe-se que as mulheres e os homens estão assim distribuídos por grupos etários
e assim por grau de instrução
- Suponha que não há acesso ao cadastro de eleitores e, por isso, não se pode organizar os 200 mil eleitores nos 40 estratos;
- Suponha que uma amostra de 1111 eleitores é para ser selecionada;
- Cada entrevistador terá uma cota específica de quantidade de mulheres e homens, por grupos etários e grau de instrução para bater e escolherão os indivíduos por abordagem em pontos de fluxo para responder o questionário;
- Vale dizer que se a Maria tem 22 anos de idade e possui o ensino médio completo mas não passa por nenhum dos entrevistadores para ser entrevistada, ela tem chance zero de ser entrevistada e por isso probabilidade de inclusão igual a zero;
- Dessa forma, não temos como quantificar a probabilidade de inclusão de toda e qualquer unidade da população. Logo, não temos como calcular os pesos amostrais de cada uma dessas unidades.
A diferença…
Parece sutil!
No entanto, a inviabilidade de se calcular as probabilidades de inclusão na amostragem por cota inviabiliza, por exemplo, a estimação dos percentuais de votos num determinado candidato sem viés, ou seja, sem tendência.
Na teoria da amostragem, é necessário considerar o peso amostral (expresso como o inverso das probabilidade de inclusão) para se ter estimativas sem tendência. Margem de erro e intervalos de confiança são calculados com base na distribuição (assintótica) das estimativas não viciadas e os esquemas de seleção de amostras não-probabilísticos não permitem o cálculo destes.