Big data e a estimação para uma população de interesse
Daí que você tem uma população que deseja investigar: essa população é bem definida no tempo e no espaço geográfico, e pode-se supor que seja uma população finita. Um exemplo (abstrato):
- Consumidores do produto “A” na cidade do Rio de Janeiro em agosto de 2020.
Para essa população de interesse você deseja quantificar algumas medidas desconhecidas — ou seja, deseja fazer algumas estimações de parâmetros populacionais (ver artigo sobre mensuração e o artigo sobre margem de erro para definição de estimativas e parâmetros).
Além disso, pode-se ter a necessidade de verificar algumas desconfianças sobre essa população — ou seja, verificar algumas hipóteses, tipo:
- Mulheres consumiram o produto “A” três vezes (3×) mais do que homens;
- No entanto, homens jovens (até 20 anos) têm duas vezes (2×) mais chances de consumir o produto A do que mulheres jovens.
Daí que não há possibilidades de se investigar a população como um todo — ou devido a restrições de tempo ou financeiras.
Estrategicamente você opta por levantar os dados via web scraping — por exemplo, ou do website da empresa produtora do produto “A”, ou de uma coleção de sites … seja como for, por esse processo você forma o seu grande banco de dados, o seu big data.
Tudo que você precisa fazer agora é levar o seu big data para algum pacote estatístico e realizar suas análise, certo? Reflita…
Big Data e Dados Amostrais
Em artigos anteriores tenho levantado questões sobre dados amostrais probabilísticos e não-probabilísticos, mensurações e erros.
Dados amostrais probabilísticos
São aqueles cujo mecanismo de seleção é conhecido e determinado por um esquema amostral, partindo da listagem dos elementos da população de interesse e associando uma probabilidade de seleção para cada unidade populacional listada.
A inferência com base no desenho (design based) realizada a partir de dados amostrais para uma população finita tem como base essa capacidade de se associar a cada unidade da população uma probabilidade de seleção positiva (> 0).
Dado não-probabilístico
É aquele cujo mecanismo de seleção não é conhecido — ou, simplesmente, não é possível estabelecer uma probabilidade de seleção positiva para todas as unidades da população. Algumas unidades possuem chance nula de serem selecionadas para a amostra. Não garantindo assim, propriedades essenciais dos estimadores como a falta de viés.
O big data, por definição, é um dado não probabilístico.
Big data
O mecanismo de seleção para o big data é desconhecido.
Para o exemplo criado acima: pode-se garantir que toda a população de interesse visitou o site usado no web scraping?
Os sujeitos que visitam a página são então vistos como voluntários — e é justamente aí que mora o problema!
A pergunta que segue é: posso ignorar que o meu big data é, na verdade, uma amostra de voluntários? Quais os riscos?
Viés de seleção
Quando trabalhamos com uma amostra de voluntários o principal problema está na falha de cobertura ou composição da amostra. Ou seja:
- Podemos garantir que todos respondentes são unidades da nossa população de interesse?
- Podemos garantir que todos os subgrupos e estratos da população de interesse estão representados nessa amostra?
- Os sujeitos que deixamos de captar no processo de scraping possuem diferenças importantes (e sistemáticas) daqueles que conseguimos captar?
Amostras de voluntários sofrem fortemente o impacto do viés de seleção — que é quando: respondentes, ou participantes, são sistematicamente diferentes dos não-respondentes. E, por não se ter o controle do mecanismo de seleção, não conseguimos mensurar esse impacto.
Além disso, não há o controle da cobertura da população de interesse: alguns grupos da população podem ser mais propícios a participar (ou visitar o site) do que outros, resultando numa amostra viesada. Logo:
- Vai fazer uma média? Essa média está viesada;
- Vai fazer uma proporção? Também está viesada.
O seu big data é um corte não-representativo da população de interesse — e essas diferenças não são resolvidas por (simples) ponderação.
Estimação para população finita
Você deve estar se perguntando:
O que eu devo fazer então?
Se você tem um conjunto de dados, por mais volumoso que seja, coletado de websites (ou site), reconheça que se trata de um dado não probabilístico e o trate como tal. Pode fazer generalizações para a população de interesse? Ermmm … não! (muito provavelmente) mas ainda poderá analisá-lo gerando medidas descritivas para o grupo respondente.
Caso haja recursos para se aprofundar no conhecimento em como melhor tratar esse conjunto de dados, há, na literatura estatística recente, algumas propostas de métodos e metodologias para inferência em dados não-probabilísticos (como o seu big data).
Um caminho é encarar como um problema de não resposta. Para isso, os métodos se baseiam na integração de dados, ou seja:
a ideia é pensar o big data como um cadastro incompleto da população de interesse que será integrado à um dado probabilístico, chamado de amostra de referência, dessa mesma população de interesse.
O desafio, justamente, pode estar na disponibilidade de tal amostra de referência.
Esses métodos têm como base ideias semelhantes às técnicas de calibração de dados e de modelos de escores de propensão de não resposta— propõem, então, o cálculo das probabilidades de seleção para as unidades incorporadas no big data com base nas probabilidade de seleção das unidades na amostra de referência, através de modelagem (modelos logit ou de aprendizado de máquina).
Há, também, outras metodologias com base em reamostragem (não tratadas aqui).
Sobre a bibliografia para os métodos mencionados, visitem:
- Sampling techniques for big data analysis in finite population inference
- Inference for Nonprobability Samples
- E há estudos realizados para integração de dados via aprendizado de máquina… mas ainda preciso pesquisá-los!