StatPop - Popularização da Estatística: Pesquisas eleitorais

www.dme.ufrj.br/dani/pdf/comotomardecisoes.pdf

Um questionamento frequentemente feito por leigos é sobre a veracidade de pesquisas eleitorais. Como é que uma diminuta amostra de 2.000 pessoas consegue representar um universo de mais de 140 milhões de eleitores com alguma precisão? A princípio, devo dizer que considero compreensível a dúvida. Afinal, 2.000 é menos que 0,001% da população, ou seja uma fração infinitamente baixa.

A chave para entender como isso é possível é aceitar a força da probabilidade. Este blog já mostrou exemplos dessa força em situações como determinar a melhor idade para casar ou as chances de 2 pessoas fazerem aniversário no mesmo dia. O mesmo acontece aqui. A partir de hipóteses relativamente simples, é possível fazer cálculos que mostram a adequação de amostras tão diminutas.

Para exemplificar esse ponto, vamos supor um universo de 100 milhões de eleitores e que 30% deles tem intenção de votar na candidata A em uma eleição futura. Na prática, a única forma de ter certeza sobre essa proporção de votos em A seria perguntar a cada um dos 100 milhões de eleitores. Essa tarefa seria extremamente custosa e demorada. A alternativa encontrada é de perguntar a um grupo menor de pessoas, digamos 2.000 delas. Essa tarefa é bem mais rápida e barata. Como temos 30 milhões de pessoas que pretendem votar na candidata A, é possível que essas 2.000 pessoas todas votem na candidata A como também é possível que nenhuma delas vote na candidata A. Mas se escolhermos bem essas pessoas, é possível que 600 escolha a candidata A. Esse seria o cenário ideal pois teríamos na amostra a mesma proporção de eleitores que existe na população (30% delas).

Assim, vemos que podemos observar na amostra todos os números de eleitores entre 0, 1, 2, .... , 2000. Quais são as chances de observar qualquer número, digamos 560 eleitores na amostra? Para responder essa pergunta, precisaremos de hipóteses adicionais. As hipóteses mais simples são:

todos os eleitores tem a mesma chance de serem selecionados;
os eleitores constituem uma população homogênea.

A primeira hipótese é mais razoável e fácil de ser controlada. A segunda é mais questionável se considerarmos um país com as enormes diferenças sócio-econômicas. Efetivamente, as pesquisas que vem sendo realizadas não a utilizam e procuram cobrir diferentes padrões de sexo, idade e nível sócio-econômico. Mas para facilitar a apresentação a seguir, vamos supor que a segunda hipótese seja válida. A estratificação da amostra apenas complicaria as contas mas não alteraria significativamente a magnitude dos resultados. Essa discussão ficará para a postagem da próxima semana.

As hipóteses acima implicam que as chances de encontrar exatamente 560 eleitores na amostra são de 0,3%. Mais interessante é o cálculo das chances de encontrar entre 560 e 640 eleitores, isto é da proporção de eleitores da candidata A na amostra estar entre 28% e 32%. Essa probabilidade é 95%. Ou seja, se você aceita as hipóteses acima, você não tem outra opção: tem que aceitar que a proporção na amostra estará distante da proporção verdadeira menos de 2 pontos percentuais com 95% de probabilidade. Essa conta é feita usando a distribuição de probabilidade hipergeométrica, que é a decorrência científica das hipóteses feitas. E os comandos no R necessários para obter esse resultado são

A=30000000
B=70000000
n=2000
phyper(640,A,B,n)-phyper(560,A,B,n)

A probabilidade acima é relativamente estável para mudanças. Por exemplo, se o tamanho da população for diminuído para 100.000 eleitores e forem mantidas a proporção de 30% para a candidata A e o tamanho da amostra com 2000 eleitores, a probabilidade continuaria 95%. Em um outro exemplo, se mudamos a proporção de eleitores da candidata A na população para 40% ou para 60%, a probabilidade da proporção amostral distar menos de 2 pontos percentuais muda para 93,2%. Essas contas formam a base para as margens de erro usadas nas pesquisas eleitorais que são constantemente divulgadas em vésperas de eleição.

Claro que as contas se tornam mais complexas no caso real. Em primeiro lugar, os eleitores do Brasil não constituem uma população homogênea. Os bons institutos de pesquisa de opinião sabem disso e procuram respeitar as diversidades através de estratos de forma a aumentar as chances da amostra conter as diferentes facetas da sociedade na proporção adequada. As contas se tornam mais complexas e a distribuição hipergeométrica deixa de ser apropriada. Aproximações são inevitavelmente feitas mas os resultados numéricos não são muito alterados.

Outro ponto que tem sido pouco discutido é o significado de ter intenção de votar em um candidato. Esse tipo de manifestação individual é impossível de ser atestada mesmo com questionários bem feitos e bem aplicados. E mesmo que ela pudesse ser aferida sem erro, ela é similar mas não é idêntica à real opção feita na urna. Além disso, existem as inevitáveis mudanças de opinião já aludidas em postagem anterior sobre o assunto.

De qualquer forma, é possível tranquilizar a sociedade quanto à aplicabilidade dos métodos de amostragem ao cenário eleitoral. Mesmo com uma amostra tão inferior à população é possível extrair informação útil e segura. Quem nos garante isso é a probabilidade. O único cuidado a ser tomado é o de aplicar corretamente as fórmulas e cuidar para que as hipóteses sejam apropriadas.

StatPop - Popularização da Estatística

terça-feira, 30 de setembro de 2014

Pesquisas eleitorais - parte III

Nenhum comentário:

Postar um comentário