terça-feira, 20 de abril de 2010

Pesquisas amostrais e grandes coincidências

Recentemente surgiram algumas suspeitas sobre a aleatoriedade dos municípios nas pesquisas eleitorais. Eu não conheço os detalhes de amostras e sorteios eleitorais (a modelagem estatística pode ser bem complicada), mas resolvi dar uma olhada nos dados que temos à disposição no site do TSE. Basta ir à página de acompanhamento de pesquisas eleitorais do TSE e escolher a pesquisa pelo número de protocolo ou então escolher através da lista. No meu caso, eu escolhi as duas últimas pesquisas do Datafolha, do Sensus e do Vox Populi (os detalhes estão no final do post, não consegui colocar links diretamente para as pesquisas).

Não se pode criticar as pesquisas por sortearem cidades pequenas - é como querer "provar" que ninguém pode ganhar na loteria dizendo que as chances são pequenas demais. Mas faz mais sentido questionar quando a mesma pessoa ganha mais de uma vez na loteria. Ou seja, minha idéia era ver a distribuição de cidades que foram amostradas em ambas as pesquisas (para o mesmo instituto, que fique claro). E para isso fui atrás da contagem populacional de 2007 do IBGE por unidade federativa (arquivo zip). Já aviso que talvez os institutos de pesquisa tenham usado os dados de 2000 (ou alguma outra base de dados), assim a comparação pode não ser muito justa - mas ao mesmo tempo não espero grandes diferenças.

É natural que cidades maiores, as capitais por exemplo, sejam amostradas sempre. Assim não causa espanto o resultado do Datafolha: das 168 cidades amostradas na pesquisa de março e das 144 sorteadas em abril, 33 cidades eram as mesmas (além de várias capitais, temos Ribeirão Preto, Santo André, Joinville, Feira de Santana, etc.). O gráfico abaixo mostra as cidades reamostradas como barrinhas verticais vermelhas, onde a curva é a distribuição populacional das 5564 cidades segundo o IBGE (clique para ampliar):




Ou seja, todas as cidades que participaram de ambas as pesquisas são cidades grandes, com mais de 100 mil habitantes. Note que no gráfico eu arranjei as cidades das maiores para as menores. Já nas pesquisas Vox Populi, das 122 cidades sorteadas em janeiro e das 117 sorteadas em abril, 112 foram as mesmas. E observando apenas essas 112 que foram usadas em ambas as pesquisas, vemos que surgem algumas raridades:



Há 15 cidades com menos de 10 mil habitantes, entre elas: Araguanã (TO) com 5000 habs, União do Sul (MT) com 3998, Ipiguá (SP) com 3925, Tibau (RN) com 3750, Castelândia  (GO) com 3530, Paranapoema (PR) com 2656, Antônio Prado de Minas (MG) com 1962 e Santa Cecília do Sul (RS) com 1716 habitantes, segundo o IBGE de 2007. Mais estranho ainda é o caso do Sensus, onde as 136 cidades sorteadas em janeiro foram também "sorteadas" em abril. Vejam os tamanhos das cidades:



Nesse caso também há 15 cidades com menos de 10 mil habitantes, e as menores são: Rio Manso (MG) com 5007 habitantes, Cacique Doble (RS) com 4824, Serranópolis do Iguaçu (PR) com 4327, Chiador (MG) com 2893, São João da Mata (MG) com 2858, Dois Irmãos das Missões (RS) com 2362 e Palmelo (GO) com 2260 habitantes.

Obviamente devem haver explicações razoáveis para as aparentes coincidências fantásticas: o instituto pode ter enviado os dados equivocados para o TSE (ou o erro foi do TSE ao publicar), o instituto pode ter decidido não fazer amostra probabilística na segunda pesquisa, particularidades dos recortes populacionais distorcerem a representatividade, os dados usados pelos institutos diferirem do IBGE 2007 (que em alguns casos é apenas uma estimativa), e a isso some-se algum eventual erro meu. Para evitar esse último deixo os dados primários, os dados formatados e os scripts usados para criar os gráficos acessíveis na minha página do STOA. Você não precisa confiar em mim, os dados estão aí. Ah, sim, quem me dera os institutos usassem os códigos de municípios do IBGE, e esses códigos fossem únicos de fato...

Detalhes relevantes para cada par de pesquisas (as metodologias descritas na página do TSE eram as mesmas para ambas as pesquisas):
protocolos 8383/2010 de 12/04/2010 e 6617/2010 de 22/03/2010:
Contratada: BANCO DE DADOS DE SÃO PAULO LTDA (Datafolha)
Contratante: Empresa Folha da Manhã S/A.
Metodologia de Pesquisa: Pesquisa do tipo quantitativo, por amostragem, com aplicação de questionário estruturado e abordagem pessoal em pontos de fluxo populacional. O conjunto da população brasileira com 16 anos ou mais foi tomado como universo da pesquisa.
protocolos 7594/2010 de 05/04/2010 e 1570/2010 de 26/01/2010:
Contratada: SENSUS DATA WORLD PESQUISA E CONSULTORIA S/C LTDA (Sensus)
Contratante p/ 7594/2010: Sindicato dos Trabalhadores nas Indústrias da Construção Pesada e Afins do Estado de São Paulo
Contratante p/ 1570/2010: CNT - Confederação Nacional dos Transportes
Metodologia de Pesquisa: 2.000 Entrevistas, ponderadas pelas 05 Regiões e para 24 Estados, com o sorteio aleatório de 136 Municípios por representatividade de grupos populacionais. Probabilística sistemática com cotas para Sexo, Idade, Escolaridade e Renda no Setor Censitário.
protocolos 7337/2010 de 29/03/2010 e 1057/2010 de 19/01/2010:
Contratada: Vox Opinião Pesquisa e Projetos Ltda (Vox Populi)
Contratante: Radio e Televisão Bandeirantes Ltda
Plano Amostral: (...) b) Tipo de amostra: A amostra é estratificada por cota, distribuída proporcional ao eleitorado de cada região (Centro Oeste, Norte, Nordeste, Sul e Sudeste). Dentro de cada região as entrevistas serão distribuídas pelos estados e a partir daí serão selecionadas amostras probabilísticas de conglomerados em três estágios: 1º estágio: seleção probabilística de municípios, através do método PPT (Probabilidade Proporcional ao Tamanho), tomando como base o número de eleitores de cada município;
Para algumas pesquisas a lista de municípios estava em formato excel, para outras estava na própria página do TSE e para outras em formato PDF (mais difícil de extrair). Em todos os casos eu usei scripts para achar os municípios comuns (conferindo o nome do município e o Estado), e associando cada município à tabela do IBGE.

Nenhum comentário:

Postar um comentário

Eu costumo aceitar todos os comentários que não sejam ofensivos ou SPAM. Mas antes, leia a política de comentário do blog. Aceite, do fundo do seu coração, que seu comentário poderá ser rejeitado.

Por favor, não inclua nem mesmo na sua assinatura links comerciais ou que não sejam relacionados ao post - o comentário será rejeitado e entrará na fila de SPAM.

LinkWithin

Related Posts with Thumbnails