[ABE-L] Cotas, quotas,...

Pedro Luis do Nascimento Silva pedronsilva em gmail.com
Dom Out 26 09:58:25 -03 2014


Colegas,

Duas questões técnicas para o caso das amostras praticadas pelo IBOPE.

1. Como fazem com as cotas? Se elas têm que ser aplicadas em cada setor,
como funciona sua aplicação na prática. Imaginem um setor onde moram
predominantemente pessoas de renda mais elevada. A cota preconizada diz que
tem que ser entrevistados 84% dos homens com 'até ensino médio'. Será que
seriam encontrados num setor assim? Quantos homens teriam que ser abordados
até encontrar todos os da cota preconizada?  Já se as cotas serão
verificadas na amostra inteira, que algoritmo é usado para distribuí-las
nos setores? Sem saber tais coisas, fica impossível entender como os dados
podem/devem ser ponderados.

2. Como são ponderados os dados coletados? Eu já vi uma destas amostras
(não era de pesquisa eleitoral) que usam a descrição genérica como a da
pesquisa do IBOPE ser ponderada ignorando completamente as etapas de
estratificação e de seleção de municípios e setores censitários. Ora, se a
amostra é probabilística por cotas (APC, como o Neale denomina), então é
essencial que as etapas de sorteio probabilístico sejam respeitadas.
Fazendo a hipótese de que todos os entrevistados num setor selecionado
teriam a mesma probabilidade de inclusão na amostra, uma ponderação
possível para esta amostra seria usar os pesos amostrais clássicos da
amostragem probabilística. Um exercício como este feito numa pesquisa
domiciliar (não eleitoral) alguns anos atrás demonstrou que havia
diferenças (viés?) importantes nas estimativas obtidas considerando a
ponderação por cotas que ignorava completamente a estrutura do planejamento
amostral.

Notem que o objetivo desta nota não é desqualificar o método de APC, mas
apenas de chamar a atenção para dificuldades que parecem existir nos
métodos aplicados pelos institutos de pesquisa que fazem pesquisas
eleitorais.

Seria imensamente interessante poder realizar análises das amostras do
IBOPE e DATAFOLHA usando outros métodos de ponderação, mas infelizmente, os
microdados destas pesquisas não são tornados públicos, e as descrições que
são publicadas da metodologia são tão incompletas que não permitem nem aos
especialistas entender o que é feito. Assim fica difícil tentar avançar o
conhecimento...

Saudações dominicais, e que os votos de todos nos tragam bons ventos...

Pedro.

Em 26 de outubro de 2014 09:19, Raphael Nishimura <
raphael_nishimura em yahoo.com.br> escreveu:

> Neale,
>
> Segue o link da entrevista com a Márcia Cavallari: https://www.youtube.
> com/watch?v=ox6Fm7bEXVk
>
> O problema, Neale, é que, como discutimos anteriormente aqui e em outros
> e-mails, aparentemente nenhum dos institutos realizam amostragem por cotas
> rigorosamente como você descreveu, em que o entrevistador percorre um
> trajeto bem definido no setor censitário a partir de um ponto inicial
> aleatório. Em geral, o entrevistador tem a liberdade de realizar as
> entrevistas da forma como quiser no setor, desde que obedeça as cotas. Eu
> até acho a amostragem por cotas como descrita por você uma alternativa
> interessante, mas me parece que nenhum instituto a utiliza por demandar bem
> mais tempo e esforço para realizar a pesquisa, comparado com a forma como é
> feita atualmente.
>
> Um abraço,
> Raphael
>
>
>   Em Domingo, 26 de Outubro de 2014 6:44, Neale El-Dash <
> neale.eldash em gmail.com> escreveu:
>
>
> Alguem tem o link da entrevista da Márcia Cavallari?
>
> Chequei no site do TSE. A descricao metodologica da ultima pesquisa
> publicada pelo IBOPE e'  de APC, e nao de AC. Vejam:
>
>
> http://pesqele.tse.jus.br/pesqele/publico/pesquisa/Pesquisa/visualizacaoPublica.action?id=29228
>
> Representativa do eleitorado da área em estudo, elaborada em três
> estágios. No primeiro estágio faz-se um sorteio probabilístico dos
> municípios, onde as entrevistas serão realizadas, pelo método PPT
> (Probabilidade Proporcional ao Tamanho), tomando o eleitorado como base
> para tal seleção. No segundo estágio faz-se um sorteio probabilístico dos
> setores censitários, onde as entrevistas serão realizadas, pelo método PPT
> (Probabilidade Proporcional ao Tamanho), tomando a população de 16 anos ou
> mais residente nos setores como base para tal seleção. No terceiro e último
> estágio, dentro dos setores sorteados, os respondentes são selecionados
> através de quotas amostrais proporcionais em função de variáveis
> significativas, a saber: IDADE: 16-24 (masculino) 20% (feminino) 18%; 25-34
> (masculino) 25% (feminino) 25%; 35-44 (masculino) 21% (feminino) 21%; 45-54
> (masculino) 17% (feminino) 17%; 55 e+ (masculino) 17% (feminino) 18%;
> INSTRUÇÃO: Até Ensino Médio (masculino) 84% (feminino) 80%; Ensino Superior
> (masculino) 16% (feminino) 20%; NÍVEL ECONÔMICO: Economicamente ativo
> (masculino) 81% (feminino) 57%; Não Economicamente ativo (masculino) 19%
> (feminino) 43%
>
> Concordo com o Pedrao. Se tem algo que falta aos institutos sem qualquer
> duvida e' transparencia.
>
> Raphael: vou insistir no tema. A APC, feita como ja escrevi aqui diversas
> vezes e supondo que dentro de cada cota as probabilidades de resposta sao
> iguais, tem o EQM menor do que da amostragem probabilistica com voltas
> (APV). Quanto mais voltas, melhor a qualidade da APV. Claro que essas
> comparacoes dependem das cotas e do criterio de substituicao da APV. Sob as
> mesmas suposicoes, se a APC substituir por alguem dentro da mesma cota (ou
> perfil)  da pessoa originalmente selecionada, entao elas sao equivalentes.
> Porem a APC continua sendo, em media, mais rapida. Agora, no mundo real,
> pra afirmar que uma tem mais vies que a outra, so empiricamente.
>
> Abraco Neale
>
>
>
>
> Em 25 de outubro de 2014 22:10, Raphael Nishimura <
> raphael_nishimura em yahoo.com.br> escreveu:
>
> Caro Pedro,
>
> Concordo plenamente com todas as suas colocações, principalmente no que se
> diz respeito a possibilidade de se coletar uma amostra probabilística em
> tempo idêntico ao de uma amostra por cotas. De fato, não existe nenhum
> impedimento técnico, é mais um problema operacional. É claro que isso
> aumentaria o custo das pesquisas comparativamente com como são feitas
> atualmente, o que seria perfeitamente justificável dado o potencial aumento
> em sua qualidade.
>
> Uma alternativa para isso seria calcular o tamanho de uma amostra
> probabílistica sob suas estruturas de custo (supondo-se um ou dois dias de
> coleta, por exemplo) utilizando-se o mesmo budget das amostras por cotas.
> Obviamente esse tamanho seria bem menor do que é coletado hoje nas amostras
> por cota, mas me parece que muitas delas são bem maiores do que realmente
> precisamos para estimar a proporção de votos em cada candidato com um erro
> de 2 ou 3% para o total da população (o Datafolha por exemplo vem
> utilizando amostras nacionais de quase 10.000 entrevistas).
>
> Por outro lado, pensando sob o paradigma do total survey error, isso
> levanta uma questão empiríca bastante interessante de um trade-off de viés
> e variância amostral: será que o viés (decorrente dos vieses de seleção)
> dessas amostras por cotas justificaria uma amostra probabilística com um
> tamanho potencialmente bem menor (i.e., com uma variância amostral maior)?
> Ou seja, será que em termos de erro quadrático médio compensaria
> utilizar-se uma amostra probabilística bem menor comparativamente a uma
> amostra por cotas grandona? Intuitivamente, eu diria que sim, mas como o
> senhor apontou anteriormente em uma de suas mensagens, faltam estudos
> empíricos no Brasil avaliando-se os vieses das amostras por cotas
> utilizadas em pesquisas eleitorais.
>
> Um abraço,
> Raphael
>
>
>   Em Sábado, 25 de Outubro de 2014 18:43, Pedro Luis do Nascimento Silva <
> pedronsilva em gmail.com> escreveu:
>
>
> Colegas,
>
> Primeiro as postagens trataram da admissão pública pelo IBOPE de que não
> se justificam as margens de erro de estimativas que divulgam.
>
> Na sequencia a postagem do Luis Paulo aponta para possíveis problemas com
> as estimativas das proporções.
>
> O Raphael corretamente aponta para a existência de alternativas de
> modelagem que poderiam ser usadas tanto para obter estimativas pontuais
> melhores como também estimativas de margens de erro. Infelizmente as
> abordagens sugeridas dependeriam de dados coletados 'com altos padrões de
> qualidade', ou ao menos, com 'padrões de qualidade' que sejam bem
> conhecidos e replicáveis.
>
> Um dos Princípios Fundamentais das Estatísticas Oficiais adotados pela
> Assembleia Geral da Organização das Nações Unidas (tradução disponível na
> página do IBGE -
> http://www.ibge.gov.br/home/disseminacao/eventos/missao/principios_fundamentais_estatisticas.shtm,
> e original disponível em:
> http://unstats.un.org/unsd/methods/statorg/default.htm) diz que:
> *"Princípio 3* Responsabilidade e transparência
> Para facilitar uma interpretação correta dos dados, os órgãos de
> estatística devem apresentar informações de acordo com normas científicas
> sobre fontes, métodos e procedimentos estatísticos."
> É verdade que os tais princípios foram formulados pensando na produção das
> estatísticas oficiais. Mas em minha visão devem aplicar-se igualmente às
> estatísticas públicas, sejam elas produzidas por fontes oficiais ou não. E
> as pesquisas eleitorais, claramente, deveriam ser submetidas a este
> conjunto de princípios, pela relevância que têm na vida dos países.
> Nós assistimos esse debate sobre os métodos empregados pelos institutos de
> pesquisa a cada eleição, e pela primeira vez, esse 'pequeno detalhe' é
> revelado pelo IBOPE. Infelizmente, a falta de transparência por não
> divulgar os microdados, as ponderações, etc. impedem que análises
> alternativas sejam tentadas e se possa avaliar o viés potencial das
> estimativas de intenções de votos produzidas pelas pesquisas eleitorais.
> A afirmação da diretora do IBOPE, citada no Blog da Miriam Leitão, de que
> pesquisas eleitorais por amostragem probabilística levariam 3 meses para
> fazer é equivocada. A Pesquisa Mensal de Emprego do IBGE, por exemplo, com
> uma amostra de 40 mil domicílios, é feita todos os meses pelo IBGE. Seria
> perfeitamente viável fazer uma amostra probabilística domiciliar com coleta
> de amostras de 1000 a 2000 eleitores em tempo idêntico às amostras por
> cotas. Claro que para que isto seja possível, será necessário fazer
> planejamento e preparar o trabalho, mas não há qualquer impedimento técnico
> a coletar uma amostra deste tamanho (ou até maior) em apenas 1 dia. Basta
> usar equipe de coleta dimensionada adequadamente.
> Na verdade, o IBGE vem agora realizando a PNAD contínua com cerca de 211
> mil domicílios selecionados e entrevistados a cada trimestre. Dividindo
> pelo número de dias do trimestre (aprox. 91, dá mais de 2.300 domicílios
> por dia, ou seja, o IBGE que não é privado coleta dados de mais 6.000
> brasileiros todos os dias sem sacrificar os métodos considerados mais
> adequados para amostrar de populações).
> Saudações a todos, e bons votos amanhã.
> Pedro.
>
>
>
>
>
> Em 25 de outubro de 2014 20:03, Raphael Nishimura <
> raphael_nishimura em yahoo.com.br> escreveu:
>
> Neale: como já venho te dizendo, me parece que infelizmente os institutos
> de pesquisa eleitorais no Brasil não se utilizam dos mesmos argumentos que
> você vem defendendo para justificar amostras por cotas. Por isso que
> acredito que eles também não as implementam com o mesmo rigor que você (e
> outros, inclusive eu) gostaria. Além disso, como outros nessa lista, acho
> que eles poderiam se utilizar de uma abordagem de inferência baseada em
> modelos, ao invés de inferência baseada em planejamentos, para calcular a
> margem de erro.
>
> A Márcia Cavallari fala sobre a impossibilidade de incorporar
> características do plano amostral antes da coleta de dados no cálculo da
> margem de erro, mas nesse texto que escrevi com um colega nós mostramos uma
> forma bastante simples de se fazer isso usando dados de eleições (ou turno,
> nesse caso) anteriores para considerar o efeito de conglomerização:
> http://www.brasilpost.com.br/andre-barrence/pesquisas-e-margens-de-erro_b_6037564.html.
> O mesmo poderia ser feito para efeitos de estratificação (mas que não
> fizemos porque os institutos não divulgam a alocação da amostra nos
> estratos). Como disse, é um modelo bastante simplificado, mas é pelo menos
> um pouquinho melhor do que os institutos vem utilizando (no texto há um
> link em que disponibilizamos os programas e dados utilizados para esses
> cálculos). Certamente, podem ser utilizados modelos bem mais sofisticados
> para melhorar essas análises. Lembrando que seria importante os institutos
> fazerem isso com bastante transparência, divulgando os modelos e suposições
> por trás desses cálculos, e, porque não também, os programas e bases de
> dados (procurando-se respeitar a
>
> A matéria enviada pelo Luis Paulo, em que as pesquisas de 2o turno do
> IBOPE e Datafolha são questionadas por apresentarem um proporção de pessoas
> que votaram na Dilma no 1o turno bem diferente da dos resultados oficiais,
> me leva a uma pergunta que venho me fazendo há algum tempo: porque os
> institutos não calibram suas pesquisas de 2o turno com base nos resultados
> do 1o turno? Dado que a correlação entre os votos do 1o e do 2o turno é
> altissíma, fazer essa de calibração deveria melhorar muito a qualidade de
> suas estimativas, potencialmente eliminando viéses não-amostrais a até
> mesmo decorrentes de possíveis problemas de seleção da amostra por cotas.
> Talvez haja receio de erro de mensuração para a declaração de voto no 1o
> turno (principalmente associado a "social desirability", dado que as
> estimativas de abstenção do 1o turno nessas pesquisas estão muito abaixo
> dos resultados oficiais), mas existem algumas formas de se minimizar isso
> que seriam interessante de serem utilizadas, dado a importância de um
> ajuste como esse.
>
> Um abraço,
> Raphael
>
>
>
>   Em Sábado, 25 de Outubro de 2014 17:08, Luis Paulo Braga <
> lpbraga em geologia.ufrj.br> escreveu:
>
>
>
> http://www.diariodopoder.com.br/noticias/distorcao-na-amostragem-alterou-resultados-das-pesquisas-ibope-e-datafolha/
>
> Em 25 de outubro de 2014 16:47, Neale El-Dash <neale.eldash em gmail.com>
> escreveu:
>
> Eu vou pedir emprego la no Ibope. Po, nem eles sabem o que estao fazendo,
> como e' denominada a metodologia que usam e nem quais sao as suposicoes
> (plausiveis) que tem que ser feitas pra calcular as margens de
> erro....rsrsrsrsrs
>
>
> Abraco
>
> Em 25 de outubro de 2014 16:08, Jose Carvalho <carvalho em statistika.com.br>
> escreveu:
>
> Alertado pelo Carlinhos, soube da entrevista de Márcia Cavallari
> (IBOPE) no Globo News, no programa de Myrian Leitão, em que foi
> declarado que não há como se calcular margens de erros em amostragens
> por quotas. Passei a buscar e achei. A jornalista Myrian Leitão postou
> um sumário no site da Globo. Eis um excerto:
>
> "Na Globo News
> Ibope admite que margem de erro pode ser maior
>
> No meu programa na Globo News, Márcia Cavallari, diretora do Ibope
> Inteligência, contou que a margem de erro de uma pesquisa eleitoral
> pode ser maior do que a divulgada. Isso porque ela não existe no tipo
> de levantamento realizado durante a campanha.
>
> – A gente não pode falar de margem de erro. As pesquisas que fazemos
> não são probabilísticas e margem de erro só se calcula com pesquisas
> probabilísticas. Todos os institutos no Brasil trabalham com
> amostragem por cotas. Por cotas não há literatura que se permita
> calcular margem de erro. Temos que falar de margem de erro porque tem
> uma legislação eleitoral (que) escreve que para regular as pesquisas
> tem que falar qual a margem de erro. A gente registra a margem de erro
> antes de realizar a pesquisa. Isso não existe. Margem de erro só se
> calcula depois da pesquisa realizada."
>
> Venho dizendo isso há mais de 10 anos. Até mesmo estive em um debate
> com Márcia, no CONRE 3, sobre esse mesmo assunto.
>
> A declaração de Márcia é clara e definitiva. Para mim, o assunto está
> encerrado, do ponto de vista técnico, uma vez que o praticante da
> amostragem por quota finalmente admite que não há como se calcular a
> margem de erro.
>
> Mas essa declaração em faz voltar muitos anos. No calor da discussão,
> nesta lista, eu disse que o tribunal eleitoral estava sendo enganado.
> Disse que, meramente registrando as pesquisas sem verificar a
> fidedignidade das informações, o sistema estava coonestando com
> pesquisas mal feitas. Por essa (e algumas outras) fui até processado
> pelo CONFE. Felizmente, processei de volta e ganhei a causa, se não
> teria sido mais um caso de ofensa às liberdades individuais).
>
> Agora, que foi dito que a margem declarada é falsa e assim tem sido,
> como fica esse sistema todo? Que ação vai tomar a Justiça Eleitoral?
> Como ficam os apresentadores de TV, que declaram, naquela maravilhosa
> voz, que a "pesquisa foi registrada sob número XPTO e tem margem de
> erro de 2% para mais ou para menos, com confiança de 95%"????
>
> Abraços a todos. Este é um bom sábado. Com um pouco de sorte, amanhã
> será ainda melhor!!!
>
> Agora, sim, como se diz em tribunais americanos (que vejo em filmes,
> claro): I rest my case! Não tenho mais o que dizer.
>
>
> --
> Jose Carvalho, PhD
> Statistika
> +55-19-3236-7537 (office)
> +55-19-98139-9927 (cel)
>
> _______________________________________________
> abe mailing list
> abe em lists.ime.usp.br
> https://lists.ime.usp.br/mailman/listinfo/abe
>
>
>
>
> --
>
> There are two routes to success in soccer. One is being good. The other is
> being lucky. You need both to win a championship. But you only need one to
> win a game. (The numbers game)
>
> -----------------------------------------------
> Neale Ahmed El-Dash
> Doutor em Estatística
> Celular: +55 19 998893939
> Email: neale.eldash em gmail.com
>
> _______________________________________________
> abe mailing list
> abe em lists.ime.usp.br
> https://lists.ime.usp.br/mailman/listinfo/abe
>
>
>
> _______________________________________________
> abe mailing list
> abe em lists.ime.usp.br
> https://lists.ime.usp.br/mailman/listinfo/abe
>
>
>
> _______________________________________________
> abe mailing list
> abe em lists.ime.usp.br
> https://lists.ime.usp.br/mailman/listinfo/abe
>
>
>
>
> --
> Pedro Luis do Nascimento Silva
> *ISI President-Elect 2013-2015*
> IBGE - Escola Nacional de Ciências Estatísticas
> Phone: +55 21 21424957
>
> _______________________________________________
> abe mailing list
> abe em lists.ime.usp.br
> https://lists.ime.usp.br/mailman/listinfo/abe
>
>
>
> _______________________________________________
> abe mailing list
> abe em lists.ime.usp.br
> https://lists.ime.usp.br/mailman/listinfo/abe
>
>
>
>
> --
>
> There are two routes to success in soccer. One is being good. The other is
> being lucky. You need both to win a championship. But you only need one to
> win a game. (The numbers game)
>
> -----------------------------------------------
> Neale Ahmed El-Dash
> Doutor em Estatística
> Celular: +55 19 998893939
> Email: neale.eldash em gmail.com
>
>
>


-- 
Pedro Luis do Nascimento Silva
*ISI President-Elect 2013-2015*
IBGE - Escola Nacional de Ciências Estatísticas
Phone: +55 21 21424957
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <https://lists.ime.usp.br/archives/abe/attachments/20141026/5ec78b0a/attachment.html>


Mais detalhes sobre a lista de discussão abe