[ABE-L] Cotas, quotas,...

Neale El-Dash neale.eldash em gmail.com
Seg Out 27 10:16:05 -03 2014


Ola Pedrao.

A primeira pergunta eu acredito que sei a resposta.

Se a informacao da cota em questao existir na base de microdados de setores
censitarios, essa sera a fonte. Se nao existir, sera do menor nivel
geografico que inclua aquele setor e que tenha a informacao disponivel.
Esse exemplo que voce mencionou realmente pode ocorrer quando as cotas sao
baseadas em informacoes de um nivel geografico que nao sao os setores. Como
renda e escolaridade sao bastante correlacionados, as cotas em um setor
classificado como rico poderiam ser calculadas filtrando a base apenas para
pessoas com renda mais alta. Mas enfim, suposicoes tem que ser feitas.

Ja para a segunda, precisariamos falar com alguem do instituto. Mas essa e'
a descricao metodologica da ultima pesquisa do Ibope:

"Está prevista eventual ponderação para correção das variáveis sexo e
idade, com base nos percentuais anteriormente mencionados, caso ocorram
diferenças superiores a 3 pontos percentuais entre o previsto na amostra e
a coleta de dados realizada. Para as variáveis de grau de instrução e nível
econômico do entrevistado, o fator previsto para ponderação é 1 (resultados
obtidos em campo)."

E para o caso do Datafolha, e' essa a ponderacao:

"Ponderação dos resultados: No processamento dos dados é realizada
ponderação referente à proporção de cada cidade na amostra para correta
representação das regiões. Está prevista a eventual ponderação para
correção nos tamanhos dos segmentos das variáveis sexo e faixa etária. Para
as variáveis grau de instrução e nível econômico do entrevistado (renda
familiar mensal), o fator previsto para ponderação é 1 (resultados obtidos
em campo)."


Me parece claro que com a mesma metodologia amostral, porem se preocupando
mais com a parte analitica, seria possivel melhorar a qualidade das
previsoes. Essa seria uma melhoria praticamente sem custo. Dificil entender
porque nao fazem isso.

Abraco


Em 26 de outubro de 2014 09:58, Pedro Luis do Nascimento Silva <
pedronsilva em gmail.com> escreveu:

> Colegas,
>
> Duas questões técnicas para o caso das amostras praticadas pelo IBOPE.
>
> 1. Como fazem com as cotas? Se elas têm que ser aplicadas em cada setor,
> como funciona sua aplicação na prática. Imaginem um setor onde moram
> predominantemente pessoas de renda mais elevada. A cota preconizada diz que
> tem que ser entrevistados 84% dos homens com 'até ensino médio'. Será que
> seriam encontrados num setor assim? Quantos homens teriam que ser abordados
> até encontrar todos os da cota preconizada?  Já se as cotas serão
> verificadas na amostra inteira, que algoritmo é usado para distribuí-las
> nos setores? Sem saber tais coisas, fica impossível entender como os dados
> podem/devem ser ponderados.
>
> 2. Como são ponderados os dados coletados? Eu já vi uma destas amostras
> (não era de pesquisa eleitoral) que usam a descrição genérica como a da
> pesquisa do IBOPE ser ponderada ignorando completamente as etapas de
> estratificação e de seleção de municípios e setores censitários. Ora, se a
> amostra é probabilística por cotas (APC, como o Neale denomina), então é
> essencial que as etapas de sorteio probabilístico sejam respeitadas.
> Fazendo a hipótese de que todos os entrevistados num setor selecionado
> teriam a mesma probabilidade de inclusão na amostra, uma ponderação
> possível para esta amostra seria usar os pesos amostrais clássicos da
> amostragem probabilística. Um exercício como este feito numa pesquisa
> domiciliar (não eleitoral) alguns anos atrás demonstrou que havia
> diferenças (viés?) importantes nas estimativas obtidas considerando a
> ponderação por cotas que ignorava completamente a estrutura do planejamento
> amostral.
>
> Notem que o objetivo desta nota não é desqualificar o método de APC, mas
> apenas de chamar a atenção para dificuldades que parecem existir nos
> métodos aplicados pelos institutos de pesquisa que fazem pesquisas
> eleitorais.
>
> Seria imensamente interessante poder realizar análises das amostras do
> IBOPE e DATAFOLHA usando outros métodos de ponderação, mas infelizmente, os
> microdados destas pesquisas não são tornados públicos, e as descrições que
> são publicadas da metodologia são tão incompletas que não permitem nem aos
> especialistas entender o que é feito. Assim fica difícil tentar avançar o
> conhecimento...
>
> Saudações dominicais, e que os votos de todos nos tragam bons ventos...
>
> Pedro.
>
> Em 26 de outubro de 2014 09:19, Raphael Nishimura <
> raphael_nishimura em yahoo.com.br> escreveu:
>
>> Neale,
>>
>> Segue o link da entrevista com a Márcia Cavallari: https://www.youtube.
>> com/watch?v=ox6Fm7bEXVk
>>
>> O problema, Neale, é que, como discutimos anteriormente aqui e em outros
>> e-mails, aparentemente nenhum dos institutos realizam amostragem por cotas
>> rigorosamente como você descreveu, em que o entrevistador percorre um
>> trajeto bem definido no setor censitário a partir de um ponto inicial
>> aleatório. Em geral, o entrevistador tem a liberdade de realizar as
>> entrevistas da forma como quiser no setor, desde que obedeça as cotas. Eu
>> até acho a amostragem por cotas como descrita por você uma alternativa
>> interessante, mas me parece que nenhum instituto a utiliza por demandar bem
>> mais tempo e esforço para realizar a pesquisa, comparado com a forma como é
>> feita atualmente.
>>
>> Um abraço,
>> Raphael
>>
>>
>>   Em Domingo, 26 de Outubro de 2014 6:44, Neale El-Dash <
>> neale.eldash em gmail.com> escreveu:
>>
>>
>> Alguem tem o link da entrevista da Márcia Cavallari?
>>
>> Chequei no site do TSE. A descricao metodologica da ultima pesquisa
>> publicada pelo IBOPE e'  de APC, e nao de AC. Vejam:
>>
>>
>> http://pesqele.tse.jus.br/pesqele/publico/pesquisa/Pesquisa/visualizacaoPublica.action?id=29228
>>
>> Representativa do eleitorado da área em estudo, elaborada em três
>> estágios. No primeiro estágio faz-se um sorteio probabilístico dos
>> municípios, onde as entrevistas serão realizadas, pelo método PPT
>> (Probabilidade Proporcional ao Tamanho), tomando o eleitorado como base
>> para tal seleção. No segundo estágio faz-se um sorteio probabilístico dos
>> setores censitários, onde as entrevistas serão realizadas, pelo método PPT
>> (Probabilidade Proporcional ao Tamanho), tomando a população de 16 anos ou
>> mais residente nos setores como base para tal seleção. No terceiro e último
>> estágio, dentro dos setores sorteados, os respondentes são selecionados
>> através de quotas amostrais proporcionais em função de variáveis
>> significativas, a saber: IDADE: 16-24 (masculino) 20% (feminino) 18%; 25-34
>> (masculino) 25% (feminino) 25%; 35-44 (masculino) 21% (feminino) 21%; 45-54
>> (masculino) 17% (feminino) 17%; 55 e+ (masculino) 17% (feminino) 18%;
>> INSTRUÇÃO: Até Ensino Médio (masculino) 84% (feminino) 80%; Ensino Superior
>> (masculino) 16% (feminino) 20%; NÍVEL ECONÔMICO: Economicamente ativo
>> (masculino) 81% (feminino) 57%; Não Economicamente ativo (masculino) 19%
>> (feminino) 43%
>>
>> Concordo com o Pedrao. Se tem algo que falta aos institutos sem qualquer
>> duvida e' transparencia.
>>
>> Raphael: vou insistir no tema. A APC, feita como ja escrevi aqui diversas
>> vezes e supondo que dentro de cada cota as probabilidades de resposta sao
>> iguais, tem o EQM menor do que da amostragem probabilistica com voltas
>> (APV). Quanto mais voltas, melhor a qualidade da APV. Claro que essas
>> comparacoes dependem das cotas e do criterio de substituicao da APV. Sob as
>> mesmas suposicoes, se a APC substituir por alguem dentro da mesma cota (ou
>> perfil)  da pessoa originalmente selecionada, entao elas sao equivalentes.
>> Porem a APC continua sendo, em media, mais rapida. Agora, no mundo real,
>> pra afirmar que uma tem mais vies que a outra, so empiricamente.
>>
>> Abraco Neale
>>
>>
>>
>>
>> Em 25 de outubro de 2014 22:10, Raphael Nishimura <
>> raphael_nishimura em yahoo.com.br> escreveu:
>>
>> Caro Pedro,
>>
>> Concordo plenamente com todas as suas colocações, principalmente no que
>> se diz respeito a possibilidade de se coletar uma amostra probabilística em
>> tempo idêntico ao de uma amostra por cotas. De fato, não existe nenhum
>> impedimento técnico, é mais um problema operacional. É claro que isso
>> aumentaria o custo das pesquisas comparativamente com como são feitas
>> atualmente, o que seria perfeitamente justificável dado o potencial aumento
>> em sua qualidade.
>>
>> Uma alternativa para isso seria calcular o tamanho de uma amostra
>> probabílistica sob suas estruturas de custo (supondo-se um ou dois dias de
>> coleta, por exemplo) utilizando-se o mesmo budget das amostras por cotas.
>> Obviamente esse tamanho seria bem menor do que é coletado hoje nas amostras
>> por cota, mas me parece que muitas delas são bem maiores do que realmente
>> precisamos para estimar a proporção de votos em cada candidato com um erro
>> de 2 ou 3% para o total da população (o Datafolha por exemplo vem
>> utilizando amostras nacionais de quase 10.000 entrevistas).
>>
>> Por outro lado, pensando sob o paradigma do total survey error, isso
>> levanta uma questão empiríca bastante interessante de um trade-off de viés
>> e variância amostral: será que o viés (decorrente dos vieses de seleção)
>> dessas amostras por cotas justificaria uma amostra probabilística com um
>> tamanho potencialmente bem menor (i.e., com uma variância amostral maior)?
>> Ou seja, será que em termos de erro quadrático médio compensaria
>> utilizar-se uma amostra probabilística bem menor comparativamente a uma
>> amostra por cotas grandona? Intuitivamente, eu diria que sim, mas como o
>> senhor apontou anteriormente em uma de suas mensagens, faltam estudos
>> empíricos no Brasil avaliando-se os vieses das amostras por cotas
>> utilizadas em pesquisas eleitorais.
>>
>> Um abraço,
>> Raphael
>>
>>
>>   Em Sábado, 25 de Outubro de 2014 18:43, Pedro Luis do Nascimento Silva
>> <pedronsilva em gmail.com> escreveu:
>>
>>
>> Colegas,
>>
>> Primeiro as postagens trataram da admissão pública pelo IBOPE de que não
>> se justificam as margens de erro de estimativas que divulgam.
>>
>> Na sequencia a postagem do Luis Paulo aponta para possíveis problemas com
>> as estimativas das proporções.
>>
>> O Raphael corretamente aponta para a existência de alternativas de
>> modelagem que poderiam ser usadas tanto para obter estimativas pontuais
>> melhores como também estimativas de margens de erro. Infelizmente as
>> abordagens sugeridas dependeriam de dados coletados 'com altos padrões de
>> qualidade', ou ao menos, com 'padrões de qualidade' que sejam bem
>> conhecidos e replicáveis.
>>
>> Um dos Princípios Fundamentais das Estatísticas Oficiais adotados pela
>> Assembleia Geral da Organização das Nações Unidas (tradução disponível na
>> página do IBGE -
>> http://www.ibge.gov.br/home/disseminacao/eventos/missao/principios_fundamentais_estatisticas.shtm,
>> e original disponível em:
>> http://unstats.un.org/unsd/methods/statorg/default.htm) diz que:
>> *"Princípio 3* Responsabilidade e transparência
>> Para facilitar uma interpretação correta dos dados, os órgãos de
>> estatística devem apresentar informações de acordo com normas científicas
>> sobre fontes, métodos e procedimentos estatísticos."
>> É verdade que os tais princípios foram formulados pensando na produção
>> das estatísticas oficiais. Mas em minha visão devem aplicar-se igualmente
>> às estatísticas públicas, sejam elas produzidas por fontes oficiais ou não.
>> E as pesquisas eleitorais, claramente, deveriam ser submetidas a este
>> conjunto de princípios, pela relevância que têm na vida dos países.
>> Nós assistimos esse debate sobre os métodos empregados pelos institutos
>> de pesquisa a cada eleição, e pela primeira vez, esse 'pequeno detalhe' é
>> revelado pelo IBOPE. Infelizmente, a falta de transparência por não
>> divulgar os microdados, as ponderações, etc. impedem que análises
>> alternativas sejam tentadas e se possa avaliar o viés potencial das
>> estimativas de intenções de votos produzidas pelas pesquisas eleitorais.
>> A afirmação da diretora do IBOPE, citada no Blog da Miriam Leitão, de que
>> pesquisas eleitorais por amostragem probabilística levariam 3 meses para
>> fazer é equivocada. A Pesquisa Mensal de Emprego do IBGE, por exemplo, com
>> uma amostra de 40 mil domicílios, é feita todos os meses pelo IBGE. Seria
>> perfeitamente viável fazer uma amostra probabilística domiciliar com coleta
>> de amostras de 1000 a 2000 eleitores em tempo idêntico às amostras por
>> cotas. Claro que para que isto seja possível, será necessário fazer
>> planejamento e preparar o trabalho, mas não há qualquer impedimento técnico
>> a coletar uma amostra deste tamanho (ou até maior) em apenas 1 dia. Basta
>> usar equipe de coleta dimensionada adequadamente.
>> Na verdade, o IBGE vem agora realizando a PNAD contínua com cerca de 211
>> mil domicílios selecionados e entrevistados a cada trimestre. Dividindo
>> pelo número de dias do trimestre (aprox. 91, dá mais de 2.300 domicílios
>> por dia, ou seja, o IBGE que não é privado coleta dados de mais 6.000
>> brasileiros todos os dias sem sacrificar os métodos considerados mais
>> adequados para amostrar de populações).
>> Saudações a todos, e bons votos amanhã.
>> Pedro.
>>
>>
>>
>>
>>
>> Em 25 de outubro de 2014 20:03, Raphael Nishimura <
>> raphael_nishimura em yahoo.com.br> escreveu:
>>
>> Neale: como já venho te dizendo, me parece que infelizmente os institutos
>> de pesquisa eleitorais no Brasil não se utilizam dos mesmos argumentos que
>> você vem defendendo para justificar amostras por cotas. Por isso que
>> acredito que eles também não as implementam com o mesmo rigor que você (e
>> outros, inclusive eu) gostaria. Além disso, como outros nessa lista, acho
>> que eles poderiam se utilizar de uma abordagem de inferência baseada em
>> modelos, ao invés de inferência baseada em planejamentos, para calcular a
>> margem de erro.
>>
>> A Márcia Cavallari fala sobre a impossibilidade de incorporar
>> características do plano amostral antes da coleta de dados no cálculo da
>> margem de erro, mas nesse texto que escrevi com um colega nós mostramos uma
>> forma bastante simples de se fazer isso usando dados de eleições (ou turno,
>> nesse caso) anteriores para considerar o efeito de conglomerização:
>> http://www.brasilpost.com.br/andre-barrence/pesquisas-e-margens-de-erro_b_6037564.html.
>> O mesmo poderia ser feito para efeitos de estratificação (mas que não
>> fizemos porque os institutos não divulgam a alocação da amostra nos
>> estratos). Como disse, é um modelo bastante simplificado, mas é pelo menos
>> um pouquinho melhor do que os institutos vem utilizando (no texto há um
>> link em que disponibilizamos os programas e dados utilizados para esses
>> cálculos). Certamente, podem ser utilizados modelos bem mais sofisticados
>> para melhorar essas análises. Lembrando que seria importante os institutos
>> fazerem isso com bastante transparência, divulgando os modelos e suposições
>> por trás desses cálculos, e, porque não também, os programas e bases de
>> dados (procurando-se respeitar a
>>
>> A matéria enviada pelo Luis Paulo, em que as pesquisas de 2o turno do
>> IBOPE e Datafolha são questionadas por apresentarem um proporção de pessoas
>> que votaram na Dilma no 1o turno bem diferente da dos resultados oficiais,
>> me leva a uma pergunta que venho me fazendo há algum tempo: porque os
>> institutos não calibram suas pesquisas de 2o turno com base nos resultados
>> do 1o turno? Dado que a correlação entre os votos do 1o e do 2o turno é
>> altissíma, fazer essa de calibração deveria melhorar muito a qualidade de
>> suas estimativas, potencialmente eliminando viéses não-amostrais a até
>> mesmo decorrentes de possíveis problemas de seleção da amostra por cotas.
>> Talvez haja receio de erro de mensuração para a declaração de voto no 1o
>> turno (principalmente associado a "social desirability", dado que as
>> estimativas de abstenção do 1o turno nessas pesquisas estão muito abaixo
>> dos resultados oficiais), mas existem algumas formas de se minimizar isso
>> que seriam interessante de serem utilizadas, dado a importância de um
>> ajuste como esse.
>>
>> Um abraço,
>> Raphael
>>
>>
>>
>>   Em Sábado, 25 de Outubro de 2014 17:08, Luis Paulo Braga <
>> lpbraga em geologia.ufrj.br> escreveu:
>>
>>
>>
>> http://www.diariodopoder.com.br/noticias/distorcao-na-amostragem-alterou-resultados-das-pesquisas-ibope-e-datafolha/
>>
>> Em 25 de outubro de 2014 16:47, Neale El-Dash <neale.eldash em gmail.com>
>> escreveu:
>>
>> Eu vou pedir emprego la no Ibope. Po, nem eles sabem o que estao fazendo,
>> como e' denominada a metodologia que usam e nem quais sao as suposicoes
>> (plausiveis) que tem que ser feitas pra calcular as margens de
>> erro....rsrsrsrsrs
>>
>>
>> Abraco
>>
>> Em 25 de outubro de 2014 16:08, Jose Carvalho <carvalho em statistika.com.br
>> > escreveu:
>>
>> Alertado pelo Carlinhos, soube da entrevista de Márcia Cavallari
>> (IBOPE) no Globo News, no programa de Myrian Leitão, em que foi
>> declarado que não há como se calcular margens de erros em amostragens
>> por quotas. Passei a buscar e achei. A jornalista Myrian Leitão postou
>> um sumário no site da Globo. Eis um excerto:
>>
>> "Na Globo News
>> Ibope admite que margem de erro pode ser maior
>>
>> No meu programa na Globo News, Márcia Cavallari, diretora do Ibope
>> Inteligência, contou que a margem de erro de uma pesquisa eleitoral
>> pode ser maior do que a divulgada. Isso porque ela não existe no tipo
>> de levantamento realizado durante a campanha.
>>
>> – A gente não pode falar de margem de erro. As pesquisas que fazemos
>> não são probabilísticas e margem de erro só se calcula com pesquisas
>> probabilísticas. Todos os institutos no Brasil trabalham com
>> amostragem por cotas. Por cotas não há literatura que se permita
>> calcular margem de erro. Temos que falar de margem de erro porque tem
>> uma legislação eleitoral (que) escreve que para regular as pesquisas
>> tem que falar qual a margem de erro. A gente registra a margem de erro
>> antes de realizar a pesquisa. Isso não existe. Margem de erro só se
>> calcula depois da pesquisa realizada."
>>
>> Venho dizendo isso há mais de 10 anos. Até mesmo estive em um debate
>> com Márcia, no CONRE 3, sobre esse mesmo assunto.
>>
>> A declaração de Márcia é clara e definitiva. Para mim, o assunto está
>> encerrado, do ponto de vista técnico, uma vez que o praticante da
>> amostragem por quota finalmente admite que não há como se calcular a
>> margem de erro.
>>
>> Mas essa declaração em faz voltar muitos anos. No calor da discussão,
>> nesta lista, eu disse que o tribunal eleitoral estava sendo enganado.
>> Disse que, meramente registrando as pesquisas sem verificar a
>> fidedignidade das informações, o sistema estava coonestando com
>> pesquisas mal feitas. Por essa (e algumas outras) fui até processado
>> pelo CONFE. Felizmente, processei de volta e ganhei a causa, se não
>> teria sido mais um caso de ofensa às liberdades individuais).
>>
>> Agora, que foi dito que a margem declarada é falsa e assim tem sido,
>> como fica esse sistema todo? Que ação vai tomar a Justiça Eleitoral?
>> Como ficam os apresentadores de TV, que declaram, naquela maravilhosa
>> voz, que a "pesquisa foi registrada sob número XPTO e tem margem de
>> erro de 2% para mais ou para menos, com confiança de 95%"????
>>
>> Abraços a todos. Este é um bom sábado. Com um pouco de sorte, amanhã
>> será ainda melhor!!!
>>
>> Agora, sim, como se diz em tribunais americanos (que vejo em filmes,
>> claro): I rest my case! Não tenho mais o que dizer.
>>
>>
>> --
>> Jose Carvalho, PhD
>> Statistika
>> +55-19-3236-7537 (office)
>> +55-19-98139-9927 (cel)
>>
>> _______________________________________________
>> abe mailing list
>> abe em lists.ime.usp.br
>> https://lists.ime.usp.br/mailman/listinfo/abe
>>
>>
>>
>>
>> --
>>
>> There are two routes to success in soccer. One is being good. The other
>> is being lucky. You need both to win a championship. But you only need one
>> to win a game. (The numbers game)
>>
>> -----------------------------------------------
>> Neale Ahmed El-Dash
>> Doutor em Estatística
>> Celular: +55 19 998893939
>> Email: neale.eldash em gmail.com
>>
>> _______________________________________________
>> abe mailing list
>> abe em lists.ime.usp.br
>> https://lists.ime.usp.br/mailman/listinfo/abe
>>
>>
>>
>> _______________________________________________
>> abe mailing list
>> abe em lists.ime.usp.br
>> https://lists.ime.usp.br/mailman/listinfo/abe
>>
>>
>>
>> _______________________________________________
>> abe mailing list
>> abe em lists.ime.usp.br
>> https://lists.ime.usp.br/mailman/listinfo/abe
>>
>>
>>
>>
>> --
>> Pedro Luis do Nascimento Silva
>> *ISI President-Elect 2013-2015*
>> IBGE - Escola Nacional de Ciências Estatísticas
>> Phone: +55 21 21424957
>>
>> _______________________________________________
>> abe mailing list
>> abe em lists.ime.usp.br
>> https://lists.ime.usp.br/mailman/listinfo/abe
>>
>>
>>
>> _______________________________________________
>> abe mailing list
>> abe em lists.ime.usp.br
>> https://lists.ime.usp.br/mailman/listinfo/abe
>>
>>
>>
>>
>> --
>>
>> There are two routes to success in soccer. One is being good. The other
>> is being lucky. You need both to win a championship. But you only need one
>> to win a game. (The numbers game)
>>
>> -----------------------------------------------
>> Neale Ahmed El-Dash
>> Doutor em Estatística
>> Celular: +55 19 998893939
>> Email: neale.eldash em gmail.com
>>
>>
>>
>
>
> --
> Pedro Luis do Nascimento Silva
> *ISI President-Elect 2013-2015*
> IBGE - Escola Nacional de Ciências Estatísticas
> Phone: +55 21 21424957
>
> _______________________________________________
> abe mailing list
> abe em lists.ime.usp.br
> https://lists.ime.usp.br/mailman/listinfo/abe
>
>


-- 

There are two routes to success in soccer. One is being good. The other is
being lucky. You need both to win a championship. But you only need one to
win a game. (The numbers game)

-----------------------------------------------
Neale Ahmed El-Dash
Doutor em Estatística
Celular: +55 19 998893939
Email: neale.eldash em gmail.com
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <https://lists.ime.usp.br/archives/abe/attachments/20141027/9841a6b5/attachment.html>


Mais detalhes sobre a lista de discussão abe