[ABE-L] Desculpem

Qua Out 8 14:34:18 -03 2014

Bastante interessante, Neale. Aliás, parabéns pela iniciativa tanto com o Pollingdata quanto essas análises que você fez. Realmente, precisamos fazer mais do que você propôs e fez, ao invés de ficar simplesmente conjecturando. 

Eu achei particularmente interessante o comentário que você fez com respeito ao fator de ajuste (de aprox., sqrt(1.3)) que você normalmente utiliza para levar em consideração um possível efeito de conglomeração no erro amostral. Eu acho que seria interessante entender melhor esse problema. Nesse sentido, comecei a trabalhar recentemente com dados das eleições presidenciais de 2010 disponibilizados pelo TSE e encontrei um coeficiente de correlação intraclasse de até 0.086 para a proporções de voto para presidência, o que não é tão forte, mas também não é desprezível. 

No entato, me parece que a maioria dos instituitos, senão todos, não utilizam um ajuste semelhante e, dessa forma, as suposições e modelos que eles utilizam para os cálculos de tais erros podem ser inadequadas dado a forma como a amostra foi coletada. Acho que essa é uma das críticas que podem ser feitas aos institutos e que pode ser facilmente melhorado. Como outros aqui na rede ABE já sugeriram anteriormente, seria interessante utilizar ajustes como esse ou modelos que procurem incorporar melhor o processo de seleção da amostra, mesmo nas amostras em que a seleção se baseia em métodos probabilisticos até o setor censitário, mas que a seleção dos domicilios e inidividuos é feita com base em cotas com algum tipo de seleção sistemática, como você já mencionou aqui anteriormente e em sua tese.

Além disso, acho que é necessário mais transparência por parte dos institutos sobre a metodologia das pesquisas, principalmente com relação a: 1) plano amostral; 2) métodos que se utilizam (e se são utilizados) para minimizar outros erros não-amostrais, como não-resposta, cobertura e mensuração; e 3) métodos de estimação envolvidos, principalmente quais são os modelos, suposições ou expressões utilizados para o cálculo das margens de erro. Pois, concordo com alguns dessa lista: apesar das amostras utilizadas nessas pesquisas não serem probabilisticas, é possível utilizar-se modelos para tais cálculos. Mesmo com amostras probabilisticas, ao fim, sempre são necessários tais modelos para lidar com erros não-amostrais. A questão é: as suposições utilizadas por tais modelos são adequadas? E quais as consequências caso tais suposições não sejam válidas? É principalmente esse tipo de transparência que eu gostaria de ver
 por parte dos institutos.

Um abraço,
Raphael  
Em Quarta-feira, 8 de Outubro de 2014 12:02, Neale El-Dash <neale.eldash em gmail.com> escreveu:

Todo mundo esta' afirmando que as pesquisas erraram, mas senti falta de algum analise mais aprofundada do tema. Pra ajudar a todos que tem interesse, disponibilizei no link abaixo uma base de dados com as pesquisas publicadas na data mais proxima ao dia da eleicao, para todas as eleicoes de Governador  (excecao de RR) e tambem de presidente. Tambem no mesmo arquivo estao os resultados da apuracao pelo TSE. Dessa forma cada um pode analisar o resultados e tirar suas proprias conclusoes. Como me dei ao trabalho de criar essa base, agradeceria se dessem o devido credito ao Pollingdata.com.br ao utiliza-la.

Link Dados:  https://drive.google.com/file/d/0B_2va6jxqC4JM1FJRHhzREdGMmM/view?usp=sharing

A minha analise da performance das pesquisas eleitorais segue abaixo junto com alguns comentarios relevantes (longos). Acho que a pergunta que devemos nos fazer nao e' "Se as pesquisas erraram". Pra essa pergunta, a resposta sera sempre a mesma: SIM.  Independente se o erro esta dentro da margem de erro ou nao, elas vao sempre errar (estritamente falando).  A pergunta que importa, portanto, e' "Porque elas erraram"? Sera'  que o erro cometido por elas pode ser inteiramente justificado apenas por questoes metodologicas?

1- Existem varios criterios diferentes para avaliar o erro cometido por uma pesquisa. Criterios baseados na binomial, na multinomial, de dados composicionais, dependentes do numero de candidatos, etc. No artido [ref1] o autor apresenta varios criterios. Na minha tese de doutorado faco um resumo de diversos criterios. Aqui vou utilizar o criterio que acredito ser o mais simples e facil de interpretar: Absolute Average Difference (AAD). Simplesmente a media do erros observados absolutos cometidos por cada pesquisa. Como qualquer criterio, ele pode ser criticado. Por isso inclui a base de dados nesse email, quem nao gostar da minha analise, que faca a sua.

[ref1] - W. J. Mitofsky. Review: Was 1996 a worse year for polls than 1948? The Public Opinion Quarterly,62(2):230{249, 1998.
Link para tese - https://drive.google.com/file/d/0B_2va6jxqC4JcmJBcW9RMlpVRFE/view?usp=sharing

2 - Essas pesquisas sao feitas no mundo real. Pesquisas feitas no mundo real estao sujeitas a varios outros tipos de erro, alem do erro amostral. Esses outro tipos de erro sao ainda mais complexos de se julgar do que o erro amostral, pois nem e' possivel ter uma ideia de quao grandes eles podem ser numa situacao ideal. No artigo citando na [Ref2], o autor discute a importancia de varias outras fontes de erro. Aqui estou mais preocupado com os erros que ocorrem no momento da coleta dos dados.

[ref 2] J. Desart and T. Holbrook. Campaigns, polls, and the states: Assessing the accuracy of statewide presidential trial-heat polls. Political Research Quarterly, 56(4):431{439, 2003

Nao inclui' todas as variaveis listadas nesse artigo na base de dados, mas inclui' "Numero de dias antes da eleicao" e tambem "Percentual de votos nao-validos". Na minha analise vou apenas falar dessas variaveis e tambem do tamanho da amostra. A importancia do percentual de votos nao-validos e' evidente - eles incluem pessoas que dizem Nao Sabe/Nao respondeu/Indecisos (NS/NR/I). E essa possibilidade de resposta nao existe na eleicao. Pesquisas que tem um percentual maior de NS/NR/I tendem a errar mais. Porque?  Porque os eleitores estao indecisos, nao sabem em quem votar. E olhar apenas os votos validos nao e' uma boa solucao, pois faz a suposicao "fortissima" de que esses votos serao alocados de forma proporcional ao voto valido. Usualmente, a verdade nao poderia ser mais distante disso. Por exemplo, basta olhar como os eleitores que respondem NS/NR/I no primeiro turno votam no segundo turno.  A correlacao entre a AAD e o %  de "votos nao-validos"  e'
 de 0,33. Alem disso, os tres estados com maiores erros observados (AAD) sao os que tem o maior %  de "votos nao-validos"  (PE, MG e BA)

3- Olhar apenas a ultima pesquisa de um ciclo eleitoral, ignora totalmente a questao da dinamica eleitoral, do momentum dos candidatos. Em algum momento do passado, lembro de alguem escrever pra essa lista dizendo que a sua maior preocupacao com relacao as pesquisas eleitorais e' que elas (podem) alteraram a intencao de voto dos eleitores. Eu acho que se esse argumento ja foi usado contra, tambem tem que ser usado a favor. Supondo que essa relacao ocorre, estamos considerando que  as pesquisas eleitorais alteram a intencao de voto, a qual por sua vez tambem altera os resultados das pesquisas. No livro "The logic of Survey Analysis" o autor descreve esse tipo de relacao como "Relacao reciproca". Uma causa a outra, e vice-versa. Sob essa suposicao, e' totalmente plausivel que se as pesquisas apontam que um candidato esta crescendo, ele comece a crescer ainda mais rapido. Na vespera da eleicao, mais pesquisas sao divulgadas, e esse efeito e' catalizado
 ainda mais. Sob essa perspectiva, as pesquisas aceleram a o crescimento/queda de alguns candidatos nas vesperas da eleicao. Outro fator em acao no final da eleicao e' o envolvimento dos eleitores, que parece ocorrer apenas nas vesperas com uma grande parcela do eleitorado em potencial.

Independente de serem esses os motivos ou nao, em algumas das pesquisas mais criticadas por erro, e' evidente que a dinamica da intencao de voto esta se alterando. Especificamente as eleicoes para presidente e para Governador nos estados de RS, PE, RJ e BA. Nessas eleicoes nao ha como afirmar categoricamente que as pesquisas erraram por causa da metodologia. As pesquisas retratam o passado. Olhem as graficos no link abaixo, onde mostro a serie completa desses estados. E' obvio que a dinamica eleitoral e' em grande parte responsavel pelos erros observados. Ainda mais se considerarmos que as proprias pesquisas podem impulsionar esses movimentos como argumentei no paragrafo anterior. Nesses casos, se o objetivo e' fazer uma analise imparcial da performance das pesquisas, claramente nao e' possivel atribuir todo o erro observado a metodologia das pesquisas.

Link para os graficos: https://drive.google.com/file/d/0B_2va6jxqC4JRmNmalZuV2Nsdnc/view?usp=sharing

Em estados onde nao foram feitas pesquisas na vespera da eleicao, e' impossivel dizer se a dinamica eleitoral se alterou ou nao. Por isso uso tambem como indicador o numero de dias antes da eleicao que a pesquisa foi publicada. Quanto mais dias antes, mais facil de da pesquisa errar.

Abaixo inclui' uma tabela com o resumo de todos os resultados. Os resultados estao ordenados da eleicao com a maior diferenca entre erro amostral e erro observado, para a menor diferenca. A ultima coluna tem as observacoes sobre cada eleicao, ressaltando pontos que acho importantes que nao estao relacionados com a metodologida dos institutos. Eu geralmente utilizo um fator de ajuste, aprox. sqrt(1.3), para calcular o erro amostral em funcao do tamanho da amostra, pois sei que utilizam amostragem por conglomerados e nao amostragem aleatoria simples. Mas nao fiz isso aqui pra ninguem dizer que estou tentando favorecer aos institutos.

Meu ponto e':  O mundo nao e' preto e branco. O que importa nao e' se as pesquisas erraram, mas se elas erraram por causa da metodologia que elas utilizam.  Esse e' o X da questao. Nao acredito que a resposta seja tao obvia quanto todo mundo parece estar afirmando. Pra quem quer equalizar erro observado com erro amostral, pode parecer que sim. Mas o mundo real e' bem mais complexo que isso. Nao acho justo jogar a responsabilidade de absolutamente todos os erros na metodologia dos institutos de pesquisa. Com certeza a metodologia pode ser melhorada, ate porque imagino que para fazer uma pesquisa em 2 dias (com uma pressao enorme), nao e' possivel manter todos os controles de qualidade usualmente utilizados. Mas uma parcela (grande?) dos erros, de fato, nao e' culpa da metodologia utilizada.

Neale

Estado % de Votos nao-validos Dias antes da eleicao Tamanho da amostra erro amostral (sob AAS) Erro Medio Observado     (AAD)  Diferenca  Observacao 
Pernambuco 22% 1 2002 2,2% 6,9% 4,7% Dinamica mudou 
Minas Gerais 24% 1 2002 2,2% 6,9% 4,6% % alto de Nao validos 
Bahia 22% 1 2002 2,2% 6,0% 3,8% Dinamica mudou 
Amazonas 9% 3 1512 2,6% 5,3% 2,7% 3 dias ou mais antes 
Brasil 12% 1 3010 1,8% 3,9% 2,1% Dinamica mudou 
Santa Catarina 16% 2 1610 2,5% 4,3% 1,8%   
Tocantins 14% 1 812 3,5% 5,3% 1,8%   
Rio Grande do Sul 14% 1 1886 2,3% 3,9% 1,6% Dinamica mudou 
Piauí 5% 3 812 3,5% 4,9% 1,4%   
Mato Grosso do Sul 15% 10 1008 3,1% 4,3% 1,1% 3 dias ou mais antes 
Rio de Janeiro 13% 1 1949 2,3% 3,0% 0,7% Dinamica mudou 
Paraná 13% 1 1512 2,6% 3,2% 0,6%   
São Paulo 21% 1 2002 2,2% 2,5% 0,3% % alto de Nao validos 
Maranhão 17% 3 1204 2,9% 3,2% 0,4% 3 dias ou mais antes 
Rondônia 10% 3 812 3,5% 3,7% 0,2% 3 dias ou mais antes 
Goiás 14% 5 812 3,5% 3,6% 0,1% 3 dias ou mais antes 
Acre 6% 3 812 3,5% 3,1% -0,4%   
Amapá 5% 2 812 3,5% 3,0% -0,5%   
Pará 11% 1 812 3,5% 3,0% -0,5%   
Alagoas 15% 3 812 3,5% 3,0% -0,5%   
Distrito Federal 12% 1 1646 2,5% 1,8% -0,7%   
Ceará 17% 1 1610 2,5% 1,8% -0,7%   
Espírito Santo 19% 2 812 3,5% 2,6% -0,9%   
Rio Grande do Norte 21% 2 812 3,5% 2,2% -1,3%   
Mato Grosso 13% 3 812 3,5% 1,4% -2,1%   
Sergipe 16% 1 812 3,5% 1,0% -2,5%   
Paraíba 11% 1 812 3,5% 0,5% -3,0%   

Em 7 de outubro de 2014 08:52, Jose Carvalho <carvalho em statistika.com.br> escreveu:

Colegas, bom dia!
>
>De fato. A margem de erro dessas pesquisa é desconhecida. Não se
>justifica o cálculo feito pelos "institutos", que carece de base.
>
>E mais um problema, do qual ninguém fala: trata-se de uma resposta
>multinomial. Em geral, são vários candidatos, mais de dois. E a margem
>de erro é dada para cada um e todos, uma só. Pelas marginais
>certamente, sem levar em conta as estimativas dos demais. Não é uma
>graça?
>
>Mas é assim em toda parte, no que toca a abusos de estatística. Tenho
>relatórios de pesquisas com consumidores, feitas por "institutos"
>internacionais, em que vários produtos são testados. Às respostas
>multinomiais são atribuídos números e esses escores são tratados como
>numéricos. As comparações de produtos são feitas dois a dois, por
>testes t. E nem sequer correções dos níveis de significância são
>calculados para esses numerosos testes. Quer dizer - está tudo errado.
>Ali onde um teste global apropriado seria baseado em simples tabela de
>contingência, isso não é feito. Diga-se de passagem: embora cada
>"célula" (como são chamados os grupos de tratamento pelos neófitos que
>redescobriram a estatística, sem dar crédito aos antecessores) tenha
>100 ou mais testadores, o fato é que se encontra um menor número de
>comparações significantes. Assim, muitos testes t baseados em falsa
>resposta numérica "dá maior poder". Essa frase me foi dita, como
>justificativa. Dói no ouvido.
>
>Posso mencionar também, nesta mesma área, testes de equivalência, ou
>de não inferioridade, que são testados como testes de simples
>diferença, pois "o tamanho do experimento aumenta"...
>
>Mas os relatórios são lindos ("flashy") e apresentados a clientes que
>não tem a menor ideia de estatística. Alguns desses clientes são
>oriundos dessa área nos "institutos" e outros irão trabalhar ali. E
>não são estatísticos. Ninguém percebe coisa alguma.
>
>Temos problemas sérios. Em geral, não se percebem erros. Quem vai
>verificar e o que verificar? São raros os casos em que trabalhos de
>pesquisa podem ser verificados. Um tipo de trabalho assim é o quick
>count feito pela OEA, baseado em contagem paralela de resultados de
>urnas eleitorais, feito por amostragem. Carlinhos, Julinho e eu
>fizemos esse trabalho em alguns países. Aliás, não usamos nada
>Bayesiano. Bem que o Carlinhos fez algo Bayesiano, uma vez, mas o
>trabalho que fizemos e cujos resultados apresentamos foi baseado em
>amostragem aleatória estratificada. E deu certo em todas as vezes.
>Depois de nós, o trabalho seguiu em muitas eleições, tocado pelo
>Antônio Amarante, feito do jeito que nós fizéramos antes. Sem erro!
>Claro, tínhamos cadastros das urnas e  exércitos de apuradores. Não é
>difícil. E funciona. Com verossimilhança flat e tudo, né Carlinhos?
>Enfim, isso é verificar o resultado da amostragem... onde mais é possível?
>
>E já que mencionei meu amigo Carlinhos: chefe, amostragem por quota
>nada tem de Bayesiano. Você forçou um elemento na discussão, que vai
>levar a gente para fora do foco.
>
>Voltando ao problema da má prática - que outro nome dar? - este é um
>problema insolúvel. O que podemos é tentar fazer direito de nossa
>parte. Nem isso é possível, muitas vezes. Em uma certa firma, o
>gerente, que se pode dizer meu amigo, foi confrontado com esses
>problemas. Ele se convenceu de que havia erro em não se usar as
>respostas como discretas (usava os escores fajutos). Ao fim, ele me
>perguntou se o tamanho de amostra poderia ser o mesmo que era usado
>para encontrar-se diferenças de... médias. Eu disse que não. Então ele
>me disse: "Olha, todo mundo faz assim. Eu tenho um orçamento limitado.
>Nossa assessora também é professora, embora não de estatística e usa
>os escores numéricos e testes t. Eu continuarei a fazer como se faz,
>como ela faz." Quero dizer - nem dá para fazermos direito.
>
>PS Sobre o uso de médias para comparar-se distribuições com suporte
>sobre um número finito de pontos (que chic!  estou só falando de
>poucas categorias, como os inteiros de 1 a 5)
>
>Vejam só. Se a resposta for a contagem de ovos defeituosos em uma
>caixa, tem sentido calcular-se a média. Pois em N caixas, a proporção
>de defeituosos será Np. Até aqui, tudo bem. A contagem é um número.
>
>Mas certas respostas não se somam. Por exemplo, a agradabilidade de um
>produto. Se você gosta muito e eu não, nossa média é?... Neste caso,
>como sempre, interessa saber as proporções de cada classe, p1,...,p5.
>E a "média" nada significa, no sentido de que não determina, nem de
>leve, a distribuição {pi}. É fácil ver (pelo menos para nós, desta lista)
>
>Com a média fixada em M, temos duas equações lineares:
>
>p1+p2+p3+p4+p5 = 1
>1 p1+2 p2 +3 p3 + 4 p4 + 5p5 = M
>
>(Claro, todos os 0<=pi <=1)
>
>Pois bem - haverá um número infinito de soluções para os p (na
>verdade, em um espaço restrito de R3. Distribuições BEM diferentes
>terão a mesma média. Então, que sentido há em comparar essas
>médias???? Essa é uma simples decorrência da bobagem de atribuir
>propriedades numéricas onde elas inexistem. (A turma não conhece a
>desigualdade triangular - daí não trepida em "criar" números).
>
>Tenho anotado comigo um elenco de erros assim. E guardo documentos
>exemplares. Um dia, se a rotina me der tempo, escreverei seriamente
>sobre esses casos. Preservando a identidade de pessoas e firmas. Não
>por medo, mas por respeito e consideração às pessoas. Como a comédia
>nasce do drama, poderemos rir... quando deveríamos chorar.
>
>Abs
>
>Zé C.
>
>(estatístico "randomizeiro")
>
>
>
>
>On 10/06/2014 07:09 PM, Marcelo L. Arruda wrote:
>> Por partes:
>>
>> 1 - Aparentemente, o maior problema da forma como as pesquisas são
>> DIVULGADAS é a tal da "margem de erro". Um aspecto que me chamou
>> muito a atenção, por exemplo, foi o JN de sábado ter divulgado,
>> para cada pesquisa (Ibope e Datafolha), porcentagens de intenção de
>> voto sobre o universo total e sobre os votos válidos, e nos dois
>> casos a margem de erro era a mesma ("2 pontos percentuais para cima
>> ou para baixo").
>>
>> Ora, suponham, para facilidade de raciocínio, que os votos válidos
>> sejam 50% do total. Então, a porcentagem de intenções de voto para
>> o candidato fulano no universo dos votos válidos (chamemos p-linha)
>> é o DOBRO da porcentagem de intenções de voto no universo
>> total.(chamemos p). Ora, se p-linha é igual a 2p, então qualquer
>> estimação intervalar sobre p-linha deverá ter o dobro da amplitude
>> (ou seja, "da margem de erro") da mesma estimação feita para p,
>> correto?
>>
>> Sendo assim, se para a transposição de votos no universo total
>> para votos no universo dos válidos os institutos já cometem esse
>> tipo de barbeiragem, vai saber o que mais é feito lá dentro da
>> caixa preta?
>>
>> E tem ainda o "paradoxo dos nanicos": se para TODOS os candidatos
>> a margem de erro era de 2 pontos para mais ou para menos, então o
>> Eymael poderia ter até -2% do total de votos? Ou, pegando o
>> inverso, um candidato que tivesse 99% das intenções de voto poderia
>> ter até 101% do total dos votos?
>>
>> Não sei se é possível, sem acesso às caixas pretas dos institutos,
>> calcular as estimativas intervalares corretas para as intenções de
>> voto em cada candidato. Mas ouso teorizar que essas estimativas
>> estariam mais próximas das porcentagens efetivamente observadas do
>> que as "margens de erro" efetivamente divulgadas pelos institutos.
>>
>>
>> 2 - Não sei há quanto tempo existem as pesquisas de intenção de
>> voto no Brasil. A mais antiga de que eu me lembro data de 1985, na
>> famosa eleição em que Jânio Quadros superou FHC na reta final da
>> campanha para prefeito de São Paulo. Pode ter havido pesquisas
>> anteriores, mas é fato que faz pelo menos 29 anos que isso existe.
>>
>> Pois bem: em 29 anos, as distribuições de sexo, faixa etária,
>> escolaridade, renda etc. por região/estado/cidade/zona/bairro etc.
>> inevitavelmente muda. E falando particularmente das mudanças por
>> que o Brasil passou nesses 29 anos, todos os universos
>> (especialmente nos maiores centros urbanos) ficaram muito mais
>> heterogêneos do que eram décadas atrás. Aí vem a dúvida, então: os
>> institutos utilizam os mesmos planos e estratégias amostrais que
>> usavam 29 anos atrás ou esses planos e estratégias foram sendo
>> atualizados ao longo do tempo? E mais: como essa atualização é
>> operada? Se os institutos usam as suas próprias pesquisas como
>> instrumento de atualização de mapeamento (da distribuição de
>> sexo/faixa etária/renda/whatever por região), isso não pode
>> provocar um vício recursivamente retro-alimentado?
>>
>>
>> 3 - Para concluir, uma curiosidade, caso o Neale possa responder:
>> os cálculos do Pollingdata se baseiam exclusivamente na última
>> pesquisa realizada ou levam em conta o histórico de pesquisas e
>> conseqüentemente uma eventual tendência de crescimento de X ou
>> decrescimento de Y?
>>
>> Marcelo
>>
>> ----- Original Message ----- From: "Jose Carvalho"
>> <carvalho em statistika.com.br> To: <abe-l em ime.usp.br> Sent: Monday,
>> October 06, 2014 5:08 PM Subject: [ABE-L] Desculpem
>>
>>
>>> Não vi o email do George. Chovi no molhado. Desculpe-me George,
>>> desculpem-me todos. A resposta do George, cobre o que acabo de
>>> enviar.
>>>
>>> :-(
>>>
>>>
>>> _______________________________________________ abe mailing list
>>> abe em lists.ime.usp.br
>>> https://lists.ime.usp.br/mailman/listinfo/abe
>>>
>>
>>
>> _______________________________________________ abe mailing list
>> abe em lists.ime.usp.br https://lists.ime.usp.br/mailman/listinfo/abe
>
>--
>Jose Carvalho, PhD
>Statistika
>+55-19-3236-7537 (office)
>+55-19-98139-9927 (cel)
>
>
>_______________________________________________
>abe mailing list
>abe em lists.ime.usp.br
>https://lists.ime.usp.br/mailman/listinfo/abe
>

-- 

There are two routes to success in soccer. One is being good. The other is being lucky. You need both to win a championship. But you only need one to win a game. (The numbers game)

-----------------------------------------------
Neale Ahmed El-Dash
Doutor em Estatística
Celular: +55 19 998893939
Email: neale.eldash em gmail.com

_______________________________________________
abe mailing list
abe em lists.ime.usp.br
https://lists.ime.usp.br/mailman/listinfo/abe
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <https://lists.ime.usp.br/archives/abe/attachments/20141008/5eb899bd/attachment.html>