[ABE-L] Desculpem

Qua Out 8 13:02:12 -03 2014

Todo mundo esta' afirmando que as pesquisas erraram, mas senti falta de
algum analise mais aprofundada do tema. Pra ajudar a todos que tem
interesse, disponibilizei no link abaixo uma base de dados com as pesquisas
publicadas na data mais proxima ao dia da eleicao, para todas as eleicoes
de Governador  (excecao de RR) e tambem de presidente. Tambem no mesmo
arquivo estao os resultados da apuracao pelo TSE. Dessa forma cada um pode
analisar o resultados e tirar suas proprias conclusoes. Como me dei ao
trabalho de criar essa base, agradeceria se dessem o devido credito ao
Pollingdata.com.br ao utiliza-la.

Link Dados:
https://drive.google.com/file/d/0B_2va6jxqC4JM1FJRHhzREdGMmM/view?usp=sharing

A minha analise da performance das pesquisas eleitorais segue abaixo junto
com alguns comentarios relevantes (longos). Acho que a pergunta que devemos
nos fazer nao e' "Se as pesquisas erraram". Pra essa pergunta, a resposta
sera sempre a mesma: SIM.  Independente se o erro esta dentro da margem de
erro ou nao, elas vao sempre errar (estritamente falando).  A pergunta que
importa, portanto, e' "Porque elas erraram"? Sera'  que o erro cometido por
elas pode ser inteiramente justificado apenas por questoes metodologicas?

1- Existem varios criterios diferentes para avaliar o erro cometido por uma
pesquisa. Criterios baseados na binomial, na multinomial, de dados
composicionais, dependentes do numero de candidatos, etc. No artido [ref1]
o autor apresenta varios criterios. Na minha tese de doutorado faco um
resumo de diversos criterios. Aqui vou utilizar o criterio que acredito ser
o mais simples e facil de interpretar: Absolute Average Difference (AAD).
Simplesmente a media do erros observados absolutos cometidos por cada
pesquisa. Como qualquer criterio, ele pode ser criticado. Por isso inclui a
base de dados nesse email, quem nao gostar da minha analise, que faca a sua.

[ref1] - W. J. Mitofsky. Review: Was 1996 a worse year for polls than 1948?
The Public Opinion Quarterly,62(2):230{249, 1998.
Link para tese -
https://drive.google.com/file/d/0B_2va6jxqC4JcmJBcW9RMlpVRFE/view?usp=sharing

2 - Essas pesquisas sao feitas no mundo real. Pesquisas feitas no mundo
real estao sujeitas a varios outros tipos de erro, alem do erro amostral.
Esses outro tipos de erro sao ainda mais complexos de se julgar do que o
erro amostral, pois nem e' possivel ter uma ideia de quao grandes eles
podem ser numa situacao ideal. No artigo citando na [Ref2], o autor discute
a importancia de varias outras fontes de erro. Aqui estou mais preocupado
com os erros que ocorrem no momento da coleta dos dados.

[ref 2] J. Desart and T. Holbrook. Campaigns, polls, and the states:
Assessing the accuracy of statewide presidential trial-heat polls.
Political Research Quarterly, 56(4):431{439, 2003

Nao inclui' todas as variaveis listadas nesse artigo na base de dados, mas
inclui' "Numero de dias antes da eleicao" e tambem "Percentual de votos
nao-validos". Na minha analise vou apenas falar dessas variaveis e tambem
do tamanho da amostra. A importancia do percentual de votos nao-validos e'
evidente - eles incluem pessoas que dizem Nao Sabe/Nao respondeu/Indecisos
(NS/NR/I). E essa possibilidade de resposta nao existe na eleicao.
Pesquisas que tem um percentual maior de NS/NR/I tendem a errar mais.
Porque?  Porque os eleitores estao indecisos, nao sabem em quem votar. E
olhar apenas os votos validos nao e' uma boa solucao, pois faz a suposicao
"fortissima" de que esses votos serao alocados de forma proporcional ao
voto valido. Usualmente, a verdade nao poderia ser mais distante disso. Por
exemplo, basta olhar como os eleitores que respondem NS/NR/I no primeiro
turno votam no segundo turno.  A correlacao entre a AAD e o %  de "votos
nao-validos"  e' de 0,33. Alem disso, os tres estados com maiores erros
observados (AAD) sao os que tem o maior %  de "votos nao-validos"  (PE, MG
e BA)

3- Olhar apenas a ultima pesquisa de um ciclo eleitoral, ignora totalmente
a questao da dinamica eleitoral, do momentum dos candidatos. Em algum
momento do passado, lembro de alguem escrever pra essa lista dizendo que a
sua maior preocupacao com relacao as pesquisas eleitorais e' que elas
(podem) alteraram a intencao de voto dos eleitores. Eu acho que se esse
argumento ja foi usado contra, tambem tem que ser usado a favor. Supondo
que essa relacao ocorre, estamos considerando que  as pesquisas eleitorais
alteram a intencao de voto, a qual por sua vez tambem altera os resultados
das pesquisas. No livro "The logic of Survey Analysis" o autor descreve
esse tipo de relacao como "Relacao reciproca". Uma causa a outra, e
vice-versa. Sob essa suposicao, e' totalmente plausivel que se as pesquisas
apontam que um candidato esta crescendo, ele comece a crescer ainda mais
rapido. Na vespera da eleicao, mais pesquisas sao divulgadas, e esse efeito
e' catalizado ainda mais. Sob essa perspectiva, as pesquisas aceleram a o
crescimento/queda de alguns candidatos nas vesperas da eleicao. Outro fator
em acao no final da eleicao e' o envolvimento dos eleitores, que parece
ocorrer apenas nas vesperas com uma grande parcela do eleitorado em
potencial.

Independente de serem esses os motivos ou nao, em algumas das pesquisas
mais criticadas por erro, e' evidente que a dinamica da intencao de voto
esta se alterando. Especificamente as eleicoes para presidente e para
Governador nos estados de RS, PE, RJ e BA. Nessas eleicoes nao ha como
afirmar categoricamente que as pesquisas erraram por causa da metodologia.
As pesquisas retratam o passado. Olhem as graficos no link abaixo, onde
mostro a serie completa desses estados. E' obvio que a dinamica eleitoral
e' em grande parte responsavel pelos erros observados. Ainda mais se
considerarmos que as proprias pesquisas podem impulsionar esses movimentos
como argumentei no paragrafo anterior. Nesses casos, se o objetivo e' fazer
uma analise imparcial da performance das pesquisas, claramente nao e'
possivel atribuir todo o erro observado a metodologia das pesquisas.

Link para os graficos:
https://drive.google.com/file/d/0B_2va6jxqC4JRmNmalZuV2Nsdnc/view?usp=sharing

Em estados onde nao foram feitas pesquisas na vespera da eleicao, e'
impossivel dizer se a dinamica eleitoral se alterou ou nao. Por isso uso
tambem como indicador o numero de dias antes da eleicao que a pesquisa foi
publicada. Quanto mais dias antes, mais facil de da pesquisa errar.

Abaixo inclui' uma tabela com o resumo de todos os resultados. Os
resultados estao ordenados da eleicao com a maior diferenca entre erro
amostral e erro observado, para a menor diferenca. A ultima coluna tem as
observacoes sobre cada eleicao, ressaltando pontos que acho importantes que
nao estao relacionados com a metodologida dos institutos. Eu geralmente
utilizo um fator de ajuste, aprox. sqrt(1.3), para calcular o erro amostral
em funcao do tamanho da amostra, pois sei que utilizam amostragem por
conglomerados e nao amostragem aleatoria simples. Mas nao fiz isso aqui pra
ninguem dizer que estou tentando favorecer aos institutos.

Meu ponto e':  O mundo nao e' preto e branco. O que importa nao e' se as
pesquisas erraram, mas se elas erraram por causa da metodologia que elas
utilizam.  Esse e' o X da questao. Nao acredito que a resposta seja tao
obvia quanto todo mundo parece estar afirmando. Pra quem quer equalizar
erro observado com erro amostral, pode parecer que sim. Mas o mundo real e'
bem mais complexo que isso. Nao acho justo jogar a responsabilidade de
absolutamente todos os erros na metodologia dos institutos de pesquisa. Com
certeza a metodologia pode ser melhorada, ate porque imagino que para fazer
uma pesquisa em 2 dias (com uma pressao enorme), nao e' possivel manter
todos os controles de qualidade usualmente utilizados. Mas uma parcela
(grande?) dos erros, de fato, nao e' culpa da metodologia utilizada.

Neale

     Estado % de Votos nao-validos Dias antes da eleicao Tamanho da
amostra erro
amostral (sob AAS) Erro Medio Observado     (AAD)  Diferenca Observacao
Pernambuco 22% 1 2002 2,2% 6,9% 4,7% Dinamica mudou  Minas Gerais 24% 1 2002
2,2% 6,9% 4,6% % alto de Nao validos  Bahia 22% 1 2002 2,2% 6,0% 3,8% Dinamica
mudou  Amazonas 9% 3 1512 2,6% 5,3% 2,7% 3 dias ou mais antes  Brasil 12% 1
3010 1,8% 3,9% 2,1% Dinamica mudou  Santa Catarina 16% 2 1610 2,5% 4,3% 1,8%
   Tocantins 14% 1 812 3,5% 5,3% 1,8%    Rio Grande do Sul 14% 1 1886 2,3%
3,9% 1,6% Dinamica mudou  Piauí 5% 3 812 3,5% 4,9% 1,4%    Mato Grosso do
Sul 15% 10 1008 3,1% 4,3% 1,1% 3 dias ou mais antes  Rio de Janeiro 13% 1
1949 2,3% 3,0% 0,7% Dinamica mudou  Paraná 13% 1 1512 2,6% 3,2% 0,6%    São
Paulo 21% 1 2002 2,2% 2,5% 0,3% % alto de Nao validos  Maranhão 17% 3 1204
2,9% 3,2% 0,4% 3 dias ou mais antes  Rondônia 10% 3 812 3,5% 3,7% 0,2% 3
dias ou mais antes  Goiás 14% 5 812 3,5% 3,6% 0,1% 3 dias ou mais antes
Acre 6% 3 812 3,5% 3,1% -0,4%    Amapá 5% 2 812 3,5% 3,0% -0,5%    Pará 11%
1 812 3,5% 3,0% -0,5%    Alagoas 15% 3 812 3,5% 3,0% -0,5%    Distrito
Federal 12% 1 1646 2,5% 1,8% -0,7%    Ceará 17% 1 1610 2,5% 1,8% -0,7%
   Espírito
Santo 19% 2 812 3,5% 2,6% -0,9%    Rio Grande do Norte 21% 2 812 3,5% 2,2%
-1,3%    Mato Grosso 13% 3 812 3,5% 1,4% -2,1%    Sergipe 16% 1 812 3,5%
1,0% -2,5%    Paraíba 11% 1 812 3,5% 0,5% -3,0%

Em 7 de outubro de 2014 08:52, Jose Carvalho <carvalho em statistika.com.br>
escreveu:

> Colegas, bom dia!
>
> De fato. A margem de erro dessas pesquisa é desconhecida. Não se
> justifica o cálculo feito pelos "institutos", que carece de base.
>
> E mais um problema, do qual ninguém fala: trata-se de uma resposta
> multinomial. Em geral, são vários candidatos, mais de dois. E a margem
> de erro é dada para cada um e todos, uma só. Pelas marginais
> certamente, sem levar em conta as estimativas dos demais. Não é uma
> graça?
>
> Mas é assim em toda parte, no que toca a abusos de estatística. Tenho
> relatórios de pesquisas com consumidores, feitas por "institutos"
> internacionais, em que vários produtos são testados. Às respostas
> multinomiais são atribuídos números e esses escores são tratados como
> numéricos. As comparações de produtos são feitas dois a dois, por
> testes t. E nem sequer correções dos níveis de significância são
> calculados para esses numerosos testes. Quer dizer - está tudo errado.
> Ali onde um teste global apropriado seria baseado em simples tabela de
> contingência, isso não é feito. Diga-se de passagem: embora cada
> "célula" (como são chamados os grupos de tratamento pelos neófitos que
> redescobriram a estatística, sem dar crédito aos antecessores) tenha
> 100 ou mais testadores, o fato é que se encontra um menor número de
> comparações significantes. Assim, muitos testes t baseados em falsa
> resposta numérica "dá maior poder". Essa frase me foi dita, como
> justificativa. Dói no ouvido.
>
> Posso mencionar também, nesta mesma área, testes de equivalência, ou
> de não inferioridade, que são testados como testes de simples
> diferença, pois "o tamanho do experimento aumenta"...
>
> Mas os relatórios são lindos ("flashy") e apresentados a clientes que
> não tem a menor ideia de estatística. Alguns desses clientes são
> oriundos dessa área nos "institutos" e outros irão trabalhar ali. E
> não são estatísticos. Ninguém percebe coisa alguma.
>
> Temos problemas sérios. Em geral, não se percebem erros. Quem vai
> verificar e o que verificar? São raros os casos em que trabalhos de
> pesquisa podem ser verificados. Um tipo de trabalho assim é o quick
> count feito pela OEA, baseado em contagem paralela de resultados de
> urnas eleitorais, feito por amostragem. Carlinhos, Julinho e eu
> fizemos esse trabalho em alguns países. Aliás, não usamos nada
> Bayesiano. Bem que o Carlinhos fez algo Bayesiano, uma vez, mas o
> trabalho que fizemos e cujos resultados apresentamos foi baseado em
> amostragem aleatória estratificada. E deu certo em todas as vezes.
> Depois de nós, o trabalho seguiu em muitas eleições, tocado pelo
> Antônio Amarante, feito do jeito que nós fizéramos antes. Sem erro!
> Claro, tínhamos cadastros das urnas e  exércitos de apuradores. Não é
> difícil. E funciona. Com verossimilhança flat e tudo, né Carlinhos?
> Enfim, isso é verificar o resultado da amostragem... onde mais é possível?
>
> E já que mencionei meu amigo Carlinhos: chefe, amostragem por quota
> nada tem de Bayesiano. Você forçou um elemento na discussão, que vai
> levar a gente para fora do foco.
>
> Voltando ao problema da má prática - que outro nome dar? - este é um
> problema insolúvel. O que podemos é tentar fazer direito de nossa
> parte. Nem isso é possível, muitas vezes. Em uma certa firma, o
> gerente, que se pode dizer meu amigo, foi confrontado com esses
> problemas. Ele se convenceu de que havia erro em não se usar as
> respostas como discretas (usava os escores fajutos). Ao fim, ele me
> perguntou se o tamanho de amostra poderia ser o mesmo que era usado
> para encontrar-se diferenças de... médias. Eu disse que não. Então ele
> me disse: "Olha, todo mundo faz assim. Eu tenho um orçamento limitado.
> Nossa assessora também é professora, embora não de estatística e usa
> os escores numéricos e testes t. Eu continuarei a fazer como se faz,
> como ela faz." Quero dizer - nem dá para fazermos direito.
>
> PS Sobre o uso de médias para comparar-se distribuições com suporte
> sobre um número finito de pontos (que chic!  estou só falando de
> poucas categorias, como os inteiros de 1 a 5)
>
> Vejam só. Se a resposta for a contagem de ovos defeituosos em uma
> caixa, tem sentido calcular-se a média. Pois em N caixas, a proporção
> de defeituosos será Np. Até aqui, tudo bem. A contagem é um número.
>
> Mas certas respostas não se somam. Por exemplo, a agradabilidade de um
> produto. Se você gosta muito e eu não, nossa média é?... Neste caso,
> como sempre, interessa saber as proporções de cada classe, p1,...,p5.
> E a "média" nada significa, no sentido de que não determina, nem de
> leve, a distribuição {pi}. É fácil ver (pelo menos para nós, desta lista)
>
> Com a média fixada em M, temos duas equações lineares:
>
> p1+p2+p3+p4+p5 = 1
> 1 p1+2 p2 +3 p3 + 4 p4 + 5p5 = M
>
> (Claro, todos os 0<=pi <=1)
>
> Pois bem - haverá um número infinito de soluções para os p (na
> verdade, em um espaço restrito de R3. Distribuições BEM diferentes
> terão a mesma média. Então, que sentido há em comparar essas
> médias???? Essa é uma simples decorrência da bobagem de atribuir
> propriedades numéricas onde elas inexistem. (A turma não conhece a
> desigualdade triangular - daí não trepida em "criar" números).
>
> Tenho anotado comigo um elenco de erros assim. E guardo documentos
> exemplares. Um dia, se a rotina me der tempo, escreverei seriamente
> sobre esses casos. Preservando a identidade de pessoas e firmas. Não
> por medo, mas por respeito e consideração às pessoas. Como a comédia
> nasce do drama, poderemos rir... quando deveríamos chorar.
>
> Abs
>
> Zé C.
>
> (estatístico "randomizeiro")
>
>
>
> On 10/06/2014 07:09 PM, Marcelo L. Arruda wrote:
> > Por partes:
> >
> > 1 - Aparentemente, o maior problema da forma como as pesquisas são
> > DIVULGADAS é a tal da "margem de erro". Um aspecto que me chamou
> > muito a atenção, por exemplo, foi o JN de sábado ter divulgado,
> > para cada pesquisa (Ibope e Datafolha), porcentagens de intenção de
> > voto sobre o universo total e sobre os votos válidos, e nos dois
> > casos a margem de erro era a mesma ("2 pontos percentuais para cima
> > ou para baixo").
> >
> > Ora, suponham, para facilidade de raciocínio, que os votos válidos
> > sejam 50% do total. Então, a porcentagem de intenções de voto para
> > o candidato fulano no universo dos votos válidos (chamemos p-linha)
> > é o DOBRO da porcentagem de intenções de voto no universo
> > total.(chamemos p). Ora, se p-linha é igual a 2p, então qualquer
> > estimação intervalar sobre p-linha deverá ter o dobro da amplitude
> > (ou seja, "da margem de erro") da mesma estimação feita para p,
> > correto?
> >
> > Sendo assim, se para a transposição de votos no universo total
> > para votos no universo dos válidos os institutos já cometem esse
> > tipo de barbeiragem, vai saber o que mais é feito lá dentro da
> > caixa preta?
> >
> > E tem ainda o "paradoxo dos nanicos": se para TODOS os candidatos
> > a margem de erro era de 2 pontos para mais ou para menos, então o
> > Eymael poderia ter até -2% do total de votos? Ou, pegando o
> > inverso, um candidato que tivesse 99% das intenções de voto poderia
> > ter até 101% do total dos votos?
> >
> > Não sei se é possível, sem acesso às caixas pretas dos institutos,
> > calcular as estimativas intervalares corretas para as intenções de
> > voto em cada candidato. Mas ouso teorizar que essas estimativas
> > estariam mais próximas das porcentagens efetivamente observadas do
> > que as "margens de erro" efetivamente divulgadas pelos institutos.
> >
> >
> > 2 - Não sei há quanto tempo existem as pesquisas de intenção de
> > voto no Brasil. A mais antiga de que eu me lembro data de 1985, na
> > famosa eleição em que Jânio Quadros superou FHC na reta final da
> > campanha para prefeito de São Paulo. Pode ter havido pesquisas
> > anteriores, mas é fato que faz pelo menos 29 anos que isso existe.
> >
> > Pois bem: em 29 anos, as distribuições de sexo, faixa etária,
> > escolaridade, renda etc. por região/estado/cidade/zona/bairro etc.
> > inevitavelmente muda. E falando particularmente das mudanças por
> > que o Brasil passou nesses 29 anos, todos os universos
> > (especialmente nos maiores centros urbanos) ficaram muito mais
> > heterogêneos do que eram décadas atrás. Aí vem a dúvida, então: os
> > institutos utilizam os mesmos planos e estratégias amostrais que
> > usavam 29 anos atrás ou esses planos e estratégias foram sendo
> > atualizados ao longo do tempo? E mais: como essa atualização é
> > operada? Se os institutos usam as suas próprias pesquisas como
> > instrumento de atualização de mapeamento (da distribuição de
> > sexo/faixa etária/renda/whatever por região), isso não pode
> > provocar um vício recursivamente retro-alimentado?
> >
> >
> > 3 - Para concluir, uma curiosidade, caso o Neale possa responder:
> > os cálculos do Pollingdata se baseiam exclusivamente na última
> > pesquisa realizada ou levam em conta o histórico de pesquisas e
> > conseqüentemente uma eventual tendência de crescimento de X ou
> > decrescimento de Y?
> >
> > Marcelo
> >
> > ----- Original Message ----- From: "Jose Carvalho"
> > <carvalho em statistika.com.br> To: <abe-l em ime.usp.br> Sent: Monday,
> > October 06, 2014 5:08 PM Subject: [ABE-L] Desculpem
> >
> >
> >> Não vi o email do George. Chovi no molhado. Desculpe-me George,
> >> desculpem-me todos. A resposta do George, cobre o que acabo de
> >> enviar.
> >>
> >> :-(
> >>
> >>
> >> _______________________________________________ abe mailing list
> >> abe em lists.ime.usp.br
> >> https://lists.ime.usp.br/mailman/listinfo/abe
> >>
> >
> >
> > _______________________________________________ abe mailing list
> > abe em lists.ime.usp.br https://lists.ime.usp.br/mailman/listinfo/abe
>
> --
> Jose Carvalho, PhD
> Statistika
> +55-19-3236-7537 (office)
> +55-19-98139-9927 (cel)
>
> _______________________________________________
> abe mailing list
> abe em lists.ime.usp.br
> https://lists.ime.usp.br/mailman/listinfo/abe
>

-- 

There are two routes to success in soccer. One is being good. The other is
being lucky. You need both to win a championship. But you only need one to
win a game. (The numbers game)

-----------------------------------------------
Neale Ahmed El-Dash
Doutor em Estatística
Celular: +55 19 998893939
Email: neale.eldash em gmail.com
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <https://lists.ime.usp.br/archives/abe/attachments/20141008/db86bb0a/attachment.html>