[ABE-L] RES: Pesquisas de intenção de voto: Minhas reflexões

Luiz Sergio Vaz 400373 em sarah.br
Ter Out 9 08:59:33 -03 2018


Professor,
Obrigado por aprender um pouco mais.
Luiz

De: abe [mailto:abe-bounces em lists.ime.usp.br] Em nome de cpereira em ime.usp.br
Enviada em: segunda-feira, 8 de outubro de 2018 12:30
Para: abe-l em ime.usp.br; g-mae em ime.usp.br; g-mat em ime.usp.br; g-map em ime.usp.br; g-mac em ime.usp.br; rbras em googlegroups.com; Leonardo_Nakau em yahoo.com.br; sw em numberscare.com; neale.eldash em gmail.com; jamazzon em usp.br; elen.spreafico em ufms.br; nalvojr em gmail.com; pauloguilherme.gc em gmail.com; rubiaoliveira em gmail.com; patricia.pereira em ufms.br; mvspreafico em gmail.com
Assunto: [ABE-L] Pesquisas de intenção de voto: Minhas reflexões


CORAJOSOS FORAM OS MEUS COLEGAS E AMIGOS ESTATíSTICOS QUE REALIZARAM
PREDIçõES SOBRE OS RESULTADOS DAS ELEIçõES.  SEMPRE PENSO QUE PARA TER
UM COMPROMISSO DE QUALIDADE COM OS ELEITORES O ESTATíSTICO DEVE PARTICIPAR
DE TODAS AS ETAPAS DA PESQUISA; DA DEFINIçãO DO DESENHO DA AMOSTRAGEM,
PARA A COLETA DOS DADOS, ATé A ANáLISES ESTATíSTICAS DESSES DADOS.
CLARO QUE MEUS COLEGAS, QUE CONSIDERO MUITO COMPETENTES, FIZERAM APENAS O
ESTUDO DOS MéTODOS DE ESTIMAçãO SEM SABER AO CERTO COMO OS DADOS FORAM
COLETADOS. NãO PODEM SER CULPADOS, EM MINHA OPINIãO, POR TANTOS
EQUíVOCOS NAS ESTIMAçõES E PREDIçõES.

CONSTANTEMENTE TENHO SIDO PROCURADO POR JORNALISTAS QUE SEMPRE FAZEM OS
MESMOS QUESTIONAMENTOS: POR QUE AS PESQUISAS REALIZADAS POR DIFERENTES
EMPRESAS PRODUZEM ESTIMATIVAS DãO DIFERENTES?  QUAL A RAZãO DE TANTOS
ERROS DE PREDIçãO, NãO Só NOS NúMEROS, MAS TAMBEM NA ORDEM EM QUE OS
CANDIDATOS APARECEM NA VOTAçãO REAL E NAS AMOSTRAS EM PARTICULAR.

NA SEQUêNCIA APRESENTO MINHAS RESPOSTAS A UMA DAS JORNALISTAS QUE ME
ENTREVISTOU.   TODOS PEDEM UMA ENTREVISTA ORAL, MAS EU PARA NãO TER MEU
DISCURSO MODIFICADO, Só ACEITO RESPONDER POR ESCRITO.  COMPREENDO QUE é
DIFíCIL PARA LEIGOS ENTENDER AS ENTRANHAS DE PROCESSOS TãO TéCNICOS.

AS REFLEXõES QUE AQUI APRESENTO é CONSEQUêNCIA DOS QUESTIONAMENTOS DO
MEU AMIGO E COLEGA ARNALDO MANDEL.  SE VOCê PRETENDE RESPONDER A UM ESTE
BRILHANTE AMIGO, é MELHOR SE PREPARAR E DAR O MELHOR DE SI.

“Jornalista”: Como são desenhadas pesquisas de intenção de voto como
as realizadas por Ibope e Datafolha?

PELO QUE OUçO FALAR, AS PESQUISAS USAM AMOSTRAGEM POR QUOTAS.
PESQUISAM-SE OS NúMEROS DO CENSO E NA AMOSTRA TENTAM REPRODUZIR AS
PORCENTAGENS COMPOSICIONAIS DE CADA UMA DAS CARACTERíSTICAS CONSIDERADAS
RELEVANTES PARA A ESCOLHA DO VOTO. ESTA TENTATIVA DE CóPIA COMPOSICIONAL
DAS VARIáVEIS, DE FORMA INDEPENDENTE ENTRE AS VARIáVEIS, SE DEPENDêNCIAS
NãO HOUVESSEM ENTRE ESSAS CARACTERíSTICAS, PODERIA SER ADEQUADA.  O FATO
DE USAREM SOMENTE AS FREQUêNCIAS MARGINAIS NãO GARANTE UMA CóPIA
AUTêNTICA DA COMPOSIçãO POPULACIONAL. VEJA QUE EU ESTOU CONJECTURANDO,
POIS ME BASEIO AQUI NO QUE OUçO FALAR NAS ENTREVISTAS DOS ESPECIALISTAS.

PARA DESCREVER BEM O QUE PENSO QUE DEVA SER FEITO, UMA AMOSTRAGEM
INTENCIONAL, VAMOS IMAGINAR QUATRO CATEGORIAS RELEVANTES: LOCAL DE
NASCIMENTO (REGIãO DE ORIGEM), CATEGORIA DE IDADES (JOVENS, ADULTOS E
IDOSOS), TIPO DE ZONA (RURAL E URBANA) E CLASSE ECONôMICA (A, B, C E D).
VAMOS TER ASSIM 5 REGIõES, 3 “IDADES”, 2 ZONAS E 4 CLASSES
ECONôMICAS. TERíAMOS ASSIM, PELO MENOS, 120 (= 5X3X2X4) CATEGORIAS
DIFERENTES FORMANDO A POPULAçãO. COM OS DADOS DE NOSSO CENSO POPULACIONAL
OBTERíAMOS A PORCENTAGEM DE INDIVíDUOS EM CADA UMA DESSAS 120
CLASSIFICAçõES. UMA AMOSTRA QUE PODERIA SER CONSIDERADA “BOA” DEVERIA
OBEDECER A ESSAS PORCENTAGENS POPULACIONAIS: AMOSTRAL E POPULAçãO
POSSUIRIAM A MESMA COMPOSIçãO. PARA QUE POSSAMOS AVALIAR A VARIABILIDADE
DO END-POINT (O VOTO) TERíAMOS DE COLETAR PELO MENOS 30 INDIVíDUOS NA
CATEGORIA MENOS POPULOSA. NOTEM QUE SE TODAS AS CATEGORIAS FOSSEM
IGUALMENTE POPULOSAS, TERíAMOS NO MíNIMO UMA AMOSTRA DE 120X30 = 3600
VOTANTES. É CLARO QUE TERíAMOS QUE COLETAR PROPORCIONALMENTE AS AMOSTRAS
DE CATEGORIAS MAIS POPULOSAS. NãO SERIA ABSURDO LIMITARMOS TAMBéM O
TAMANHO MáXIMO DA AMOSTRA DE CADA UMA DAS INúMERAS CATEGORIAS.  NãO é
VIáVEL A EXPLOSãO DO TAMANHO DAS SUBAMOSTRAS NA PESQUISA DE CAMPO!  POR
EXEMPLO, SE A MENOR CATEGORIA TIVESSE 1 MILHãO DE HABITANTES, A CATEGORIA
COM 5 MILHõES TERIA DE NOS DAR UMA AMOSTRA DE 150 VOTANTES.  UMA
AMOSTRAGEM DESSE TIPO, SEM LIMITAR O TAMANHO MáXIMO, PRATICAMENTE
INVIABILIZA QUALQUER PESQUISA, EMBORA O MEU IDEAL SERIA NãO LIMITARMOS O
TAMANHO MáXIMO.  CLARO EU Só FALO ISSO PORQUE NãO SOU EU QUEM FINANCIA
O TRABALHO EXAUSTIVO DE CAMPO.  PODEMOS SIM, PERDENDO UM POUCO DE
PRECISãO, SUBSTITUIR 30 POR 10, MAS MESMO ASSIM A AMOSTRA PODERIA SER
MUITO GRANDE. NO ENTANTO SE PROCURáSSEMOS RESULTADOS DE ELEIçõES
ANTERIORES E COM UMA ANáLISE DE AGRUPAMENTO PODERíAMOS CERTAMENTE
DIMINUIR O TAMANHO DA AMOSTRA CONSIDERANDO-SE AS SUBAMOSTRAS DENTRO DOS
CONGLOMERADOS. TALVEZ Já ESTEJAMOS CAMINHANDO EM CAMPOS ABSTRATOS E
FICARIA DIFíCIL ACOMPANHAR-SE O RACIOCíNIO DA REPRESENTATIVIDADE. EM UMA
PESQUISA QUE FIZEMOS PELA UNIVERSIDADE DE SãO PAULO E APOIO DA FAPESP,
ESTáVAMOS PREVENDO OS RESULTADOS DA ELEIçãO PARA GOVERNADOR NA éPOCA DO
MARIO COVAS. TIVEMOS MUITO SUCESSO MESMO TENDO SUBSTITUíDO RIO PRETO POR
SANTOS QUE é MUITO MAIS PRóXIMO DE SãO PAULO E ESTARIA DENTRO DE NOSSOS
LIMITES ORçAMENTáRIOS.  SANTOS E RIO PRETO ESTAVAM NO MESMO
AGRUPAMENTO.  OS RESPONSáVEIS PELA DIVULGAçãO DE NOSSOS RESULTADOS NãO
DESEJARAM COLOCAR NA MíDIA, POIS ESTAVAM PENSANDO COMO NãO CONSTRUIR
AGLOMERADOS GEOGRáFICOS. QUANDO DIVULGAMOS NOSSOS RESULTADOS, Já ERA
TARDE, POIS OS NúMEROS DA ELEIçãO Já HAVIAM SIDO DIVULGADOS. Há OUTROS
EPISóDIOS QUE VALERIAM DIVULGAR: QUANDO ESTAMOS FAZENDO O TRABALHO MAIS
CIENTíFICO OS RESPONSáVEIS PELA MíDIA NãO ACREDITAM EM PESSOAS QUE NãO
SãO DO RAMO.

Quais são os problemas dessa metodologia? Por que uma mesma base de dados
pode dar resultados diferentes?

NOTEMOS QUE COM AS TéCNICAS ATUALMENTE USADAS INSTITUTOS PODERIAM TER
COMPOSIçõES AMOSTRAIS COMPLETAMENTE DIFERENTES, EMBORA A CóPIA DAS
MARGINAIS DAS VARIáVEIS FOSSE PERFEITA. VAMOS DAR UM EXEMPLO DO QUE PODE
ESTAR ACONTECENDO. NOSSA DRAMATIZAçãO CONSIDERA APENAS DUAS
CARACTERíSTICAS: SEXO E IDADE. AS TRêS TABELAS A SEGUIR APRESENTAM A
COMPOSIçãO POPULACIONAL E AS COMPOSIçõES AMOSTRAIS DE DOIS INSTITUTOS
IMAGINáRIOS:

População
                             Female                        Male              TotAge
Young                   60000                         30000             90000
Adult                     40000                         70000            100000
TotSex                100000                       100000            200000

Intitution 1
                           Female                          Male            TotAge
Young                   900                                   0              900
Adult                     100                             1000             1100
TotSex                 1000                            1000             2000

Institution 2
                        Female                           Male             TotAge
Young                  300                             600                900
Adult                    700                             400               1100
TotSex                1000                           1000              2000


Mais radical ainda, a amostra de um instituto poderia ser de 10 mulheres
jovens e 10 homens adultos enquanto em outro instituto a amostra seria
formada por 10 mulheres adultas e 10 homens jovens.  Note que as
composições marginais das amostras e da população são idênticas.  No
entanto, as composições compostas são completamente diferentes entre as
três tabelas. Poderão assim produzir resultados, além de muito
diferentes, opostos.

Lembremos que muitos referem-se a amostras representativas, mas nunca dizem
o que representam.  Se soubéssemos que fossem representativas dos
resultados, então para que a pesquisa, se já sabemos representar os
resultados das eleições?  Se fossem representativas das composições
populacionais de variáveis, que pensamos ser correlacionadas com os
resultados das pesquisas, e que fossem publicadas como dados censitários
de forma composicionais, a representatividade poderia ser admitida.  Não
é isso que acontece, pois, a representatividade, como dissemos acima é
só marginal.

A análise de conglomerados seria melhor? Por que ela não é adotada?

Da forma que descrevemos as composições, o número de subpopulações
poderia ser enorme se considerarmos todas as variáveis relevantes para a
escolha que o eleitor irá fazer.  Caso dados censitários fossem
descritos não seria absurdo uma análise de conglomerado onde as inúmeras
subpopulações pudessem ser repartidas naquelas mais próximas
composicionalmente. Assim teríamos conglomerados com populações de
subpopulaões a serem selecionadas pela amostragem no conglomerado.  Após
o trabalho estatístico em cada um dos conglomerados proceder-se-ia uma
composição das posteriores pelos conglomerados.  A variabilidade seria
maior, pois a influência de amostras menores iria se manter nesta
meta-analise. (Por meta-análise aqui entendemos a composição de todas as
posteriores nos conglomerados).  O cálculo das posteriores nos
conglomerados supõe variáveis permutáveis no sentido de DeFinetti. Este
trabalho de cálculo probabilístico está em um artigo que escrevemos eu
com Tereza e Adriano, arXiv:1810.01537 [pdf]. Mestre Mandel é o culpado de
escrevermos esse artigo.

O fato de os entrevistadores apresentarem os candidatos ou deixarem em
aberto (espontâneo) altera os resultados. Por quê?

A resposta é simples, se nós não lembramos quem são todos os treze
candidatos da eleição, certamente o eleitor irá esquecer o nome de
alguns. Se em algum momento um indivíduo gostou do discurso de um
candidato pouco conhecido, na hora da entrevista pode simplesmente esquecer
o nome do candidato.

O que é a famosa "margem de erro"?

Os jornalistas e repórteres falam com tanta propriedade em probabilidade e
margem de erros que o meu coração palpita. Quando construímos intervalos
de predição, consideramos os intervalos de menor comprimento de tal forma
que se pudéssemos repetir o experimento uma série de vezes esperaríamos
por exemplo que 95% (ou qualquer outra porcentagem) das vezes o verdadeiro
valor da quantidade que está sendo predita estaria no interior do
intervalo.  Mas com apenas uma amostra o intervalo contém ou não o
verdadeiro valor daquela quantidade. Assim o argumento vem da pergunta: Por
que o meu intervalo seria um dos 5%? De fato, “tenho confiança de 95% de
que o intervalo observado contenha o verdadeiro valor da quantidade
predita”.  Confiança e não probabilidade é o termo correto. Este é
apenas um dos problemas com o discurso dos jornalistas sobre predições.
No caso de porcentagem de votos o único número que permite um intervalo
simétrico em torno dele é 50%. Uma porcentagem de 10% por exemplo, daria
uma assimetria grande, com o acréscimo a direita sendo muito maior do que
o da esquerda. Quero aqui aproveitar para dizer que quando usam o termo
probabilidade e quando usam o mesmo erro para os dois lados com estimativas
diferentes de 50%, estão certamente dando informações equivocadas aos
ouvintes e leitores.

Na visão do senhor, quanto de subjetividade há em uma pesquisa eleitoral?

Não há subjetividade, pois, as pessoas se baseiam em dados reais
coletados.  Se usassem subjetividade certamente iriam perceber que os
tamanhos amostrais usados podem ser os mesmos para populações
completamente diferentes em abundância. Será que a mágica pode ser tão
forte que com 2 mil entrevistados eu possa falar sobre a opinião de 200
milhões de habitantes e falar o mesmo se a população fosse de 200 mil?
O pior é que não se percebe as injustiças que podem ser cometidas.  Um
amigo muito competente trabalhava para uma empresa de pesquisas e previu
que o Brizola estaria na frente do Lula por muito pouco, cerca de 100 mil
votos.  Acontece que deu o contrário.  Lula teve em torno de 16 milhões
e Brizola teve 50 mil a menos. Outra empresa, hoje famosíssima, acertou a
ordem, mas os números foram 20 milhões para o Lula e 15 milhões para o
Brizola.  A segunda foi elogiada e a primeira sofreu muitas críticas.  O
que acham hoje os senhores jornalistas?
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <https://lists.ime.usp.br/archives/abe/attachments/20181009/220c0a0d/attachment.html>


Mais detalhes sobre a lista de discussão abe