Caros, <div><br></div><div>Fico feliz que o tema tenha aparecido aqui. Fico grato (como sempre) ao mestre Carlinhos por todos os ensinamentos.</div><div><br></div><div>Minha opinião é a seguinte<div dir="auto"><br></div><div dir="auto">Depois das eleições, todo mundo vai comparar o resultado das pesquisas de 06/10 com as proporções de votos e perguntar para nós "por que deu errado"?<br><br>Minha sugestão de resposta é:</div><div dir="auto"><br></div><div dir="auto">Por favor, não façam isso acriticamente. Não é assim que se avalia a qualidade de pesquisas eleitorais. Dois links podem que ajudar nesse sentido:<br><br>1. Por quê essa comparação é equivocada?<br><br><a href="https://www.curso-r.com/blog/2018-08-31-eleitorais/">https://www.curso-r.com/blog/2018-08-31-eleitorais/</a><br><br>2. Então como faz pra detectar problemas?<br><br>A partir do viés sistemático de institutos contra outros institutos.<br><br><a href="https://www.jota.info/dados/agregador-de-pesquisas/house-effects-institutos-pesquisas-19092018">https://www.jota.info/dados/agregador-de-pesquisas/house-effects-institutos-pesquisas-19092018</a></div><div dir="auto"><br></div><div dir="auto">Obrigado</div><div dir="auto">Abs<br><br><div class="gmail_quote"><div dir="ltr">On Mon, Oct 8, 2018, 12:43 Alfredo Salgado <<a href="mailto:fred20br@hotmail.com">fred20br@hotmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">




<div dir="ltr">
<div id="m_639019751087419873divtagdefaultwrapper" style="font-size:12pt;color:#000000;font-family:Calibri,Helvetica,sans-serif" dir="ltr">
<p style="margin-top:0;margin-bottom:0">Para mim o maior problema é que as pesquisas não consideram a intenção de voto, no geral, uma das perguntas que sinto falta em algumas pesquisas é a ausencia da pergunta sobre a intenção de votar. Muito declaram "votar"
 em candidato A ou B, mas sequer irão votar no dia e já sabem com antecedência disso. Com abstenções em 20% isso influencia muito.</p>
<br>
<br>
<div style="color:rgb(0,0,0)">
<hr style="display:inline-block;width:98%">
<div id="m_639019751087419873divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" style="font-size:11pt" color="#000000"><b>De:</b> abe <<a href="mailto:abe-bounces@lists.ime.usp.br" target="_blank">abe-bounces@lists.ime.usp.br</a>> em nome de <a href="mailto:cpereira@ime.usp.br" target="_blank">cpereira@ime.usp.br</a> <<a href="mailto:cpereira@ime.usp.br" target="_blank">cpereira@ime.usp.br</a>><br>
<b>Enviado:</b> segunda-feira, 8 de outubro de 2018 12:30<br>
<b>Para:</b> <a href="mailto:abe-l@ime.usp.br" target="_blank">abe-l@ime.usp.br</a>; <a href="mailto:g-mae@ime.usp.br" target="_blank">g-mae@ime.usp.br</a>; <a href="mailto:g-mat@ime.usp.br" target="_blank">g-mat@ime.usp.br</a>; <a href="mailto:g-map@ime.usp.br" target="_blank">g-map@ime.usp.br</a>; <a href="mailto:g-mac@ime.usp.br" target="_blank">g-mac@ime.usp.br</a>; <a href="mailto:rbras@googlegroups.com" target="_blank">rbras@googlegroups.com</a>; <a href="mailto:Leonardo_Nakau@yahoo.com.br" target="_blank">Leonardo_Nakau@yahoo.com.br</a>; <a href="mailto:sw@numberscare.com" target="_blank">sw@numberscare.com</a>; <a href="mailto:neale.eldash@gmail.com" target="_blank">neale.eldash@gmail.com</a>; <a href="mailto:jamazzon@usp.br" target="_blank">jamazzon@usp.br</a>; <a href="mailto:elen.spreafico@ufms.br" target="_blank">elen.spreafico@ufms.br</a>; <a href="mailto:nalvojr@gmail.com" target="_blank">nalvojr@gmail.com</a>;
 <a href="mailto:pauloguilherme.gc@gmail.com" target="_blank">pauloguilherme.gc@gmail.com</a>; <a href="mailto:rubiaoliveira@gmail.com" target="_blank">rubiaoliveira@gmail.com</a>; <a href="mailto:patricia.pereira@ufms.br" target="_blank">patricia.pereira@ufms.br</a>; <a href="mailto:mvspreafico@gmail.com" target="_blank">mvspreafico@gmail.com</a><br>
<b>Assunto:</b> [ABE-L] Pesquisas de intenção de voto: Minhas reflexões</font>
<div> </div>
</div></div></div></div><div dir="ltr"><div id="m_639019751087419873divtagdefaultwrapper" style="font-size:12pt;color:#000000;font-family:Calibri,Helvetica,sans-serif" dir="ltr"><div style="color:rgb(0,0,0)">

<div style="font-family:Arial;font-size:14px">
<p><span style="color:#ff0000"><strong>CORAJOSOS FORAM OS MEUS COLEGAS E AMIGOS ESTATíSTICOS QUE REALIZARAM<br>
PREDIçõES SOBRE OS RESULTADOS DAS ELEIçõES.  SEMPRE PENSO QUE PARA TER<br>
UM COMPROMISSO DE QUALIDADE COM OS ELEITORES O ESTATíSTICO DEVE PARTICIPAR<br>
DE TODAS AS ETAPAS DA PESQUISA; DA DEFINIçãO DO DESENHO DA AMOSTRAGEM,<br>
PARA A COLETA DOS DADOS, ATé A ANáLISES ESTATíSTICAS DESSES DADOS. <br>
CLARO QUE MEUS COLEGAS, QUE CONSIDERO MUITO COMPETENTES, FIZERAM APENAS O<br>
ESTUDO DOS MéTODOS DE ESTIMAçãO SEM SABER AO CERTO COMO OS DADOS FORAM<br>
COLETADOS. NãO PODEM SER CULPADOS, EM MINHA OPINIãO, POR TANTOS<br>
EQUíVOCOS NAS ESTIMAçõES E PREDIçõES.</strong></span><br>
<br>
<strong><span style="color:#ff0000">CONSTANTEMENTE TENHO SIDO PROCURADO POR JORNALISTAS QUE SEMPRE FAZEM OS<br>
MESMOS QUESTIONAMENTOS: POR QUE AS PESQUISAS REALIZADAS POR DIFERENTES<br>
EMPRESAS PRODUZEM ESTIMATIVAS DãO DIFERENTES?  QUAL A RAZãO DE TANTOS<br>
ERROS DE PREDIçãO, NãO Só NOS NúMEROS, MAS TAMBEM NA ORDEM EM QUE OS<br>
CANDIDATOS APARECEM NA VOTAçãO REAL E NAS AMOSTRAS EM PARTICULAR.</span></strong><br>
<br>
<strong><span style="color:#ff0000">NA SEQUêNCIA APRESENTO MINHAS RESPOSTAS A UMA DAS JORNALISTAS QUE ME<br>
ENTREVISTOU.   TODOS PEDEM UMA ENTREVISTA ORAL, MAS EU PARA NãO TER MEU<br>
DISCURSO MODIFICADO, Só ACEITO RESPONDER POR ESCRITO.  COMPREENDO QUE é<br>
DIFíCIL PARA LEIGOS ENTENDER AS ENTRANHAS DE PROCESSOS TãO TéCNICOS.<br>
<br>
AS REFLEXõES QUE AQUI APRESENTO é CONSEQUêNCIA DOS QUESTIONAMENTOS DO<br>
MEU AMIGO E COLEGA ARNALDO MANDEL.  SE VOCê PRETENDE RESPONDER A UM ESTE<br>
BRILHANTE AMIGO, é MELHOR SE PREPARAR E DAR O MELHOR DE SI.</span></strong><br>
<br>
<strong>“Jornalista”: Como são desenhadas pesquisas de intenção de voto como<br>
as realizadas por Ibope e Datafolha?</strong><br>
<br>
<strong><span style="color:#ff0000">PELO QUE OUçO FALAR, AS PESQUISAS USAM AMOSTRAGEM POR QUOTAS. <br>
PESQUISAM-SE OS NúMEROS DO CENSO E NA AMOSTRA TENTAM REPRODUZIR AS<br>
PORCENTAGENS COMPOSICIONAIS DE CADA UMA DAS CARACTERíSTICAS CONSIDERADAS<br>
RELEVANTES PARA A ESCOLHA DO VOTO. ESTA TENTATIVA DE CóPIA COMPOSICIONAL<br>
DAS VARIáVEIS, DE FORMA INDEPENDENTE ENTRE AS VARIáVEIS, SE DEPENDêNCIAS<br>
NãO HOUVESSEM ENTRE ESSAS CARACTERíSTICAS, PODERIA SER ADEQUADA.  O FATO<br>
DE USAREM SOMENTE AS FREQUêNCIAS MARGINAIS NãO GARANTE UMA CóPIA<br>
AUTêNTICA DA COMPOSIçãO POPULACIONAL. VEJA QUE EU ESTOU CONJECTURANDO,<br>
POIS ME BASEIO AQUI NO QUE OUçO FALAR NAS ENTREVISTAS DOS ESPECIALISTAS.<br>
<br>
PARA DESCREVER BEM O QUE PENSO QUE DEVA SER FEITO, UMA AMOSTRAGEM<br>
INTENCIONAL, VAMOS IMAGINAR QUATRO CATEGORIAS RELEVANTES: LOCAL DE<br>
NASCIMENTO (REGIãO DE ORIGEM), CATEGORIA DE IDADES (JOVENS, ADULTOS E<br>
IDOSOS), TIPO DE ZONA (RURAL E URBANA) E CLASSE ECONôMICA (A, B, C E D).<br>
VAMOS TER ASSIM 5 REGIõES, 3 “IDADES”, 2 ZONAS E 4 CLASSES<br>
ECONôMICAS. TERíAMOS ASSIM, PELO MENOS, 120 (= 5X3X2X4) CATEGORIAS<br>
DIFERENTES FORMANDO A POPULAçãO. COM OS DADOS DE NOSSO CENSO POPULACIONAL<br>
OBTERíAMOS A PORCENTAGEM DE INDIVíDUOS EM CADA UMA DESSAS 120<br>
CLASSIFICAçõES. UMA AMOSTRA QUE PODERIA SER CONSIDERADA “BOA” DEVERIA<br>
OBEDECER A ESSAS PORCENTAGENS POPULACIONAIS: AMOSTRAL E POPULAçãO<br>
POSSUIRIAM A MESMA COMPOSIçãO. PARA QUE POSSAMOS AVALIAR A VARIABILIDADE<br>
DO END-POINT (O VOTO) TERíAMOS DE COLETAR PELO MENOS 30 INDIVíDUOS NA<br>
CATEGORIA MENOS POPULOSA. NOTEM QUE SE TODAS AS CATEGORIAS FOSSEM<br>
IGUALMENTE POPULOSAS, TERíAMOS NO MíNIMO UMA AMOSTRA DE 120X30 = 3600<br>
VOTANTES. É CLARO QUE TERíAMOS QUE COLETAR PROPORCIONALMENTE AS AMOSTRAS<br>
DE CATEGORIAS MAIS POPULOSAS. NãO SERIA ABSURDO LIMITARMOS TAMBéM O<br>
TAMANHO MáXIMO DA AMOSTRA DE CADA UMA DAS INúMERAS CATEGORIAS.  NãO é<br>
VIáVEL A EXPLOSãO DO TAMANHO DAS SUBAMOSTRAS NA PESQUISA DE CAMPO!  POR<br>
EXEMPLO, SE A MENOR CATEGORIA TIVESSE 1 MILHãO DE HABITANTES, A CATEGORIA<br>
COM 5 MILHõES TERIA DE NOS DAR UMA AMOSTRA DE 150 VOTANTES.  UMA<br>
AMOSTRAGEM DESSE TIPO, SEM LIMITAR O TAMANHO MáXIMO, PRATICAMENTE<br>
INVIABILIZA QUALQUER PESQUISA, EMBORA O MEU IDEAL SERIA NãO LIMITARMOS O<br>
TAMANHO MáXIMO.  CLARO EU Só FALO ISSO PORQUE NãO SOU EU QUEM FINANCIA<br>
O TRABALHO EXAUSTIVO DE CAMPO.  PODEMOS SIM, PERDENDO UM POUCO DE<br>
PRECISãO, SUBSTITUIR 30 POR 10, MAS MESMO ASSIM A AMOSTRA PODERIA SER<br>
MUITO GRANDE. NO ENTANTO SE PROCURáSSEMOS RESULTADOS DE ELEIçõES<br>
ANTERIORES E COM UMA ANáLISE DE AGRUPAMENTO PODERíAMOS CERTAMENTE<br>
DIMINUIR O TAMANHO DA AMOSTRA CONSIDERANDO-SE AS SUBAMOSTRAS DENTRO DOS<br>
CONGLOMERADOS. TALVEZ Já ESTEJAMOS CAMINHANDO EM CAMPOS ABSTRATOS E<br>
FICARIA DIFíCIL ACOMPANHAR-SE O RACIOCíNIO DA REPRESENTATIVIDADE. EM UMA<br>
PESQUISA QUE FIZEMOS PELA UNIVERSIDADE DE SãO PAULO E APOIO DA FAPESP,<br>
ESTáVAMOS PREVENDO OS RESULTADOS DA ELEIçãO PARA GOVERNADOR NA éPOCA DO<br>
MARIO COVAS. TIVEMOS MUITO SUCESSO MESMO TENDO SUBSTITUíDO RIO PRETO POR<br>
SANTOS QUE é MUITO MAIS PRóXIMO DE SãO PAULO E ESTARIA DENTRO DE NOSSOS<br>
LIMITES ORçAMENTáRIOS.  SANTOS E RIO PRETO ESTAVAM NO MESMO<br>
AGRUPAMENTO.  OS RESPONSáVEIS PELA DIVULGAçãO DE NOSSOS RESULTADOS NãO<br>
DESEJARAM COLOCAR NA MíDIA, POIS ESTAVAM PENSANDO COMO NãO CONSTRUIR<br>
AGLOMERADOS GEOGRáFICOS. QUANDO DIVULGAMOS NOSSOS RESULTADOS, Já ERA<br>
TARDE, POIS OS NúMEROS DA ELEIçãO Já HAVIAM SIDO DIVULGADOS. Há OUTROS<br>
EPISóDIOS QUE VALERIAM DIVULGAR: QUANDO ESTAMOS FAZENDO O TRABALHO MAIS<br>
CIENTíFICO OS RESPONSáVEIS PELA MíDIA NãO ACREDITAM EM PESSOAS QUE NãO<br>
SãO DO RAMO.</span></strong><br>
<br>
<strong>Quais são os problemas dessa metodologia? Por que uma mesma base de dados<br>
pode dar resultados diferentes?</strong><br>
<br>
<strong><span style="color:#ff0000">NOTEMOS QUE COM AS TéCNICAS ATUALMENTE USADAS INSTITUTOS PODERIAM TER<br>
COMPOSIçõES AMOSTRAIS COMPLETAMENTE DIFERENTES, EMBORA A CóPIA DAS<br>
MARGINAIS DAS VARIáVEIS FOSSE PERFEITA. VAMOS DAR UM EXEMPLO DO QUE PODE<br>
ESTAR ACONTECENDO. NOSSA DRAMATIZAçãO CONSIDERA APENAS DUAS<br>
CARACTERíSTICAS: SEXO E IDADE. AS TRêS TABELAS A SEGUIR APRESENTAM A<br>
COMPOSIçãO POPULACIONAL E AS COMPOSIçõES AMOSTRAIS DE DOIS INSTITUTOS<br>
IMAGINáRIOS:</span></strong><br>
<br>
<strong><span style="color:#0000cd">População<br>
                             Female                        Male              TotAge<br>
Young                   60000                         30000             90000<br>
Adult                     40000                         70000            100000<br>
TotSex                100000                       100000            200000</span></strong><br>
<br>
<strong><span style="color:#0000ff">Intitution 1<br>
                           Female                          Male            TotAge<br>
Young                   900                                   0              900<br>
Adult                     100                             1000             1100<br>
TotSex                 1000                            1000             2000</span></strong><br>
<br>
<strong><span style="color:#0000ff">Institution 2<br>
                        Female                           Male             TotAge<br>
Young                  300                             600                900<br>
Adult                    700                             400               1100<br>
TotSex                1000                           1000              2000</span></strong><br>
<br>
             <br>
<strong><span style="color:#ff0000">Mais radical ainda, a amostra de um instituto poderia ser de 10 mulheres<br>
jovens e 10 homens adultos enquanto em outro instituto a amostra seria<br>
formada por 10 mulheres adultas e 10 homens jovens.  Note que as<br>
composições marginais das amostras e da população são idênticas.  No<br>
entanto, as composições compostas são completamente diferentes entre as<br>
três tabelas. Poderão assim produzir resultados, além de muito<br>
diferentes, opostos.<br>
<br>
Lembremos que muitos referem-se a amostras representativas, mas nunca dizem<br>
o que representam.  Se soubéssemos que fossem representativas dos<br>
resultados, então para que a pesquisa, se já sabemos representar os<br>
resultados das eleições?  Se fossem representativas das composições<br>
populacionais de variáveis, que pensamos ser correlacionadas com os<br>
resultados das pesquisas, e que fossem publicadas como dados censitários<br>
de forma composicionais, a representatividade poderia ser admitida.  Não<br>
é isso que acontece, pois, a representatividade, como dissemos acima é<br>
só marginal.</span></strong><br>
<br>
<strong><strong>A análise de conglomerados seria melhor? Por que ela não é adotada?</strong><br>
<br>
<span style="color:#ff0000">Da forma que descrevemos as composições, o número de subpopulações<br>
poderia ser enorme se considerarmos todas as variáveis relevantes para a<br>
escolha que o eleitor irá fazer.  Caso dados censitários fossem<br>
descritos não seria absurdo uma análise de conglomerado onde as inúmeras<br>
subpopulações pudessem ser repartidas naquelas mais próximas<br>
composicionalmente. Assim teríamos conglomerados com populações de<br>
subpopulaões a serem selecionadas pela amostragem no conglomerado.  Após<br>
o trabalho estatístico em cada um dos conglomerados proceder-se-ia uma<br>
composição das posteriores pelos conglomerados.  A variabilidade seria<br>
maior, pois a influência de amostras menores iria se manter nesta<br>
meta-analise. (Por meta-análise aqui entendemos a composição de todas as<br>
posteriores nos conglomerados).  O cálculo das posteriores nos<br>
conglomerados supõe variáveis permutáveis no sentido de DeFinetti. Este<br>
trabalho de cálculo probabilístico está em um artigo que escrevemos eu<br>
com Tereza e Adriano, arXiv:1810.01537 [pdf]. Mestre Mandel é o culpado de<br>
escrevermos esse artigo.</span></strong><br>
<br>
<strong>O fato de os entrevistadores apresentarem os candidatos ou deixarem em<br>
aberto (espontâneo) altera os resultados. Por quê?</strong><br>
<br>
<strong><span style="color:#ff0000">A resposta é simples, se nós não lembramos quem são todos os treze<br>
candidatos da eleição, certamente o eleitor irá esquecer o nome de<br>
alguns. Se em algum momento um indivíduo gostou do discurso de um<br>
candidato pouco conhecido, na hora da entrevista pode simplesmente esquecer<br>
o nome do candidato.</span></strong><br>
<br>
<strong>O que é a famosa "margem de erro"?</strong><br>
<br>
<strong><span style="color:#ff0000">Os jornalistas e repórteres falam com tanta propriedade em probabilidade e<br>
margem de erros que o meu coração palpita. Quando construímos intervalos<br>
de predição, consideramos os intervalos de menor comprimento de tal forma<br>
que se pudéssemos repetir o experimento uma série de vezes esperaríamos<br>
por exemplo que 95% (ou qualquer outra porcentagem) das vezes o verdadeiro<br>
valor da quantidade que está sendo predita estaria no interior do<br>
intervalo.  Mas com apenas uma amostra o intervalo contém ou não o<br>
verdadeiro valor daquela quantidade. Assim o argumento vem da pergunta: Por<br>
que o meu intervalo seria um dos 5%? De fato, “tenho confiança de 95% de<br>
que o intervalo observado contenha o verdadeiro valor da quantidade<br>
predita”.  Confiança e não probabilidade é o termo correto. Este é<br>
apenas um dos problemas com o discurso dos jornalistas sobre predições. <br>
No caso de porcentagem de votos o único número que permite um intervalo<br>
simétrico em torno dele é 50%. Uma porcentagem de 10% por exemplo, daria<br>
uma assimetria grande, com o acréscimo a direita sendo muito maior do que<br>
o da esquerda. Quero aqui aproveitar para dizer que quando usam o termo<br>
probabilidade e quando usam o mesmo erro para os dois lados com estimativas<br>
diferentes de 50%, estão certamente dando informações equivocadas aos<br>
ouvintes e leitores.</span></strong><br>
<br>
<strong>Na visão do senhor, quanto de subjetividade há em uma pesquisa eleitoral?</strong><br>
<br>
<strong><span style="color:#ff0000">Não há subjetividade, pois, as pessoas se baseiam em dados reais<br>
coletados.  Se usassem subjetividade certamente iriam perceber que os<br>
tamanhos amostrais usados podem ser os mesmos para populações<br>
completamente diferentes em abundância. Será que a mágica pode ser tão<br>
forte que com 2 mil entrevistados eu possa falar sobre a opinião de 200<br>
milhões de habitantes e falar o mesmo se a população fosse de 200 mil? <br>
O pior é que não se percebe as injustiças que podem ser cometidas.  Um<br>
amigo muito competente trabalhava para uma empresa de pesquisas e previu<br>
que o Brizola estaria na frente do Lula por muito pouco, cerca de 100 mil<br>
votos.  Acontece que deu o contrário.  Lula teve em torno de 16 milhões<br>
e Brizola teve 50 mil a menos. Outra empresa, hoje famosíssima, acertou a<br>
ordem, mas os números foram 20 milhões para o Lula e 15 milhões para o<br>
Brizola.  A segunda foi elogiada e a primeira sofreu muitas críticas.  O<br>
que acham hoje os senhores jornalistas?</span></strong></p>
</div>
</div>
</div>
</div>

_______________________________________________<br>
abe mailing list<br>
<a href="mailto:abe@lists.ime.usp.br" target="_blank">abe@lists.ime.usp.br</a><br>
<a href="https://lists.ime.usp.br/listinfo/abe" rel="noreferrer" target="_blank">https://lists.ime.usp.br/listinfo/abe</a><br>
</blockquote></div></div></div>