Caros, <div> </div><div>Fico feliz que o tema tenha aparecido aqui. Fico grato (como sempre) ao mestre Carlinhos por todos os ensinamentos.</div><div> </div><div>Minha opinião é a seguinte<div dir="auto"> </div><div dir="auto">Depois das eleições, todo mundo vai comparar o resultado das pesquisas de 06/10 com as proporções de votos e perguntar para nós "por que deu errado"? Minha sugestão de resposta é:</div><div dir="auto"> </div><div dir="auto">Por favor, não façam isso acriticamente. Não é assim que se avalia a qualidade de pesquisas eleitorais. Dois links podem que ajudar nesse sentido: 1. Por quê essa comparação é equivocada? <a href="https://www.curso-r.com/blog/2018-08-31-eleitorais/">https://www.curso-r.com/blog/2018-08-31-eleitorais/</a> 2. Então como faz pra detectar problemas? A partir do viés sistemático de institutos contra outros institutos. <a href="https://www.jota.info/dados/agregador-de-pesquisas/house-effects-institutos-pesquisas-19092018">https://www.jota.info/dados/agregador-de-pesquisas/house-effects-institutos-pesquisas-19092018</a></div><div dir="auto"> </div><div dir="auto">Obrigado</div><div dir="auto">Abs <div class="gmail_quote"><div dir="ltr">On Mon, Oct 8, 2018, 12:43 Alfredo Salgado <<a href="mailto:fred20br@hotmail.com">fred20br@hotmail.com</a>> wrote: </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"> <div dir="ltr"> <div id="m_639019751087419873divtagdefaultwrapper" style="font-size:12pt;color:#000000;font-family:Calibri,Helvetica,sans-serif" dir="ltr"> Para mim o maior problema é que as pesquisas não consideram a intenção de voto, no geral, uma das perguntas que sinto falta em algumas pesquisas é a ausencia da pergunta sobre a intenção de votar. Muito declaram "votar" em candidato A ou B, mas sequer irão votar no dia e já sabem com antecedência disso. Com abstenções em 20% isso influencia muito. <div style="color:rgb(0,0,0)"> <hr style="display:inline-block;width:98%"> <div id="m_639019751087419873divRplyFwdMsg" dir="ltr">De: abe <<a href="mailto:abe-bounces@lists.ime.usp.br" target="_blank">abe-bounces@lists.ime.usp.br</a>> em nome de <a href="mailto:cpereira@ime.usp.br" target="_blank">cpereira@ime.usp.br</a> <<a href="mailto:cpereira@ime.usp.br" target="_blank">cpereira@ime.usp.br</a>> Enviado: segunda-feira, 8 de outubro de 2018 12:30 Para: <a href="mailto:abe-l@ime.usp.br" target="_blank">abe-l@ime.usp.br</a>; <a href="mailto:g-mae@ime.usp.br" target="_blank">g-mae@ime.usp.br</a>; <a href="mailto:g-mat@ime.usp.br" target="_blank">g-mat@ime.usp.br</a>; <a href="mailto:g-map@ime.usp.br" target="_blank">g-map@ime.usp.br</a>; <a href="mailto:g-mac@ime.usp.br" target="_blank">g-mac@ime.usp.br</a>; <a href="mailto:rbras@googlegroups.com" target="_blank">rbras@googlegroups.com</a>; <a href="mailto:Leonardo_Nakau@yahoo.com.br" target="_blank">Leonardo_Nakau@yahoo.com.br</a>; <a href="mailto:sw@numberscare.com" target="_blank">sw@numberscare.com</a>; <a href="mailto:neale.eldash@gmail.com" target="_blank">neale.eldash@gmail.com</a>; <a href="mailto:jamazzon@usp.br" target="_blank">jamazzon@usp.br</a>; <a href="mailto:elen.spreafico@ufms.br" target="_blank">elen.spreafico@ufms.br</a>; <a href="mailto:nalvojr@gmail.com" target="_blank">nalvojr@gmail.com</a>; <a href="mailto:pauloguilherme.gc@gmail.com" target="_blank">pauloguilherme.gc@gmail.com</a>; <a href="mailto:rubiaoliveira@gmail.com" target="_blank">rubiaoliveira@gmail.com</a>; <a href="mailto:patricia.pereira@ufms.br" target="_blank">patricia.pereira@ufms.br</a>; <a href="mailto:mvspreafico@gmail.com" target="_blank">mvspreafico@gmail.com</a> Assunto: [ABE-L] Pesquisas de intenção de voto: Minhas reflexões <div> </div> </div></div></div></div><div dir="ltr"><div id="m_639019751087419873divtagdefaultwrapper" style="font-size:12pt;color:#000000;font-family:Calibri,Helvetica,sans-serif" dir="ltr"><div style="color:rgb(0,0,0)"> <div style="font-family:Arial;font-size:14px"> CORAJOSOS FORAM OS MEUS COLEGAS E AMIGOS ESTATíSTICOS QUE REALIZARAM PREDIçõES SOBRE OS RESULTADOS DAS ELEIçõES. SEMPRE PENSO QUE PARA TER UM COMPROMISSO DE QUALIDADE COM OS ELEITORES O ESTATíSTICO DEVE PARTICIPAR DE TODAS AS ETAPAS DA PESQUISA; DA DEFINIçãO DO DESENHO DA AMOSTRAGEM, PARA A COLETA DOS DADOS, ATé A ANáLISES ESTATíSTICAS DESSES DADOS. CLARO QUE MEUS COLEGAS, QUE CONSIDERO MUITO COMPETENTES, FIZERAM APENAS O ESTUDO DOS MéTODOS DE ESTIMAçãO SEM SABER AO CERTO COMO OS DADOS FORAM COLETADOS. NãO PODEM SER CULPADOS, EM MINHA OPINIãO, POR TANTOS EQUíVOCOS NAS ESTIMAçõES E PREDIçõES. CONSTANTEMENTE TENHO SIDO PROCURADO POR JORNALISTAS QUE SEMPRE FAZEM OS MESMOS QUESTIONAMENTOS: POR QUE AS PESQUISAS REALIZADAS POR DIFERENTES EMPRESAS PRODUZEM ESTIMATIVAS DãO DIFERENTES? QUAL A RAZãO DE TANTOS ERROS DE PREDIçãO, NãO Só NOS NúMEROS, MAS TAMBEM NA ORDEM EM QUE OS CANDIDATOS APARECEM NA VOTAçãO REAL E NAS AMOSTRAS EM PARTICULAR. NA SEQUêNCIA APRESENTO MINHAS RESPOSTAS A UMA DAS JORNALISTAS QUE ME ENTREVISTOU. TODOS PEDEM UMA ENTREVISTA ORAL, MAS EU PARA NãO TER MEU DISCURSO MODIFICADO, Só ACEITO RESPONDER POR ESCRITO. COMPREENDO QUE é DIFíCIL PARA LEIGOS ENTENDER AS ENTRANHAS DE PROCESSOS TãO TéCNICOS. AS REFLEXõES QUE AQUI APRESENTO é CONSEQUêNCIA DOS QUESTIONAMENTOS DO MEU AMIGO E COLEGA ARNALDO MANDEL. SE VOCê PRETENDE RESPONDER A UM ESTE BRILHANTE AMIGO, é MELHOR SE PREPARAR E DAR O MELHOR DE SI. “Jornalista”: Como são desenhadas pesquisas de intenção de voto como as realizadas por Ibope e Datafolha? PELO QUE OUçO FALAR, AS PESQUISAS USAM AMOSTRAGEM POR QUOTAS. PESQUISAM-SE OS NúMEROS DO CENSO E NA AMOSTRA TENTAM REPRODUZIR AS PORCENTAGENS COMPOSICIONAIS DE CADA UMA DAS CARACTERíSTICAS CONSIDERADAS RELEVANTES PARA A ESCOLHA DO VOTO. ESTA TENTATIVA DE CóPIA COMPOSICIONAL DAS VARIáVEIS, DE FORMA INDEPENDENTE ENTRE AS VARIáVEIS, SE DEPENDêNCIAS NãO HOUVESSEM ENTRE ESSAS CARACTERíSTICAS, PODERIA SER ADEQUADA. O FATO DE USAREM SOMENTE AS FREQUêNCIAS MARGINAIS NãO GARANTE UMA CóPIA AUTêNTICA DA COMPOSIçãO POPULACIONAL. VEJA QUE EU ESTOU CONJECTURANDO, POIS ME BASEIO AQUI NO QUE OUçO FALAR NAS ENTREVISTAS DOS ESPECIALISTAS. PARA DESCREVER BEM O QUE PENSO QUE DEVA SER FEITO, UMA AMOSTRAGEM INTENCIONAL, VAMOS IMAGINAR QUATRO CATEGORIAS RELEVANTES: LOCAL DE NASCIMENTO (REGIãO DE ORIGEM), CATEGORIA DE IDADES (JOVENS, ADULTOS E IDOSOS), TIPO DE ZONA (RURAL E URBANA) E CLASSE ECONôMICA (A, B, C E D). VAMOS TER ASSIM 5 REGIõES, 3 “IDADES”, 2 ZONAS E 4 CLASSES ECONôMICAS. TERíAMOS ASSIM, PELO MENOS, 120 (= 5X3X2X4) CATEGORIAS DIFERENTES FORMANDO A POPULAçãO. COM OS DADOS DE NOSSO CENSO POPULACIONAL OBTERíAMOS A PORCENTAGEM DE INDIVíDUOS EM CADA UMA DESSAS 120 CLASSIFICAçõES. UMA AMOSTRA QUE PODERIA SER CONSIDERADA “BOA” DEVERIA OBEDECER A ESSAS PORCENTAGENS POPULACIONAIS: AMOSTRAL E POPULAçãO POSSUIRIAM A MESMA COMPOSIçãO. PARA QUE POSSAMOS AVALIAR A VARIABILIDADE DO END-POINT (O VOTO) TERíAMOS DE COLETAR PELO MENOS 30 INDIVíDUOS NA CATEGORIA MENOS POPULOSA. NOTEM QUE SE TODAS AS CATEGORIAS FOSSEM IGUALMENTE POPULOSAS, TERíAMOS NO MíNIMO UMA AMOSTRA DE 120X30 = 3600 VOTANTES. É CLARO QUE TERíAMOS QUE COLETAR PROPORCIONALMENTE AS AMOSTRAS DE CATEGORIAS MAIS POPULOSAS. NãO SERIA ABSURDO LIMITARMOS TAMBéM O TAMANHO MáXIMO DA AMOSTRA DE CADA UMA DAS INúMERAS CATEGORIAS. NãO é VIáVEL A EXPLOSãO DO TAMANHO DAS SUBAMOSTRAS NA PESQUISA DE CAMPO! POR EXEMPLO, SE A MENOR CATEGORIA TIVESSE 1 MILHãO DE HABITANTES, A CATEGORIA COM 5 MILHõES TERIA DE NOS DAR UMA AMOSTRA DE 150 VOTANTES. UMA AMOSTRAGEM DESSE TIPO, SEM LIMITAR O TAMANHO MáXIMO, PRATICAMENTE INVIABILIZA QUALQUER PESQUISA, EMBORA O MEU IDEAL SERIA NãO LIMITARMOS O TAMANHO MáXIMO. CLARO EU Só FALO ISSO PORQUE NãO SOU EU QUEM FINANCIA O TRABALHO EXAUSTIVO DE CAMPO. PODEMOS SIM, PERDENDO UM POUCO DE PRECISãO, SUBSTITUIR 30 POR 10, MAS MESMO ASSIM A AMOSTRA PODERIA SER MUITO GRANDE. NO ENTANTO SE PROCURáSSEMOS RESULTADOS DE ELEIçõES ANTERIORES E COM UMA ANáLISE DE AGRUPAMENTO PODERíAMOS CERTAMENTE DIMINUIR O TAMANHO DA AMOSTRA CONSIDERANDO-SE AS SUBAMOSTRAS DENTRO DOS CONGLOMERADOS. TALVEZ Já ESTEJAMOS CAMINHANDO EM CAMPOS ABSTRATOS E FICARIA DIFíCIL ACOMPANHAR-SE O RACIOCíNIO DA REPRESENTATIVIDADE. EM UMA PESQUISA QUE FIZEMOS PELA UNIVERSIDADE DE SãO PAULO E APOIO DA FAPESP, ESTáVAMOS PREVENDO OS RESULTADOS DA ELEIçãO PARA GOVERNADOR NA éPOCA DO MARIO COVAS. TIVEMOS MUITO SUCESSO MESMO TENDO SUBSTITUíDO RIO PRETO POR SANTOS QUE é MUITO MAIS PRóXIMO DE SãO PAULO E ESTARIA DENTRO DE NOSSOS LIMITES ORçAMENTáRIOS. SANTOS E RIO PRETO ESTAVAM NO MESMO AGRUPAMENTO. OS RESPONSáVEIS PELA DIVULGAçãO DE NOSSOS RESULTADOS NãO DESEJARAM COLOCAR NA MíDIA, POIS ESTAVAM PENSANDO COMO NãO CONSTRUIR AGLOMERADOS GEOGRáFICOS. QUANDO DIVULGAMOS NOSSOS RESULTADOS, Já ERA TARDE, POIS OS NúMEROS DA ELEIçãO Já HAVIAM SIDO DIVULGADOS. Há OUTROS EPISóDIOS QUE VALERIAM DIVULGAR: QUANDO ESTAMOS FAZENDO O TRABALHO MAIS CIENTíFICO OS RESPONSáVEIS PELA MíDIA NãO ACREDITAM EM PESSOAS QUE NãO SãO DO RAMO. Quais são os problemas dessa metodologia? Por que uma mesma base de dados pode dar resultados diferentes? NOTEMOS QUE COM AS TéCNICAS ATUALMENTE USADAS INSTITUTOS PODERIAM TER COMPOSIçõES AMOSTRAIS COMPLETAMENTE DIFERENTES, EMBORA A CóPIA DAS MARGINAIS DAS VARIáVEIS FOSSE PERFEITA. VAMOS DAR UM EXEMPLO DO QUE PODE ESTAR ACONTECENDO. NOSSA DRAMATIZAçãO CONSIDERA APENAS DUAS CARACTERíSTICAS: SEXO E IDADE. AS TRêS TABELAS A SEGUIR APRESENTAM A COMPOSIçãO POPULACIONAL E AS COMPOSIçõES AMOSTRAIS DE DOIS INSTITUTOS IMAGINáRIOS: População Female Male TotAge Young 60000 30000 90000 Adult 40000 70000 100000 TotSex 100000 100000 200000 Intitution 1 Female Male TotAge Young 900 0 900 Adult 100 1000 1100 TotSex 1000 1000 2000 Institution 2 Female Male TotAge Young 300 600 900 Adult 700 400 1100 TotSex 1000 1000 2000 Mais radical ainda, a amostra de um instituto poderia ser de 10 mulheres jovens e 10 homens adultos enquanto em outro instituto a amostra seria formada por 10 mulheres adultas e 10 homens jovens. Note que as composições marginais das amostras e da população são idênticas. No entanto, as composições compostas são completamente diferentes entre as três tabelas. Poderão assim produzir resultados, além de muito diferentes, opostos. Lembremos que muitos referem-se a amostras representativas, mas nunca dizem o que representam. Se soubéssemos que fossem representativas dos resultados, então para que a pesquisa, se já sabemos representar os resultados das eleições? Se fossem representativas das composições populacionais de variáveis, que pensamos ser correlacionadas com os resultados das pesquisas, e que fossem publicadas como dados censitários de forma composicionais, a representatividade poderia ser admitida. Não é isso que acontece, pois, a representatividade, como dissemos acima é só marginal. A análise de conglomerados seria melhor? Por que ela não é adotada? Da forma que descrevemos as composições, o número de subpopulações poderia ser enorme se considerarmos todas as variáveis relevantes para a escolha que o eleitor irá fazer. Caso dados censitários fossem descritos não seria absurdo uma análise de conglomerado onde as inúmeras subpopulações pudessem ser repartidas naquelas mais próximas composicionalmente. Assim teríamos conglomerados com populações de subpopulaões a serem selecionadas pela amostragem no conglomerado. Após o trabalho estatístico em cada um dos conglomerados proceder-se-ia uma composição das posteriores pelos conglomerados. A variabilidade seria maior, pois a influência de amostras menores iria se manter nesta meta-analise. (Por meta-análise aqui entendemos a composição de todas as posteriores nos conglomerados). O cálculo das posteriores nos conglomerados supõe variáveis permutáveis no sentido de DeFinetti. Este trabalho de cálculo probabilístico está em um artigo que escrevemos eu com Tereza e Adriano, arXiv:1810.01537 [pdf]. Mestre Mandel é o culpado de escrevermos esse artigo. O fato de os entrevistadores apresentarem os candidatos ou deixarem em aberto (espontâneo) altera os resultados. Por quê? A resposta é simples, se nós não lembramos quem são todos os treze candidatos da eleição, certamente o eleitor irá esquecer o nome de alguns. Se em algum momento um indivíduo gostou do discurso de um candidato pouco conhecido, na hora da entrevista pode simplesmente esquecer o nome do candidato. O que é a famosa "margem de erro"? Os jornalistas e repórteres falam com tanta propriedade em probabilidade e margem de erros que o meu coração palpita. Quando construímos intervalos de predição, consideramos os intervalos de menor comprimento de tal forma que se pudéssemos repetir o experimento uma série de vezes esperaríamos por exemplo que 95% (ou qualquer outra porcentagem) das vezes o verdadeiro valor da quantidade que está sendo predita estaria no interior do intervalo. Mas com apenas uma amostra o intervalo contém ou não o verdadeiro valor daquela quantidade. Assim o argumento vem da pergunta: Por que o meu intervalo seria um dos 5%? De fato, “tenho confiança de 95% de que o intervalo observado contenha o verdadeiro valor da quantidade predita”. Confiança e não probabilidade é o termo correto. Este é apenas um dos problemas com o discurso dos jornalistas sobre predições. No caso de porcentagem de votos o único número que permite um intervalo simétrico em torno dele é 50%. Uma porcentagem de 10% por exemplo, daria uma assimetria grande, com o acréscimo a direita sendo muito maior do que o da esquerda. Quero aqui aproveitar para dizer que quando usam o termo probabilidade e quando usam o mesmo erro para os dois lados com estimativas diferentes de 50%, estão certamente dando informações equivocadas aos ouvintes e leitores. Na visão do senhor, quanto de subjetividade há em uma pesquisa eleitoral? Não há subjetividade, pois, as pessoas se baseiam em dados reais coletados. Se usassem subjetividade certamente iriam perceber que os tamanhos amostrais usados podem ser os mesmos para populações completamente diferentes em abundância. Será que a mágica pode ser tão forte que com 2 mil entrevistados eu possa falar sobre a opinião de 200 milhões de habitantes e falar o mesmo se a população fosse de 200 mil? O pior é que não se percebe as injustiças que podem ser cometidas. Um amigo muito competente trabalhava para uma empresa de pesquisas e previu que o Brizola estaria na frente do Lula por muito pouco, cerca de 100 mil votos. Acontece que deu o contrário. Lula teve em torno de 16 milhões e Brizola teve 50 mil a menos. Outra empresa, hoje famosíssima, acertou a ordem, mas os números foram 20 milhões para o Lula e 15 milhões para o Brizola. A segunda foi elogiada e a primeira sofreu muitas críticas. O que acham hoje os senhores jornalistas? </div> </div> </div> </div> _______________________________________________ abe mailing list <a href="mailto:abe@lists.ime.usp.br" target="_blank">abe@lists.ime.usp.br</a> <a href="https://lists.ime.usp.br/listinfo/abe" rel="noreferrer" target="_blank">https://lists.ime.usp.br/listinfo/abe</a> </blockquote></div></div></div>