[ABE-L] Neale E-Dash prevê vitória de Marina

Neale El-Dash neale.eldash em gmail.com
Qui Set 25 09:52:32 -03 2014


Olá Pedro,

otimas perguntas. Pelo conteudo delas, entendo que nao existe muita
preocupacao com a estimativa pontual em si, correto?  Ou seja, o que esta
sendo questionado no metodo da APC sao as estimativas da variancia, e nao
as estimativas pontuais. Acho que esse ja' e' um ponto muito importante.

Vamos as perguntas:

1) Se há uma seleção probabilística de unidades em algum(ns) estágio(s) de
seleção, então a ponderação consequente com esta parte do processo de
amostragem teria que ser feita quando as análises serão realizadas. Nas
vezes que vi o método acima ser descrito em aplicações, esta etapa era
completamente ignorada e a ponderação era feita apenas considerando a
informação das cotas. Além disso, toda a estrutura de estratificação e
conglomeração era ignorada nas análises posteriores, o que é incoerente com
o plano praticado.

Levar em conta todos os estagios anteriores, sem considerar o ultimo, e'
simples. Toda informacao esta' na base de dados, as probabilidades sao
conhecidas e temos diversos programas com essa capacidade hoje em dia. Se
os institutos de pesquisa fazem isso ou nao, e' uma opcao deles. Pra mim, o
importante é que o método permite que isso seja feito - ou seja, se o
estatistico quiser fazer inferencia baseada no desenho, ele consegue fazer.
Entendo entao que o que precisa ser discutido é o último estágio.

E nesse ultimo estagio, eu concordo com o Fernando Moura. Mas vou um pouco
ale'm, sabemos empiricamente que pessoas residentes no mesmo setor
censitario sao muito mais parecidas entre si, do que se comparadas com o
resto da populacao. Como referencia, uso o relatorio tecnico que voce e o
Fernando escreveram:

*[Ref1] P. L. N. Silva and F. A. S. Moura. Efeito da conglomeracao da
malha setorial do censo demogra co*
*de 1980. Textos para discussao - IBGE, 1(32):001{114, 1990*

Nesse relatorio voces mostraram que em todas as 39 variaveis estudadas,
pessoas residentes em um mesmo conglomerado sao mais parecidas entre si. Ou
seja, sabemos que do total da variancia, um percentual pequeno e' explicado
pelo ultimo estagio. Nao sao muitos estudos que divulgam, junto com os
dados, as informacoes necessarias para o calculo das variancias. Quando
essas informacoes sao divulgadas, sempre e' feito algum tipo de
simplificacao ou aproximacao para o usuario final, seja utilizando
estimador de Razao, expansao de Taylor, Bootstrap, Ultimate Cluster,
etc...Meu ponto e', seja utilizando essas simplificacoes/aproximacoes mais
comuns, seja assumindo amostra aleatoria simples no ultimo estagio da APC,
acredito que o erro sendo cometido e' no geral ignoravel. Porem, e'
possivel calcular o erro do ultimo estagio na APC com uma suposicao mais
simples do que AAS, que discutirei na proxima pergunta.

2) As afirmações sobre margem de erro das estimativas derivadas se baseia
inteiramente nas expressões válidas para amostragem aleatória simples. No
Brasil, nunca vi um trabalho que descrevesse uma abordagem justificável
(mesmo sob um modelo ou suposições) para explicar porque estas expressões
podem ou devem ser usadas para amostras coletadas pelo método em questão
(APC, como você o chamou).

Lamentavelmente, tal trabalho existe, mas nao foi publicado para que outros
possam conhecer. Foi exatamente o que eu fiz na minha tese de doutorado, so
que eu nao tenho o perfil de escrever artigos, e pior ainda, a notacao que
eu utilizei e' muito ruim, o que dificulta bastante o entendimento. Se eu
tivesse percebido isso inicialmente, teria re-feito a notacao, mas
enfim....se alguem quiser dar uma olhada, o titulo da minha tese e' :
"Avaliacao metodologica das pesquisas eleitorais brasileiras", defendida no
IME USP em 2010. So pra contextualizar melhor, inicialmente o titulo da
tese ia ser "Uma justificativa teorica para Amostragem Porbabilistica com
Cotas".

Vou resumir aqui rapidinho o que importa no contexto sendo discutido aqui.
Podemos considerar as cotas no ultimo estagio como uma estratificacao do
ultimo estagio da amostra. A suposicao basica que estamos fazendo e' que as
probabilidades de resposta das pessoas dentro de um mesmo setor censitario
e dentro da mesma cota sao iguais. Com essa suposicao, criei um metodo EM
que estima as probabilidades de resposta. Se o trajeto que o entrevistador
tem que percorrer dentro de cada setor tem uma ordem pre-determinada, e ele
tenta fazer contato com todos os domicilio no seu trajeto, a probabilidade
de selecao de cada pessoa e' inversamente proporcional ao numero de
moradores dentro do domicilio que estao na mesma cota.  Ou seja, temos as
probabilidades. Na minhas simulacoes, nao houve ganho ao utilizar as
probabilidades de resposta estimadas. Nao ha muito vicio para reduzir.

Outro detalhe importante, como a cota no ultimo estagio e' uma
estratificacao, a APC tem menor EQM do que a amostragem probabilistica
(aquela da pratica) quando as probabilidades de resposta sao diferentes em
cada cota. Isso ocorre porque na amostragem probabilistica na pratica, o
entrevistador tenta fazer contato ate C vezes com cada pessoa selecionada.
Se ele nao consegue fazer contato, ele seleciona outra pessoa e tenta
novamente. Procedendo dessa forma, vc acaba entrevistando mais pessoas da
cota que tem uma probabilidade de resposta maior. Ja isso nao ocorre com a
APC. Claro, alem dos ganhos conhecidos da estratificacao.


3) O terceiro defeito é a dificuldade (ou impossibilidade) de replicar o
processo de amostragem por cotas. Se o entrevistador é quem toma decisão
sobre quem entrevistar, esta dificuldade é severa. Replicabilidade é um dos
pilares do método científico. Outros pesquisadores teriam que poder usar o
mesmo método, mas este não é replicável porque outros pesquisadores não
poderão usar os mesmos entrevistadores, etc.


Do jeito que eu estou descrevendo a APC aqui (domiciliar), acho que o
processo e' replicavel. O entrevistador tenta fazer contato com todos os
domicilios do setor, em uma ordem pre-especificada, iniciando de um ponto
tambem pre-determinado. Se ele nao encontra ninguem que se encaixe nas
cotas no Dimicilio 1, ele vai para o 2, e assim sucessivamente. Se ele nao
completar as entrevistas ao encerrar o setor, ele comeca outra volta no
mesmo setor. E assim vai, ate terminar as entrevistas daquele setor. O
entrevistador nao tem flexibilidade. A diferenca basica e' que com a APC, o
entrevistador entrevista quem esta em casa, disponivel, ja com a amostra
probabilistica, quem nao esta em casa tambem pode ser selecionado. Por isso
e' importante determinar cotas associadas com a probabilidade de resposta,
pois vc diminue bastante o problema, sendo possivel ate eliminar o vies
potencial. Por exemplo, com cotas de PEA/ Nao-PEA voce garante que
trabalhadores estarao na amostra.  Nao esquecendo que o horario da
entrevista tambem e' importante. Facilita o campo e e' uma forma de se
prevenir contra ma-especificacao do modelo de resposta.


Abraco Neale


Em 22 de setembro de 2014 19:48, Pedro Luis do Nascimento Silva <
pedronsilva em gmail.com> escreveu:

> Neale,
>
> excelente que você tenha colocado referências atuais e a discussão num
> patamar legal.
>
> A  amostragem probabilistica com cotas (APC) como você denominou tem
> alguns aspectos atraentes, mas a prática dela, até onde conheço, tem três
> defeitos fundamentais.
>
> 1) Se há uma seleção probabilística de unidades em algum(ns) estágio(s) de
> seleção, então a ponderação consequente com esta parte do processo de
> amostragem teria que ser feita quando as análises serão realizadas. Nas
> vezes que vi o método acima ser descrito em aplicações, esta etapa era
> completamente ignorada e a ponderação era feita apenas considerando a
> informação das cotas. Além disso, toda a estrutura de estratificação e
> conglomeração era ignorada nas análises posteriores, o que é incoerente com
> o plano praticado.
>
> 2) As afirmações sobre margem de erro das estimativas derivadas se baseia
> inteiramente nas expressões válidas para amostragem aleatória simples. No
> Brasil, nunca vi um trabalho que descrevesse uma abordagem justificável
> (mesmo sob um modelo ou suposições) para explicar porque estas expressões
> podem ou devem ser usadas para amostras coletadas pelo método em questão
> (APC, como você o chamou).
>
> 3) O terceiro defeito é a dificuldade (ou impossibilidade) de replicar o
> processo de amostragem por cotas. Se o entrevistador é quem toma decisão
> sobre quem entrevistar, esta dificuldade é severa. Replicabilidade é um dos
> pilares do método científico. Outros pesquisadores teriam que poder usar o
> mesmo método, mas este não é replicável porque outros pesquisadores não
> poderão usar os mesmos entrevistadores, etc.
>
> Eu aprecio que a amostragem probabilística que se faz na prática também
> depende de suposições sobre comportamento da não resposta para poder
> justificar suas inferências. Mas em pesquisas onde a não resposta é menor
> que, digamos, 10%, os resultados são bastante robustos a diferentes
> suposições sobre o comportamento da não resposta. E os métodos são
> replicáveis.
>
> Esta é a razão fundamental para a adoção da amostragem probabilística no
> ambiente das estatísticas oficiais mundo afora.
>
> Saudações, Pedro.
>
> Em 22 de setembro de 2014 18:43, Neale El-Dash <neale.eldash em gmail.com>
> escreveu:
>
> Esse email passou em branco quando o Luis enviou, mas eu gostaria de fazer
>> 2 comentarios. O email vai ser um pouco longo, mas eu acredito que esse
>> tema merece ;)
>>
>> Primeiramente, segue o link para um relatorio da associacao americana de
>> pesquisa de opiniao publica.  Acho que quem se coloca tanto a favor como
>> contra as pesquisas eleitorais deveria ler o relatorio. Tem muitas
>> referencias, de academicos e pesquisadores, de estatisticos e cientistas
>> sociais, e e' uma discussao seria e interessante. Melhor de tudo e' atual,
>> de 2013:
>>
>> [Ref1]REPORT OF THE AAPOR TASK FORCE ON NON-PROBABILITY SAMPLING
>>
>> http://www.aapor.org/AM/Template.cfm?Section=Reports1&Template=/CM/ContentDisplay.cfm&ContentID=5963
>>
>> 1- *Amostragem Probabilistica - * No contexto de amostragem de
>> populacoes humanas (nao estou falando de populacoes fechadas, como
>> funcionarios de uma empresa), nao existe amostragem probabilistica
>> estritamente falando. Nao estou preocupado aqui em distinguir entre
>> probabilidade de selecao ou probabilidade de resposta. Simplesmente as
>> probabilidades de todos os respondentes na sua "base de dados" nunca sao
>> conhecidas sem suposicoes. Nem o IBGE consegue tal feito, mesmo a populacao
>> sendo obrigada por lei a responder ao questionario e tendo uma infinidade
>> de $$$ se comparado a qualquer instituto de pesquisa particular. Ou seja,
>> se o criterio a ser adotado para que uma pesquisa seja "vetada" e'
>> simplesmente ela nao ser (estritamente) probabilistica, nao sao somente
>> pesquisas eleitorais que devem ser eliminadas, sao absolutamente todas
>> (inclusive as do IBGE).
>>
>> Alguem na lista conhece um contra-exemplo - uma amostra de alguma
>> populacao humana onde os dados podem ser analisados sem se fazer uma unica
>> suposicao? Fazer suposicoes/modelos esta em tudo que fazemos como
>> estatisticos. Se vc utiliza uma base de dados sem se preocupar com como ela
>> foi obtida, voce nao esta fazendo seu trabalho direito. Mas isso e' bem
>> diferente de proibir que as pesquisas eleitorais sejam feitas.
>>
>> 2- *Amostragem Probabilistica com Cotas -* Nao acho que podemos colocar
>> todas as amostras ditas "nao-probabilisticas" no mesmo saco. Claramente
>> algumas sao bem melhores do que as outras.  Se em uma pesquisa existe a
>> preocupacao em reduzir possiveis vicios antes e depois da selecao da
>> amostra, essa pesquisa e' provavelmente melhor do que uma pesquisa que nao
>> se preocupa com isso, por exemplo. A maioria dos institutos de pesquisa que
>> eu conheco NAO utilizam amostragem em ponto de fluxo, pelo menos nao para
>> pesquisas eleitorais/Opiniao publica (com excecao do Datafolha, que eu acho
>> que faz dentro de algumas cidades). A maioria utiliza o que eu chamo de
>> amostragem probabilistica com cotas (APC), onde os primeiros estagios sao
>> probabilisticos, e apenas o ultimo estagio tem cotas (dentro do setor
>> censitario). Nesse ultimo estagio impoem-se restricoes sobre como o
>> entrevistador pode selecionar o respondente. Essa metodologia de pesquisa
>> e' muito bem descrita em:
>>
>> [Ref2]Probability SampIing with Quotas: An Experiment (C. BRUCE
>> STEPHENSON)
>>
>> http://publicdata.norc.org:41000/gss/DOCUMENTS/REPORTS/Methodological_Reports/MR007.pdf
>>
>>
>>  onde ale'm de tudo, e' feita uma comparacao minuciosa com  amostragem
>> probabilistica (aquela da pratica, cheia de suposicoes). Esse relatorio
>> mostra que foram observadas bem poucas diferencas com qualquer relevancia
>> pratica. Essencialmente, a maior preocupacao e' que com a APC o tamanho
>> medio dos domicilios e' usualmente maior, algo facilmente corrigido com uma
>> simples ponderacao (e, e' claro, uma suposicao!). Meu ponto e', faz muito
>> mais sentido usar esse artigo [Ref2] e esse tipo de amostragem como
>> referencia para criticas/sugestoes, do que a amostragem por cotas (em ponto
>> de fluxo) que usualmente nao e' utilizada no Brasil. A amostragem por cotas
>> (em ponto de fluxo)  e' comparada com a amostragem probabilistica (aquela
>> da pratica, cheia de suposicoes) nesse artigo abaixo:
>>
>> [Ref3]An experimental study of quota sampling (C. A. Moser and A. Stuart)
>>
>> http://www.jstor.org/discover/10.2307/2343021?uid=3737664&uid=2&uid=4&sid=21104724117583
>>
>> Coloquei esse artigo [Ref3] para quem tem interesse poder compara-lo com
>> o artigo [Ref2] e ver como as metodologias (e as criticas) sao muito
>> diferentes.
>>
>> Enfim, eu acho que a distincao entre amostragem probabilistica e
>> nao-probabilistica, em muitos casos e' bem mais sutil do que parece. Vale a
>> pena ler com cuidado a metodologia de qualquer pesquisa, independente desse
>> rotulo. Assim voce ja comeca a formular um modelo para ser utilizado com os
>> dados, e entende melhor quais podem ser o problemas em potencial ao
>> analisar os resultados.
>>
>> Abraco Neale
>>
>>
>>
>> Em 21 de setembro de 2014 22:28, Luis Paulo Braga <
>> lpbraga em geologia.ufrj.br> escreveu:
>>
>>>
>>> https://br.noticias.yahoo.com/pesquisas-eleitorais-cont%C3%AAm--problemas-s%C3%A9rios--e-deveriam-ser-vetadas--diz-estat%C3%ADstico-veterano-235137785.html
>>>
>>> Em 21 de setembro de 2014 18:15, Marcelo L. Arruda <
>>> mlarruda em terra.com.br> escreveu:
>>>
>>>  Esse é um problema sério com que freqüentemente lido no Chance de Gol.
>>>>
>>>>     Para os estatísticos, o significado de "prever" pode ser longamente
>>>> discutido e não vou abrir essa discussão agora.
>>>>     Para o "povão", porém, "prever" significa cravar antecipadamente
>>>> algo que vai acontecer, ou seja, "adivinhar", "profetizar", "vaticinar"! E
>>>> aí sempre cabe a observação (nem sempre apreendida pelo interlocutor) de
>>>> que 58% de probablidade de vitória de X não é o mesmo que afirmar
>>>> categoricamente que X VAI GANHAR!
>>>>
>>>> Marcelo
>>>>
>>>> ----- Original Message -----
>>>> *From:* Luis Paulo Braga <lpbraga em geologia.ufrj.br>
>>>> *To:* Neale El-Dash <neale.eldash em gmail.com> ; Lista da ABE
>>>> <abe-l em ime.usp.br>
>>>> *Sent:* Sunday, September 21, 2014 4:44 PM
>>>> *Subject:* Re: [ABE-L] Neale E-Dash prevê vitória de Marina
>>>>
>>>> Qual o significado do verbo prever?
>>>>
>>>>
>>>> Em 21 de setembro de 2014 10:59, Neale El-Dash <neale.eldash em gmail.com>
>>>> escreveu:
>>>>
>>>>> Olá Luis, obrigado por postar a "mini" reportagem.
>>>>>
>>>>> Só um comentário: 58% de chance de vitoria é diferente de prever
>>>>> vitória!
>>>>>
>>>>> Abraço
>>>>>
>>>>> Em 21 de setembro de 2014 10:53, Luis Paulo Braga <
>>>>> lpbraga em geologia.ufrj.br> escreveu:
>>>>>
>>>>>>  Veja
>>>>>>
>>>>>> *A pesquisa das pesquisas*
>>>>>>
>>>>>> Desde que Marina Silva entrou na disputa eleitoral, já foram
>>>>>> divulgadas 33 pesquisas registradas na Justiça Eleitoral, de cinco
>>>>>> institutos. Esses levantamentos mostram o que os analistas chamam de uma
>>>>>> "fotografia do momento", mas dizem pouco sobre o que pode acontecer no
>>>>>> futuro. Para tentar apontar as chances de vitória de cada candidato, o
>>>>>> estatístico Neale El-Dash, ex-diretor de pesquisas do instituto Ipsos nos
>>>>>> Estados Unidos, adaptou para o Brasil o método utilizado pelo matemático
>>>>>> americano Nate Silver na eleição de 2012, quando ele acertou os resultados
>>>>>> em todos os cinquenta estados americanos.
>>>>>>
>>>>>> Por meio do cruzamento dessas 33 pesquisas, inclusive a do Datafolha
>>>>>> divulgada na sexta-feira passada, o estatístico fez 15000 simulações em um
>>>>>> programa de computador que permitiram chegar aos cenários com maior
>>>>>> probabilidade de se concretizar. O trabalho mostrou que Marina tem 58% de
>>>>>> possibilidade de vencer a disputa pela Presidência da República, contra 41%
>>>>>> de Dilma Rousseff e 1% de Aécio Neves. A pesquisa de El-Dash deu pesos
>>>>>> diferentes a cada levantamento, a partir de variáveis que abrangeram desde
>>>>>> o tamanho da amostra utilizada até o histórico de aceitos de cada
>>>>>> instituto. À medida que se aproxima a data da eleição, também muda, por
>>>>>> exemplo, a influência da margem de erro dos levantamentos.
>>>>>>
>>>>>> _______________________________________________
>>>>>> abe mailing list
>>>>>> abe em lists.ime.usp.br
>>>>>> https://lists.ime.usp.br/mailman/listinfo/abe
>>>>>>
>>>>>>
>>>>>
>>>>>
>>>>> --
>>>>>
>>>>> There are two routes to success in soccer. One is being good. The
>>>>> other is being lucky. You need both to win a championship. But you only
>>>>> need one to win a game. (The numbers game)
>>>>>
>>>>> -----------------------------------------------
>>>>> Neale Ahmed El-Dash
>>>>> Doutor em Estatística
>>>>> Celular: +55 19 998893939 <%2B55%2019%20998893939>
>>>>> Email: neale.eldash em gmail.com
>>>>>
>>>>
>>>>  ------------------------------
>>>>
>>>> _______________________________________________
>>>> abe mailing list
>>>> abe em lists.ime.usp.br
>>>> https://lists.ime.usp.br/mailman/listinfo/abe
>>>>
>>>>
>>>> _______________________________________________
>>>> abe mailing list
>>>> abe em lists.ime.usp.br
>>>> https://lists.ime.usp.br/mailman/listinfo/abe
>>>>
>>>>
>>>
>>> _______________________________________________
>>> abe mailing list
>>> abe em lists.ime.usp.br
>>> https://lists.ime.usp.br/mailman/listinfo/abe
>>>
>>>
>>
>>
>> --
>>
>> There are two routes to success in soccer. One is being good. The other
>> is being lucky. You need both to win a championship. But you only need one
>> to win a game. (The numbers game)
>>
>> -----------------------------------------------
>> Neale Ahmed El-Dash
>> Doutor em Estatística
>> Celular: +55 19 998893939
>> Email: neale.eldash em gmail.com
>>
>> _______________________________________________
>> abe mailing list
>> abe em lists.ime.usp.br
>> https://lists.ime.usp.br/mailman/listinfo/abe
>>
>>
>
>
> --
> Pedro Luis do Nascimento Silva
> *ISI President-Elect 2013-2015*
> IBGE - Escola Nacional de Ciências Estatísticas
> Phone: +55 21 21424957
>
> _______________________________________________
> abe mailing list
> abe em lists.ime.usp.br
> https://lists.ime.usp.br/mailman/listinfo/abe
>
>


-- 

There are two routes to success in soccer. One is being good. The other is
being lucky. You need both to win a championship. But you only need one to
win a game. (The numbers game)

-----------------------------------------------
Neale Ahmed El-Dash
Doutor em Estatística
Celular: +55 19 998893939
Email: neale.eldash em gmail.com
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <https://lists.ime.usp.br/archives/abe/attachments/20140925/8c53bd53/attachment.html>


Mais detalhes sobre a lista de discussão abe