[ABE-L] Neale E- Dash prevê vitória de Marina

Ter Set 23 11:56:21 -03 2014

Caros redistas

Os pontos levantados por Neale e o Pedro estimulam bastante a discussão. 

Concordo com o Pedro quando ele diz que já que  os primeiros estágios de 
seleção da amostra é feito probabilisticamente deveriam ser considerados na 
estimação. Uma questão interessante seria avaliar se o último estágio (creio 
que selecionado por amostragem por cotas) pode causar um "viés" significativo 
na estimação? Esta pergunta é pertinente, pois sabemos que a variância total 
pode ser decomposta como a soma das variâncias dos vários estágios e estamos 
trabalhando com uma variável binária. 

Concordo com o Neale quando diz que não podemos colocar todas "as amostras por 
cotas no mesmo saco". Algumas delas seguem protocolos rígidos para evitarem o 
"viés do entrevistador". De qualquer forma, poderíamos avaliar o "efeito do 
entrevistador" realizando amostragem por cotas com  alguns entrevistadores.

Contudo existe uma hipótese básica na amostragem por cotas (que pensada como 
um modelo) é assumida: "as observações em cada estrato determinado pelas cotas 
são variáveis aleatórias permutáveis com média igual ao do estrato na 
população". Aí é que podem surgir controvérsias sobre a sua aplicabilidade.   

Interessante também é notar que vários estimadores "design-based" podem ser 
justificados por meio de modelos de superpopulação com apenas hipóteses sobre 
média e variância, ver Gonçalves, K.C.M, Moura, F.A.S and  Migon, H.S.(2014).
 Bayes Linear Estimation for Finite Population with emphasis on categorical 
data. Survey Methodology, 40, 15-28. 

Por outro lado, embora a amostragem probabilística garanta a ausência de viés 
sob repetidas amostras, se o desenho amostral não for capaz de "retratar" bem 
a estrutura da população teremos uma variância elevada, a menos que o tamanho 
da amostra seja grande. Um exemplo interessante de como isso pode acontecer é 
quando a população é rara e agrupada. O esquema probabilístico recomendado 
neste caso é amostragem adaptativa. Uma tese recentemente defendida por uma 
aluna minha de doutorado propõe  um modelo de superpopulação que leve em conta 
a estrutura da população e o caráter informativo da amostra. O estimador 
pontual produzido por este modelo foi muito mais eficiente que o estimador 
baseado no plano amostral adaptativo, mesmo quando avaliado sob repetidas 
amostras adaptativas de uma população real,  rara e agrupada. Para maiores 
detalhes, consultar: Gonçalves, K.C.M.(2014). Modelos de previsão para 
populações raras e agrupadas sob amostragem adaptativa. Tese de Doutorado de 
Estatística da UFRJ, na página http://www2.dme.ufrj.br/. 

Outra questão não menos importante  que não depende do tipo de amostragem  é a 
cobertura real da população alvo. Tanto é assim, que o próprio IBGE se utiliza 
da projeção de população para "ajustar" as estimativas da PNAD. 

Abraços

Fernando Moura

On Mon, 22 Sep 2014 18:43:51 -0300, Neale El-Dash wrote
> Esse email passou em branco quando o Luis enviou, mas eu gostaria de 
> fazer 2 comentarios. O email vai ser um pouco longo, mas eu acredito 
> que esse tema merece ;)
> 
> Primeiramente, segue o link para um relatorio da associacao 
> americana de pesquisa de opiniao publica.  Acho que quem se coloca 
> tanto a favor como contra as pesquisas eleitorais deveria ler o 
> relatorio. Tem muitas referencias, de academicos e pesquisadores, de 
> estatisticos e cientistas sociais, e e' uma discussao seria e 
> interessante. Melhor de tudo e' atual, de 2013:
> 
> [Ref1]REPORT OF THE AAPOR TASK FORCE ON NON-PROBABILITY SAMPLING
> http://www.aapor.org/AM/Template.cfm?
Section=Reports1&Template=/CM/ContentDisplay.cfm&ContentID=5963
> 
> 1- *Amostragem Probabilistica - * No contexto de amostragem de populacoes
> humanas (nao estou falando de populacoes fechadas, como funcionarios 
> de uma empresa), nao existe amostragem probabilistica estritamente 
> falando. Nao estou preocupado aqui em distinguir entre probabilidade 
> de selecao ou probabilidade de resposta. Simplesmente as 
> probabilidades de todos os respondentes na sua "base de dados" nunca 
> sao conhecidas sem suposicoes. Nem o IBGE consegue tal feito, mesmo 
> a populacao sendo obrigada por lei a responder ao questionario e 
> tendo uma infinidade de $$$ se comparado a qualquer instituto de 
> pesquisa particular. Ou seja, se o criterio a ser adotado para que 
> uma pesquisa seja "vetada" e' simplesmente ela nao ser
> (estritamente) probabilistica, nao sao somente pesquisas eleitorais que
> devem ser eliminadas, sao absolutamente todas (inclusive as do IBGE).
> 
> Alguem na lista conhece um contra-exemplo - uma amostra de alguma populacao
> humana onde os dados podem ser analisados sem se fazer uma unica suposicao?
> Fazer suposicoes/modelos esta em tudo que fazemos como estatisticos. 
> Se vc utiliza uma base de dados sem se preocupar com como ela foi 
> obtida, voce nao esta fazendo seu trabalho direito. Mas isso e' bem 
> diferente de proibir que as pesquisas eleitorais sejam feitas.
> 
> 2- *Amostragem Probabilistica com Cotas -* Nao acho que podemos colocar
> todas as amostras ditas "nao-probabilisticas" no mesmo saco. Claramente
> algumas sao bem melhores do que as outras.  Se em uma pesquisa 
> existe a preocupacao em reduzir possiveis vicios antes e depois da 
> selecao da amostra, essa pesquisa e' provavelmente melhor do que uma 
> pesquisa que nao se preocupa com isso, por exemplo. A maioria dos 
> institutos de pesquisa que eu conheco NAO utilizam amostragem em 
> ponto de fluxo, pelo menos nao para pesquisas eleitorais/Opiniao 
> publica (com excecao do Datafolha, que eu acho que faz dentro de 
> algumas cidades). A maioria utiliza o que eu chamo de amostragem 
> probabilistica com cotas (APC), onde os primeiros estagios sao 
> probabilisticos, e apenas o ultimo estagio tem cotas (dentro do 
> setor censitario). Nesse ultimo estagio impoem-se restricoes sobre 
> como o entrevistador pode selecionar o respondente. Essa metodologia 
> de pesquisa e' muito bem descrita em:
> 
> [Ref2]Probability SampIing with Quotas: An Experiment (C. BRUCE 
> STEPHENSON) 
http://publicdata.norc.org:41000/gss/DOCUMENTS/REPORTS/Methodological_Reports/
MR007.pdf
> 
>  onde ale'm de tudo, e' feita uma comparacao minuciosa com 
>  amostragem probabilistica (aquela da pratica, cheia de suposicoes). 
> Esse relatorio mostra que foram observadas bem poucas diferencas com 
> qualquer relevancia pratica. Essencialmente, a maior preocupacao e' 
> que com a APC o tamanho medio dos domicilios e' usualmente maior,
>  algo facilmente corrigido com uma simples ponderacao (e, e' claro,
>  uma suposicao!). Meu ponto e', faz muito mais sentido usar esse 
> artigo [Ref2] e esse tipo de amostragem como referencia para 
> criticas/sugestoes, do que a amostragem por cotas (em ponto de fluxo)
>  que usualmente nao e' utilizada no Brasil. A amostragem por cotas
> (em ponto de fluxo)  e' comparada com a amostragem probabilistica (aquela
> da pratica, cheia de suposicoes) nesse artigo abaixo:
> 
> [Ref3]An experimental study of quota sampling (C. A. Moser and A. 
> Stuart) http://www.jstor.org/discover/10.2307/2343021?
uid=3737664&uid=2&uid=4&sid=21104724117583
> 
> Coloquei esse artigo [Ref3] para quem tem interesse poder compara-lo 
> com o artigo [Ref2] e ver como as metodologias (e as criticas) sao muito
> diferentes.
> 
> Enfim, eu acho que a distincao entre amostragem probabilistica e
> nao-probabilistica, em muitos casos e' bem mais sutil do que parece. 
> Vale a pena ler com cuidado a metodologia de qualquer pesquisa,
>  independente desse rotulo. Assim voce ja comeca a formular um 
> modelo para ser utilizado com os dados, e entende melhor quais podem 
> ser o problemas em potencial ao analisar os resultados.
> 
> Abraco Neale
> 
> Em 21 de setembro de 2014 22:28, Luis Paulo Braga <lpbraga em geologia.ufrj.br>
> escreveu:
> 
> >
> > https://br.noticias.yahoo.com/pesquisas-eleitorais-cont%C3%AAm--problemas-
s%C3%A9rios--e-deveriam-ser-vetadas--diz-estat%C3%ADstico-veterano-
235137785.html
> >
> > Em 21 de setembro de 2014 18:15, Marcelo L. Arruda <mlarruda em terra.com.br>
> > escreveu:
> >
> >  Esse é um problema sério com que freqüentemente lido no Chance de Gol.
> >>
> >>     Para os estatísticos, o significado de "prever" pode ser longamente
> >> discutido e não vou abrir essa discussão agora.
> >>     Para o "povão", porém, "prever" significa cravar antecipadamente algo
> >> que vai acontecer, ou seja, "adivinhar", "profetizar", "vaticinar"! E aí
> >> sempre cabe a observação (nem sempre apreendida pelo interlocutor) de que
> >> 58% de probablidade de vitória de X não é o mesmo que afirmar
> >> categoricamente que X VAI GANHAR!
> >>
> >> Marcelo
> >>
> >> ----- Original Message -----
> >> *From:* Luis Paulo Braga <lpbraga em geologia.ufrj.br>
> >> *To:* Neale El-Dash <neale.eldash em gmail.com> ; Lista da ABE
> >> <abe-l em ime.usp.br>
> >> *Sent:* Sunday, September 21, 2014 4:44 PM
> >> *Subject:* Re: [ABE-L] Neale E-Dash prevê vitória de Marina
> >>
> >> Qual o significado do verbo prever?
> >>
> >>
> >> Em 21 de setembro de 2014 10:59, Neale El-Dash <neale.eldash em gmail.com>
> >> escreveu:
> >>
> >>> Olá Luis, obrigado por postar a "mini" reportagem.
> >>>
> >>> Só um comentário: 58% de chance de vitoria é diferente de prever
> >>> vitória!
> >>>
> >>> Abraço
> >>>
> >>> Em 21 de setembro de 2014 10:53, Luis Paulo Braga <
> >>> lpbraga em geologia.ufrj.br> escreveu:
> >>>
> >>>>  Veja
> >>>>
> >>>> *A pesquisa das pesquisas*
> >>>>
> >>>> Desde que Marina Silva entrou na disputa eleitoral, já foram divulgadas
> >>>> 33 pesquisas registradas na Justiça Eleitoral, de cinco institutos. 
Esses
> >>>> levantamentos mostram o que os analistas chamam de uma "fotografia do
> >>>> momento", mas dizem pouco sobre o que pode acontecer no futuro. Para 
tentar
> >>>> apontar as chances de vitória de cada candidato, o estatístico Neale
> >>>> El-Dash, ex-diretor de pesquisas do instituto Ipsos nos Estados Unidos,
> >>>> adaptou para o Brasil o método utilizado pelo matemático americano Nate
> >>>> Silver na eleição de 2012, quando ele acertou os resultados em todos os
> >>>> cinquenta estados americanos.
> >>>>
> >>>> Por meio do cruzamento dessas 33 pesquisas, inclusive a do Datafolha
> >>>> divulgada na sexta-feira passada, o estatístico fez 15000 simulações em 
um
> >>>> programa de computador que permitiram chegar aos cenários com maior
> >>>> probabilidade de se concretizar. O trabalho mostrou que Marina tem 58% 
de
> >>>> possibilidade de vencer a disputa pela Presidência da República, contra 
41%
> >>>> de Dilma Rousseff e 1% de Aécio Neves. A pesquisa de El-Dash deu pesos
> >>>> diferentes a cada levantamento, a partir de variáveis que abrangeram 
desde
> >>>> o tamanho da amostra utilizada até o histórico de aceitos de cada
> >>>> instituto. À medida que se aproxima a data da eleição, também muda, por
> >>>> exemplo, a influência da margem de erro dos levantamentos.
> >>>>
> >>>> _______________________________________________
> >>>> abe mailing list
> >>>> abe em lists.ime.usp.br
> >>>> https://lists.ime.usp.br/mailman/listinfo/abe
> >>>>
> >>>>
> >>>
> >>>
> >>> --
> >>>
> >>> There are two routes to success in soccer. One is being good. The other
> >>> is being lucky. You need both to win a championship. But you only need 
one
> >>> to win a game. (The numbers game)
> >>>
> >>> -----------------------------------------------
> >>> Neale Ahmed El-Dash
> >>> Doutor em Estatística
> >>> Celular: +55 19 998893939 <%2B55%2019%20998893939>
> >>> Email: neale.eldash em gmail.com
> >>>
> >>
> >>  ------------------------------
> >>
> >> _______________________________________________
> >> abe mailing list
> >> abe em lists.ime.usp.br
> >> https://lists.ime.usp.br/mailman/listinfo/abe
> >>
> >>
> >> _______________________________________________
> >> abe mailing list
> >> abe em lists.ime.usp.br
> >> https://lists.ime.usp.br/mailman/listinfo/abe
> >>
> >>
> >
> > _______________________________________________
> > abe mailing list
> > abe em lists.ime.usp.br
> > https://lists.ime.usp.br/mailman/listinfo/abe
> >
> >
> 
> --
> 
> There are two routes to success in soccer. One is being good. The 
> other is being lucky. You need both to win a championship. But you 
> only need one to win a game. (The numbers game)
> 
> -----------------------------------------------
> Neale Ahmed El-Dash
> Doutor em Estatística
> Celular: +55 19 998893939
> Email: neale.eldash em gmail.com

--
Open WebMail Project (http://openwebmail.org)