[ABE-L] Neale E- Dash prevê vitória de Marina
Fernando A. S. Moura
fmoura em im.ufrj.br
Ter Set 23 11:56:21 -03 2014
Caros redistas
Os pontos levantados por Neale e o Pedro estimulam bastante a discussão.
Concordo com o Pedro quando ele diz que já que os primeiros estágios de
seleção da amostra é feito probabilisticamente deveriam ser considerados na
estimação. Uma questão interessante seria avaliar se o último estágio (creio
que selecionado por amostragem por cotas) pode causar um "viés" significativo
na estimação? Esta pergunta é pertinente, pois sabemos que a variância total
pode ser decomposta como a soma das variâncias dos vários estágios e estamos
trabalhando com uma variável binária.
Concordo com o Neale quando diz que não podemos colocar todas "as amostras por
cotas no mesmo saco". Algumas delas seguem protocolos rígidos para evitarem o
"viés do entrevistador". De qualquer forma, poderíamos avaliar o "efeito do
entrevistador" realizando amostragem por cotas com alguns entrevistadores.
Contudo existe uma hipótese básica na amostragem por cotas (que pensada como
um modelo) é assumida: "as observações em cada estrato determinado pelas cotas
são variáveis aleatórias permutáveis com média igual ao do estrato na
população". Aí é que podem surgir controvérsias sobre a sua aplicabilidade.
Interessante também é notar que vários estimadores "design-based" podem ser
justificados por meio de modelos de superpopulação com apenas hipóteses sobre
média e variância, ver Gonçalves, K.C.M, Moura, F.A.S and Migon, H.S.(2014).
Bayes Linear Estimation for Finite Population with emphasis on categorical
data. Survey Methodology, 40, 15-28.
Por outro lado, embora a amostragem probabilística garanta a ausência de viés
sob repetidas amostras, se o desenho amostral não for capaz de "retratar" bem
a estrutura da população teremos uma variância elevada, a menos que o tamanho
da amostra seja grande. Um exemplo interessante de como isso pode acontecer é
quando a população é rara e agrupada. O esquema probabilístico recomendado
neste caso é amostragem adaptativa. Uma tese recentemente defendida por uma
aluna minha de doutorado propõe um modelo de superpopulação que leve em conta
a estrutura da população e o caráter informativo da amostra. O estimador
pontual produzido por este modelo foi muito mais eficiente que o estimador
baseado no plano amostral adaptativo, mesmo quando avaliado sob repetidas
amostras adaptativas de uma população real, rara e agrupada. Para maiores
detalhes, consultar: Gonçalves, K.C.M.(2014). Modelos de previsão para
populações raras e agrupadas sob amostragem adaptativa. Tese de Doutorado de
Estatística da UFRJ, na página http://www2.dme.ufrj.br/.
Outra questão não menos importante que não depende do tipo de amostragem é a
cobertura real da população alvo. Tanto é assim, que o próprio IBGE se utiliza
da projeção de população para "ajustar" as estimativas da PNAD.
Abraços
Fernando Moura
On Mon, 22 Sep 2014 18:43:51 -0300, Neale El-Dash wrote
> Esse email passou em branco quando o Luis enviou, mas eu gostaria de
> fazer 2 comentarios. O email vai ser um pouco longo, mas eu acredito
> que esse tema merece ;)
>
> Primeiramente, segue o link para um relatorio da associacao
> americana de pesquisa de opiniao publica. Acho que quem se coloca
> tanto a favor como contra as pesquisas eleitorais deveria ler o
> relatorio. Tem muitas referencias, de academicos e pesquisadores, de
> estatisticos e cientistas sociais, e e' uma discussao seria e
> interessante. Melhor de tudo e' atual, de 2013:
>
> [Ref1]REPORT OF THE AAPOR TASK FORCE ON NON-PROBABILITY SAMPLING
> http://www.aapor.org/AM/Template.cfm?
Section=Reports1&Template=/CM/ContentDisplay.cfm&ContentID=5963
>
> 1- *Amostragem Probabilistica - * No contexto de amostragem de populacoes
> humanas (nao estou falando de populacoes fechadas, como funcionarios
> de uma empresa), nao existe amostragem probabilistica estritamente
> falando. Nao estou preocupado aqui em distinguir entre probabilidade
> de selecao ou probabilidade de resposta. Simplesmente as
> probabilidades de todos os respondentes na sua "base de dados" nunca
> sao conhecidas sem suposicoes. Nem o IBGE consegue tal feito, mesmo
> a populacao sendo obrigada por lei a responder ao questionario e
> tendo uma infinidade de $$$ se comparado a qualquer instituto de
> pesquisa particular. Ou seja, se o criterio a ser adotado para que
> uma pesquisa seja "vetada" e' simplesmente ela nao ser
> (estritamente) probabilistica, nao sao somente pesquisas eleitorais que
> devem ser eliminadas, sao absolutamente todas (inclusive as do IBGE).
>
> Alguem na lista conhece um contra-exemplo - uma amostra de alguma populacao
> humana onde os dados podem ser analisados sem se fazer uma unica suposicao?
> Fazer suposicoes/modelos esta em tudo que fazemos como estatisticos.
> Se vc utiliza uma base de dados sem se preocupar com como ela foi
> obtida, voce nao esta fazendo seu trabalho direito. Mas isso e' bem
> diferente de proibir que as pesquisas eleitorais sejam feitas.
>
> 2- *Amostragem Probabilistica com Cotas -* Nao acho que podemos colocar
> todas as amostras ditas "nao-probabilisticas" no mesmo saco. Claramente
> algumas sao bem melhores do que as outras. Se em uma pesquisa
> existe a preocupacao em reduzir possiveis vicios antes e depois da
> selecao da amostra, essa pesquisa e' provavelmente melhor do que uma
> pesquisa que nao se preocupa com isso, por exemplo. A maioria dos
> institutos de pesquisa que eu conheco NAO utilizam amostragem em
> ponto de fluxo, pelo menos nao para pesquisas eleitorais/Opiniao
> publica (com excecao do Datafolha, que eu acho que faz dentro de
> algumas cidades). A maioria utiliza o que eu chamo de amostragem
> probabilistica com cotas (APC), onde os primeiros estagios sao
> probabilisticos, e apenas o ultimo estagio tem cotas (dentro do
> setor censitario). Nesse ultimo estagio impoem-se restricoes sobre
> como o entrevistador pode selecionar o respondente. Essa metodologia
> de pesquisa e' muito bem descrita em:
>
> [Ref2]Probability SampIing with Quotas: An Experiment (C. BRUCE
> STEPHENSON)
http://publicdata.norc.org:41000/gss/DOCUMENTS/REPORTS/Methodological_Reports/
MR007.pdf
>
> onde ale'm de tudo, e' feita uma comparacao minuciosa com
> amostragem probabilistica (aquela da pratica, cheia de suposicoes).
> Esse relatorio mostra que foram observadas bem poucas diferencas com
> qualquer relevancia pratica. Essencialmente, a maior preocupacao e'
> que com a APC o tamanho medio dos domicilios e' usualmente maior,
> algo facilmente corrigido com uma simples ponderacao (e, e' claro,
> uma suposicao!). Meu ponto e', faz muito mais sentido usar esse
> artigo [Ref2] e esse tipo de amostragem como referencia para
> criticas/sugestoes, do que a amostragem por cotas (em ponto de fluxo)
> que usualmente nao e' utilizada no Brasil. A amostragem por cotas
> (em ponto de fluxo) e' comparada com a amostragem probabilistica (aquela
> da pratica, cheia de suposicoes) nesse artigo abaixo:
>
> [Ref3]An experimental study of quota sampling (C. A. Moser and A.
> Stuart) http://www.jstor.org/discover/10.2307/2343021?
uid=3737664&uid=2&uid=4&sid=21104724117583
>
> Coloquei esse artigo [Ref3] para quem tem interesse poder compara-lo
> com o artigo [Ref2] e ver como as metodologias (e as criticas) sao muito
> diferentes.
>
> Enfim, eu acho que a distincao entre amostragem probabilistica e
> nao-probabilistica, em muitos casos e' bem mais sutil do que parece.
> Vale a pena ler com cuidado a metodologia de qualquer pesquisa,
> independente desse rotulo. Assim voce ja comeca a formular um
> modelo para ser utilizado com os dados, e entende melhor quais podem
> ser o problemas em potencial ao analisar os resultados.
>
> Abraco Neale
>
> Em 21 de setembro de 2014 22:28, Luis Paulo Braga <lpbraga em geologia.ufrj.br>
> escreveu:
>
> >
> > https://br.noticias.yahoo.com/pesquisas-eleitorais-cont%C3%AAm--problemas-
s%C3%A9rios--e-deveriam-ser-vetadas--diz-estat%C3%ADstico-veterano-
235137785.html
> >
> > Em 21 de setembro de 2014 18:15, Marcelo L. Arruda <mlarruda em terra.com.br>
> > escreveu:
> >
> > Esse é um problema sério com que freqüentemente lido no Chance de Gol.
> >>
> >> Para os estatísticos, o significado de "prever" pode ser longamente
> >> discutido e não vou abrir essa discussão agora.
> >> Para o "povão", porém, "prever" significa cravar antecipadamente algo
> >> que vai acontecer, ou seja, "adivinhar", "profetizar", "vaticinar"! E aí
> >> sempre cabe a observação (nem sempre apreendida pelo interlocutor) de que
> >> 58% de probablidade de vitória de X não é o mesmo que afirmar
> >> categoricamente que X VAI GANHAR!
> >>
> >> Marcelo
> >>
> >> ----- Original Message -----
> >> *From:* Luis Paulo Braga <lpbraga em geologia.ufrj.br>
> >> *To:* Neale El-Dash <neale.eldash em gmail.com> ; Lista da ABE
> >> <abe-l em ime.usp.br>
> >> *Sent:* Sunday, September 21, 2014 4:44 PM
> >> *Subject:* Re: [ABE-L] Neale E-Dash prevê vitória de Marina
> >>
> >> Qual o significado do verbo prever?
> >>
> >>
> >> Em 21 de setembro de 2014 10:59, Neale El-Dash <neale.eldash em gmail.com>
> >> escreveu:
> >>
> >>> Olá Luis, obrigado por postar a "mini" reportagem.
> >>>
> >>> Só um comentário: 58% de chance de vitoria é diferente de prever
> >>> vitória!
> >>>
> >>> Abraço
> >>>
> >>> Em 21 de setembro de 2014 10:53, Luis Paulo Braga <
> >>> lpbraga em geologia.ufrj.br> escreveu:
> >>>
> >>>> Veja
> >>>>
> >>>> *A pesquisa das pesquisas*
> >>>>
> >>>> Desde que Marina Silva entrou na disputa eleitoral, já foram divulgadas
> >>>> 33 pesquisas registradas na Justiça Eleitoral, de cinco institutos.
Esses
> >>>> levantamentos mostram o que os analistas chamam de uma "fotografia do
> >>>> momento", mas dizem pouco sobre o que pode acontecer no futuro. Para
tentar
> >>>> apontar as chances de vitória de cada candidato, o estatístico Neale
> >>>> El-Dash, ex-diretor de pesquisas do instituto Ipsos nos Estados Unidos,
> >>>> adaptou para o Brasil o método utilizado pelo matemático americano Nate
> >>>> Silver na eleição de 2012, quando ele acertou os resultados em todos os
> >>>> cinquenta estados americanos.
> >>>>
> >>>> Por meio do cruzamento dessas 33 pesquisas, inclusive a do Datafolha
> >>>> divulgada na sexta-feira passada, o estatístico fez 15000 simulações em
um
> >>>> programa de computador que permitiram chegar aos cenários com maior
> >>>> probabilidade de se concretizar. O trabalho mostrou que Marina tem 58%
de
> >>>> possibilidade de vencer a disputa pela Presidência da República, contra
41%
> >>>> de Dilma Rousseff e 1% de Aécio Neves. A pesquisa de El-Dash deu pesos
> >>>> diferentes a cada levantamento, a partir de variáveis que abrangeram
desde
> >>>> o tamanho da amostra utilizada até o histórico de aceitos de cada
> >>>> instituto. À medida que se aproxima a data da eleição, também muda, por
> >>>> exemplo, a influência da margem de erro dos levantamentos.
> >>>>
> >>>> _______________________________________________
> >>>> abe mailing list
> >>>> abe em lists.ime.usp.br
> >>>> https://lists.ime.usp.br/mailman/listinfo/abe
> >>>>
> >>>>
> >>>
> >>>
> >>> --
> >>>
> >>> There are two routes to success in soccer. One is being good. The other
> >>> is being lucky. You need both to win a championship. But you only need
one
> >>> to win a game. (The numbers game)
> >>>
> >>> -----------------------------------------------
> >>> Neale Ahmed El-Dash
> >>> Doutor em Estatística
> >>> Celular: +55 19 998893939 <%2B55%2019%20998893939>
> >>> Email: neale.eldash em gmail.com
> >>>
> >>
> >> ------------------------------
> >>
> >> _______________________________________________
> >> abe mailing list
> >> abe em lists.ime.usp.br
> >> https://lists.ime.usp.br/mailman/listinfo/abe
> >>
> >>
> >> _______________________________________________
> >> abe mailing list
> >> abe em lists.ime.usp.br
> >> https://lists.ime.usp.br/mailman/listinfo/abe
> >>
> >>
> >
> > _______________________________________________
> > abe mailing list
> > abe em lists.ime.usp.br
> > https://lists.ime.usp.br/mailman/listinfo/abe
> >
> >
>
> --
>
> There are two routes to success in soccer. One is being good. The
> other is being lucky. You need both to win a championship. But you
> only need one to win a game. (The numbers game)
>
> -----------------------------------------------
> Neale Ahmed El-Dash
> Doutor em Estatística
> Celular: +55 19 998893939
> Email: neale.eldash em gmail.com
--
Open WebMail Project (http://openwebmail.org)
Mais detalhes sobre a lista de discussão abe