[ABE-L] Uma provocação acadêmica

Rafael Stern rbstern em gmail.com
Qui Out 23 02:38:49 -03 2014


Filipe,

É possível defender a amostragem aleatória,
mesmo que partindo da probabilidade subjetiva.
O Ghosh (
http://www.stat.purdue.edu/docs/research/tech-reports/2005/tr05-04.pdf)
indica dois possíveis motivos para defender a aleatorizacão:

I) É difícil colocarmos em nosso modelo todos os possíveis vieses que
acreditamos que podem ocorrer.
A aleatorizacão nos concede uma forma de nos protegermos contra nossos
vieses que não seríamos capazes de colocar
no modelo (seja por nossos vieses individuais ou falta de tempo). Como o
Pedro levantou: Como fazer um modelo para o complexo processo de um
entrevistador escolhendo pessoas na rua? Quais simplificacoes sao
aceitáveis? Quais vieses nós ignoramos conscientemente e inconscientemente?

II) Um instituto de pesquisa deseja obter uma amostra que não uma única
pessoa ache informativa, mas uma amostra que muitas pessoas concordem
simultaneamente ser informativa. A aleatorizacão oferece uma forma de obter
(com alta probabilidade) esse tipo de amostra. Nesse caso, novamente, será
difícil achar duas pessoas que concordem em relacão à verossimilhanca de
dados obtidos por entrevista livre na rua.

Em defesa desses argumentos,
eu gosto muito de duas citacoes do Basu que encontrei num artigo do
Carlinhos.
(http://arachne.ime.usp.br/~jstern/papers/papersJS/AIP1490L.PDF)

"(Why to randomize?) - The conterquestion ‘How can you justify purposive
sampling?’ has a lot of force in it. It is only in transparently simple
cases that one can give a clear-cut argument in favor of a particular
purposive plan. In a true-to-life survey situation, it is very difficult to
sell the idea of a fully purposive plan. The very purpose of a purposive
plan is rooted in the scientific intuition and knowledge of a surveyor. No
two surveyors are likely to agree on the choice of their survey plans. The
choice of a purposive plan will make a scientist vulnerable to all kinds of
open and veiled criticisms. A way out of the dilemma is to make the plan
very purposive, but to leave a tiny bit of randomization in the plan; for
example, draw a systematic sample with a random start or make a very
extensive stratification of the population and then draw a sample of size 1
from each stratum! Basu (1988, p.257)"

"It is a clear imperative that the surveyor fully describe his survey plan
and carefully explain all the considerations that led to the particular
plan. And this inhibits the choice of a purposive plan. The possible
criticism that the surveyor’s chosen plan was not the optimum one (even
with respect to his own background information) may not cast any doubt on
his conclusions as long
as the critic can analyze his (the surveyor’s) data. No wonder, therefore,
that all of us choose the path of least resistance and try to incorporate
an element of randomness in the survey plan. Basu (1988, p.258)."

Abs,
Rafael

2014-10-22 21:59 GMT-04:00 Filipe Zabala <filipezabala em gmail.com>:

> https://faculty.fuqua.duke.edu/~rnau/definettiwasright.pdf
>
> Em 22 de outubro de 2014 23:53, <asimonis em ime.usp.br> escreveu:
>
>
>> Caros, supondo que o pessoal da geral (eu e + alguns) e os da
>> arquibancada também possam dar pitacos, gostaria de destacar o ponto
>> colocado sobre " probabilidade não existe" que é bem sabido até pela
>> torcida do Flamengo (não falemos mais de futebol hoje pois o Glorioso hoje
>> perdeu para aqueles).
>>
>> O cálculo de probabilidades existe e é muito bem-vindo por todos. A
>> réplica de experimentos foi o que deflagrou a Revolução Científica.
>>
>> A estimativa por cotas se bem-feita é um belo estimador. Se é bom nunca
>> saberei por não permite o cálculo a que me referi.
>>
>> Mesmo com verossimilhancas "flats" devemos, por vocação, não cair em
>> falácias, tais como: o meu cão recebe comida se sentar, mas não quer dizer
>> que basta isto para ser alimentado. Em outras palavras, reproduzir as
>> proporcionalidades populacionais na amostra não a torna uma amostra
>> aleatória.
>>
>> Abs
>>
>>
>> Citando Pedro Luis do Nascimento Silva <pedronsilva em gmail.com>:
>>
>>  Colegas,
>>>
>>> Quando o técnico entra em campo, é bom os jogadores ouvirem o que ele
>>> tem a
>>> dizer... Mesmo os supostos craques (falo por mim)...
>>>
>>> Carlinhos, a dificuldade com a amostragem por cotas, para mim, não vem de
>>> um argumento teórico, embora eu respeite todo os já apresentados.
>>>
>>> Eu conheço, por exemplo, os trabalhos do Migon e do Gutemberg em
>>> pesquisas
>>> eleitorais feitas nos anos 90 em que usaram modelos de escolha
>>> intencional
>>> para a amostra de sessões eleitorais cujos resultados, em eleições
>>> passadas, se pareciam mais com os resultados globais. Este tipo de
>>> abordagem tem uma propriedade fundamental: é replicável.
>>>
>>> Você também apresentou alternativas que levam a procedimentos
>>> replicáveis.
>>>
>>> Os modelos de amostragem por cotas em uso aqui e em outras partes tem um
>>> componente que os torna 'irreplicáveis': dão ao entrevistador que está na
>>> rua uma liberdade muito grande de fazer o que quiser, dentro de
>>> parâmetros
>>> muito frouxos de quem podem e quem não podem selecionar. Este tipo
>>> abordagem admite modelagem, claro, mas como se sairá o modelo com
>>> pequenas
>>> variações na composição da equipe que faz a coleta ou no posicionamento
>>> da
>>> equipe de coleta no campo?
>>>
>>> Na semana passada eu encontrei um pesquisador de um dos grandes
>>> institutos
>>> que fazem pesquisas eleitorais, posicionado na esquina da Av. Nossa
>>> Senhora
>>> de Fátima com Rua do Riachuelo, e selecionando pessoas para entrevistar
>>> com
>>> a seguinte estratégia: mostrava aos passantes o crachá bem grande que
>>> tinha
>>> com o nome do instituto, e convidava para participar da pesquisa. Quem
>>> conhece o local saberá que não dá para chamar os passantes de eleitores
>>> permutáveis...
>>>
>>> Creio que estamos num bom caminho ao explicitar o debate, trazer à tona
>>> os
>>> vários argumentos e alternativas, explorar suas vantagens e limitações, e
>>> assim, crescer no conhecimento das possibilidades.
>>>
>>> Lamentavelmente, nossa discussão aqui tem pouca chance de influenciar o
>>> mercado de pesquisas eleitorais (ao menos no curto prazo).
>>>
>>> Mas isto não é argumento para não continuar com a discussão.
>>>
>>> Saudações botafoguenses... Pedro
>>>
>>>
>>>
>>> Em 21 de outubro de 2014 23:07, Carlos Alberto de Bragança Pereira <
>>> cpereira em ime.usp.br> escreveu:
>>>
>>>
>>>> Caros redistas:
>>>>
>>>> É com muita satisfação ver uma discussão em nossa rede de craques: Pelé,
>>>> Maradona, Neymar e Messi - Zé, Pedro, Rafael e Neale. Como um
>>>> coadjuvante,
>>>> vou tentar bater uma bola com esse pessoal da pesada.
>>>>
>>>> Nas minhas últimas intervenções tentei colocar alguns pontos esquecidos
>>>> e
>>>> agora vejo pelos artigos apresentados que a análise sim é fundamental.
>>>> Por
>>>> sinal devo dizer que tive ótimas discussões com alguns redistas fora do
>>>> nosso fórum.   Mas o que mais me chamou atenção foi a palavra
>>>> probabilística acompanhando a amostragem como sendo um qualificativo.  E
>>>> claro o outro qualificativo cotas tende a ser pejorativo para parte do
>>>> nosso fórum.  O Carvalho sim explicou como as pessoas fazem a amostragem
>>>> por cotas e creio que ele está correto na forma equivocada como são
>>>> realizadas.  Contudo, creio que se feita com propriedade pode ser útil e
>>>> auxiliar na coleta de uma amostra “boa”.  Vou simplificar bastante minha
>>>> discussão para que possamos discutir com talvez mais clareza, pelo menos
>>>> para mim.
>>>>
>>>> Representemos nosso problema pela nossa conhecida urna com bolinhas
>>>> coloridas: vermelho para o PT, verde para os tucanos e brancas para o
>>>> resto
>>>> (brancos; nulos; e não votantes).  Consideramos uma amostra informativa
>>>> (paramétrica) se a verossimilhança depender das frequências de cada uma
>>>> das
>>>> categorias e ai ter-se-ia um modelo hipergeométrico multivariado, com
>>>> parâmetros P, T e B, população N (Número de bolas da urna) e amostra n
>>>> (número de bolas na amostra).  Este modelo é muito bom para partes da
>>>> população onde os eleitores, em nossa opinião seriam permutáveis.  Assim
>>>> lembrando o famoso artigo de Lindley e Novick do Annals of Statistics, a
>>>> permutabilidade é equivalente às estratificações e aglomerações da
>>>> amostragem.  Em cada núcleo pequeno teríamos assim uma urna de 3 cores.
>>>> Daí teríamos para cada núcleo uma hipergeométrica específica dando a
>>>> verossimilhança necessária para compor a verossimilhança do aglomerado
>>>> que
>>>> em uma composição posterior formar a verossimilhança do estrato e por
>>>> fim a
>>>> verossimilhança global que nos daria o conjunto de credibilidade para
>>>> formar a verossimilhança global.  Esse foi um dos dois modelos usado por
>>>> nós na eleição da Nicarágua.
>>>>
>>>> Agora pensemos na urna com as bolinhas marcadas com os nomes dos
>>>> eleitores
>>>> e ai diferenciados uma a um.  O modelo agora é selecionar uma amostra de
>>>> tamanho n da população de tamanho N. Neste caso cada uma das amostras
>>>> teria
>>>> probabilidade igual ao inverso de C(N;n) que é a combinação de N, n a n.
>>>> Todas as amostras de tamanho n tendo a mesma probabilidade de ser
>>>> extraída
>>>> ao chacoalharmos a urna do escritório do estatístico.  Neste caso,
>>>> muda-se
>>>> o valor dos parâmetros P, T e B e a verossimilhança continua sendo a
>>>> mesma,
>>>> o que chamei de flat.  Lembrem-se os colegas que por esta razão chamei
>>>> de
>>>> flat a verossimilhança.  Assim, não há como usar o estimador de Máxima
>>>> verossimilhança e sim estimadores não viciados com a verossimilhança
>>>> Flat,
>>>> sendo a variável aleatória o indicador de um eleitor pertencer ou não a
>>>> amostra sem referência ao fato de ele ser de alguma cor.  Com o fato de
>>>> usarmos estratificação e conglomeração usamos esses métodos para
>>>> melhorar o
>>>> indicador de o eleitor i pertencer ou não a amostra.  Esse foi o segundo
>>>> modelo usado por nós na eleição da Nicarágua como o Carvalho mencionou.
>>>> Nosso artigo está nos anais do SINAPE de 1990.  Devido ao tamanho do
>>>> documento que preparei tentarei enviar uma cópia em um próximo e-mail,
>>>> pois
>>>> no e-mail do IME normalmente não conseguimos enviar pastas com mais de 1
>>>> megabyte.  Como o Carvalho mencionou, foi um trabalho hercúleo do grupo
>>>> do
>>>> grande mestre OSCAR mostrar as convergências dos estimadores não
>>>> viciados
>>>> (estimador razão) deste tipo de modelo.  Como irão ver em nosso artigo
>>>> os
>>>> resultados foram equivalentes.
>>>>
>>>> Finalmente gostaria de mencionar a amostragem intencional que é obtida
>>>> por
>>>> otimização global.  Nossa receita é copiar na amostra as proporções
>>>> populacionais para aquelas variáveis consideradas relacionadas com a
>>>> variável que temos interesse, a frequência de eleitores em cada núcleo
>>>> (estratificação e aglomeração).  O problema é que somos obrigados a
>>>> usar um
>>>> otimizador: isto é, quais as mostras de tamanho n da população de
>>>> tamanho N
>>>> que melhor copia a população daquele pequeno núcleo. Note que como a
>>>> amostragem não paramétrica é flat e esta amostra otimizada é uma
>>>> possível
>>>> seleção daqueles modelos não paramétrico! Então, qual o problema de
>>>> usarmos
>>>> a mesma inferência daquele modelo?  Esta é a diferença que eu e o Zé
>>>> teríamos.  Lembrem-se que o modelo de cotas usadas pelos institutos não
>>>> fazem a otimização global e sim marginal, isso se usarem o descrito pelo
>>>> Carvalho.
>>>>
>>>> Finalizo esta minha singela intervenção dizendo que a composição das
>>>> verossimilhanças pode ser pensada como uma meta análise de
>>>> verossimilhanças
>>>> que descrevi no artigo convidado da revista Ciência e Natura do nosso
>>>> colega Fábio.
>>>> Como provocação, coloco aqui o paradigma: Por que uma amostra por cotas
>>>> (da forma otimizada que coloquei) passaria de ruim a boa apenas porque
>>>> foi
>>>> selecionada por um mecanismo não informativo? Uma urna que não tem nada
>>>> haver com a população pode transformar uma amostra ruim em boa só
>>>> porque é
>>>> um ponto amostral possível daquele mecanismo?
>>>>
>>>> Saudações acadêmicas de um perna de pau.
>>>>
>>>> Carlinhos
>>>> Vou tentar enviar o paper aqui na rede
>>>> Se não chegar os interessados que usam outros emails mais flexíveis  por
>>>> favor me escrevam que eu mando para vocês.
>>>>
>>>> --
>>>> Carlos Alberto de Bragança Pereira
>>>> http://www.ime.usp.br/~cpereira
>>>> http://scholar.google.com.br/citations?user=PXX2AygAAAAJ&hl=pt-BR
>>>> Stat Department - Professor & Head
>>>> University of São Paulo
>>>>
>>>>
>>>> _______________________________________________
>>>> abe mailing list
>>>> abe em lists.ime.usp.br
>>>> https://lists.ime.usp.br/mailman/listinfo/abe
>>>>
>>>>
>>>
>>>
>>> --
>>> Pedro Luis do Nascimento Silva
>>> *ISI President-Elect 2013-2015*
>>> IBGE - Escola Nacional de Ciências Estatísticas
>>> Phone: +55 21 21424957
>>>
>>
>>
>>
>> _______________________________________________
>> abe mailing list
>> abe em lists.ime.usp.br
>> https://lists.ime.usp.br/mailman/listinfo/abe
>>
>
>
> _______________________________________________
> abe mailing list
> abe em lists.ime.usp.br
> https://lists.ime.usp.br/mailman/listinfo/abe
>
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <https://lists.ime.usp.br/archives/abe/attachments/20141023/552b3fbd/attachment.html>


Mais detalhes sobre a lista de discussão abe