[ABE-L] Desculpem

Ter Out 7 08:52:18 -03 2014

Colegas, bom dia!

De fato. A margem de erro dessas pesquisa é desconhecida. Não se
justifica o cálculo feito pelos "institutos", que carece de base.

E mais um problema, do qual ninguém fala: trata-se de uma resposta
multinomial. Em geral, são vários candidatos, mais de dois. E a margem
de erro é dada para cada um e todos, uma só. Pelas marginais
certamente, sem levar em conta as estimativas dos demais. Não é uma
graça?

Mas é assim em toda parte, no que toca a abusos de estatística. Tenho
relatórios de pesquisas com consumidores, feitas por "institutos"
internacionais, em que vários produtos são testados. Às respostas
multinomiais são atribuídos números e esses escores são tratados como
numéricos. As comparações de produtos são feitas dois a dois, por
testes t. E nem sequer correções dos níveis de significância são
calculados para esses numerosos testes. Quer dizer - está tudo errado.
Ali onde um teste global apropriado seria baseado em simples tabela de
contingência, isso não é feito. Diga-se de passagem: embora cada
"célula" (como são chamados os grupos de tratamento pelos neófitos que
redescobriram a estatística, sem dar crédito aos antecessores) tenha
100 ou mais testadores, o fato é que se encontra um menor número de
comparações significantes. Assim, muitos testes t baseados em falsa
resposta numérica "dá maior poder". Essa frase me foi dita, como
justificativa. Dói no ouvido.

Posso mencionar também, nesta mesma área, testes de equivalência, ou
de não inferioridade, que são testados como testes de simples
diferença, pois "o tamanho do experimento aumenta"...

Mas os relatórios são lindos ("flashy") e apresentados a clientes que
não tem a menor ideia de estatística. Alguns desses clientes são
oriundos dessa área nos "institutos" e outros irão trabalhar ali. E
não são estatísticos. Ninguém percebe coisa alguma.

Temos problemas sérios. Em geral, não se percebem erros. Quem vai
verificar e o que verificar? São raros os casos em que trabalhos de
pesquisa podem ser verificados. Um tipo de trabalho assim é o quick
count feito pela OEA, baseado em contagem paralela de resultados de
urnas eleitorais, feito por amostragem. Carlinhos, Julinho e eu
fizemos esse trabalho em alguns países. Aliás, não usamos nada
Bayesiano. Bem que o Carlinhos fez algo Bayesiano, uma vez, mas o
trabalho que fizemos e cujos resultados apresentamos foi baseado em
amostragem aleatória estratificada. E deu certo em todas as vezes.
Depois de nós, o trabalho seguiu em muitas eleições, tocado pelo
Antônio Amarante, feito do jeito que nós fizéramos antes. Sem erro!
Claro, tínhamos cadastros das urnas e  exércitos de apuradores. Não é
difícil. E funciona. Com verossimilhança flat e tudo, né Carlinhos?
Enfim, isso é verificar o resultado da amostragem... onde mais é possível?

E já que mencionei meu amigo Carlinhos: chefe, amostragem por quota
nada tem de Bayesiano. Você forçou um elemento na discussão, que vai
levar a gente para fora do foco.

Voltando ao problema da má prática - que outro nome dar? - este é um
problema insolúvel. O que podemos é tentar fazer direito de nossa
parte. Nem isso é possível, muitas vezes. Em uma certa firma, o
gerente, que se pode dizer meu amigo, foi confrontado com esses
problemas. Ele se convenceu de que havia erro em não se usar as
respostas como discretas (usava os escores fajutos). Ao fim, ele me
perguntou se o tamanho de amostra poderia ser o mesmo que era usado
para encontrar-se diferenças de... médias. Eu disse que não. Então ele
me disse: "Olha, todo mundo faz assim. Eu tenho um orçamento limitado.
Nossa assessora também é professora, embora não de estatística e usa
os escores numéricos e testes t. Eu continuarei a fazer como se faz,
como ela faz." Quero dizer - nem dá para fazermos direito.

PS Sobre o uso de médias para comparar-se distribuições com suporte
sobre um número finito de pontos (que chic!  estou só falando de
poucas categorias, como os inteiros de 1 a 5)

Vejam só. Se a resposta for a contagem de ovos defeituosos em uma
caixa, tem sentido calcular-se a média. Pois em N caixas, a proporção
de defeituosos será Np. Até aqui, tudo bem. A contagem é um número.

Mas certas respostas não se somam. Por exemplo, a agradabilidade de um
produto. Se você gosta muito e eu não, nossa média é?... Neste caso,
como sempre, interessa saber as proporções de cada classe, p1,...,p5.
E a "média" nada significa, no sentido de que não determina, nem de
leve, a distribuição {pi}. É fácil ver (pelo menos para nós, desta lista)

Com a média fixada em M, temos duas equações lineares:

p1+p2+p3+p4+p5 = 1
1 p1+2 p2 +3 p3 + 4 p4 + 5p5 = M

(Claro, todos os 0<=pi <=1)

Pois bem - haverá um número infinito de soluções para os p (na
verdade, em um espaço restrito de R3. Distribuições BEM diferentes
terão a mesma média. Então, que sentido há em comparar essas
médias???? Essa é uma simples decorrência da bobagem de atribuir
propriedades numéricas onde elas inexistem. (A turma não conhece a
desigualdade triangular - daí não trepida em "criar" números).

Tenho anotado comigo um elenco de erros assim. E guardo documentos
exemplares. Um dia, se a rotina me der tempo, escreverei seriamente
sobre esses casos. Preservando a identidade de pessoas e firmas. Não
por medo, mas por respeito e consideração às pessoas. Como a comédia
nasce do drama, poderemos rir... quando deveríamos chorar.

Abs

Zé C.

(estatístico "randomizeiro")

On 10/06/2014 07:09 PM, Marcelo L. Arruda wrote:
> Por partes:
> 
> 1 - Aparentemente, o maior problema da forma como as pesquisas são 
> DIVULGADAS é a tal da "margem de erro". Um aspecto que me chamou
> muito a atenção, por exemplo, foi o JN de sábado ter divulgado,
> para cada pesquisa (Ibope e Datafolha), porcentagens de intenção de
> voto sobre o universo total e sobre os votos válidos, e nos dois
> casos a margem de erro era a mesma ("2 pontos percentuais para cima
> ou para baixo").
> 
> Ora, suponham, para facilidade de raciocínio, que os votos válidos
> sejam 50% do total. Então, a porcentagem de intenções de voto para
> o candidato fulano no universo dos votos válidos (chamemos p-linha)
> é o DOBRO da porcentagem de intenções de voto no universo
> total.(chamemos p). Ora, se p-linha é igual a 2p, então qualquer
> estimação intervalar sobre p-linha deverá ter o dobro da amplitude
> (ou seja, "da margem de erro") da mesma estimação feita para p,
> correto?
> 
> Sendo assim, se para a transposição de votos no universo total
> para votos no universo dos válidos os institutos já cometem esse
> tipo de barbeiragem, vai saber o que mais é feito lá dentro da
> caixa preta?
> 
> E tem ainda o "paradoxo dos nanicos": se para TODOS os candidatos
> a margem de erro era de 2 pontos para mais ou para menos, então o
> Eymael poderia ter até -2% do total de votos? Ou, pegando o
> inverso, um candidato que tivesse 99% das intenções de voto poderia
> ter até 101% do total dos votos?
> 
> Não sei se é possível, sem acesso às caixas pretas dos institutos, 
> calcular as estimativas intervalares corretas para as intenções de
> voto em cada candidato. Mas ouso teorizar que essas estimativas
> estariam mais próximas das porcentagens efetivamente observadas do
> que as "margens de erro" efetivamente divulgadas pelos institutos.
> 
> 
> 2 - Não sei há quanto tempo existem as pesquisas de intenção de
> voto no Brasil. A mais antiga de que eu me lembro data de 1985, na
> famosa eleição em que Jânio Quadros superou FHC na reta final da
> campanha para prefeito de São Paulo. Pode ter havido pesquisas
> anteriores, mas é fato que faz pelo menos 29 anos que isso existe.
> 
> Pois bem: em 29 anos, as distribuições de sexo, faixa etária, 
> escolaridade, renda etc. por região/estado/cidade/zona/bairro etc. 
> inevitavelmente muda. E falando particularmente das mudanças por
> que o Brasil passou nesses 29 anos, todos os universos
> (especialmente nos maiores centros urbanos) ficaram muito mais
> heterogêneos do que eram décadas atrás. Aí vem a dúvida, então: os
> institutos utilizam os mesmos planos e estratégias amostrais que
> usavam 29 anos atrás ou esses planos e estratégias foram sendo
> atualizados ao longo do tempo? E mais: como essa atualização é
> operada? Se os institutos usam as suas próprias pesquisas como
> instrumento de atualização de mapeamento (da distribuição de
> sexo/faixa etária/renda/whatever por região), isso não pode
> provocar um vício recursivamente retro-alimentado?
> 
> 
> 3 - Para concluir, uma curiosidade, caso o Neale possa responder:
> os cálculos do Pollingdata se baseiam exclusivamente na última
> pesquisa realizada ou levam em conta o histórico de pesquisas e
> conseqüentemente uma eventual tendência de crescimento de X ou
> decrescimento de Y?
> 
> Marcelo
> 
> ----- Original Message ----- From: "Jose Carvalho" 
> <carvalho em statistika.com.br> To: <abe-l em ime.usp.br> Sent: Monday,
> October 06, 2014 5:08 PM Subject: [ABE-L] Desculpem
> 
> 
>> Não vi o email do George. Chovi no molhado. Desculpe-me George, 
>> desculpem-me todos. A resposta do George, cobre o que acabo de
>> enviar.
>> 
>> :-(
>> 
>> 
>> _______________________________________________ abe mailing list 
>> abe em lists.ime.usp.br 
>> https://lists.ime.usp.br/mailman/listinfo/abe
>> 
> 
> 
> _______________________________________________ abe mailing list 
> abe em lists.ime.usp.br https://lists.ime.usp.br/mailman/listinfo/abe

-- 
Jose Carvalho, PhD
Statistika
+55-19-3236-7537 (office)
+55-19-98139-9927 (cel)