terça-feira, 11 de setembro de 2018

Desmistificando idéias equivocadas sobre Estatística - parte VI

https://www.facebook.com/estadao/photos/a.124486140899790/2755651251116586/?type=3&theater

No início da semana passada, tivemos um belo exemplo de como se pode passar mensagens equivocadas usando Estatística sem falsear um único número sequer. O responsável por esse episódio foi o respeitado jornal de circulação nacional Estadão. A chave para entender o problema pode ser encapsulada na frase "uma imagem vale mais que mil palavras". Essa frase, atribuída ao filósofo chines Confúcio, enfatiza a importância que a linguagem visual tem relação à linguagem escrita. 

Pois o periódico paulista cometeu um deslize em uma de suas ilustrações da matéria sobre uma recente pesquisa eleitoral realizada pelo IBOPE. Ao procurar ilustrar os índices de rejeição dos principais candidatos à próxima eleição presidencial, exibiu a figura acima. Para piorar, a figura foi estampada na capa da edição on-line de 06 de setembro de 2018 da página do jornal no Facebook. Essa figura expressa a taxa de rejeição pela proporção de indivíduos que disseram que não votariam no candidato de nenhuma maneira. [Vale destacar que as proporções não precisam somar 100% pois foi permitido aos entrevistados indicar mais de um candidato rejeitado, se assim quisesse.] 

O primeiro ponto a notar na figura é que os números estão todos corretos. O que está errado, e muito errado, é a localização do ponto inicial do candidato Haddad. Apesar do gráfico não ter explicitado a escala, fica fácil perceber esse erro comparando as distâncias do ponto inicial do candidato Ciro com relação aos candidatos Alckmin e Haddad. Ciro, com 21% de rejeição, está 4% abaixo de Alckmin (com 25%) e está 3% acima de Haddad (com 18%). Apesar da distância numérica para Haddad ser menor que a distância numérica para Alckmin, o ponto inicial de Haddad está muito mais distante de Ciro que o ponto inicial de Alckmin!

Para piorar, a figura mostra um aumento maior da taxa de Haddad com respeito ao aumento da taxa de Bolsonaro. Isso também está errado na figura pois, embora Haddad e Bolsonaro tenham tido os maiores aumentos da taxa de rejeição, o aumento de Bolsonaro foi 7% ao passo que o aumento de Haddad foi de 5%.

Com isso, a figura cria um efeito visual ilusório de um grande aumento da rejeição de Haddad, que rivaliza (ou até predomina) visualmente sobre os efeitos verdadeiramente mais expressivos da figura, que são 
  1. a substancialmente maior taxa de rejeição do candidato Bolsonaro, na comparação com todos os outros candidatos ilustrados, em ambas as pesquisas consideradas. 
  2. o maior aumento de rejeição do candidato Bolsonaro, também na comparação com todos os outros candidatos ilustrados.
Esse problema foi relatado pelo professor Rafael Izbicki através de uma postagem, que também apresentou a sua solução. Após vê-lo mencionado na página do Rafael, a estatística Hayala Cavenague informou ao periódico sobre o problema. Este, por sua vez,  prontamente reconheceu o erro e se comprometeu a corrigi-lo. Efetivamente, a figura foi corrigida no texto da matéria da versão on-line e está reproduzida abaixo. [Mas quem acessar hoje a página do facebook do Estadão ainda encontrará a capa com a figura original.] A nova figura corrige os erros da figura anterior e expressa muito mais claramente o que os dados apresentam. 

https://politica.estadao.com.br/noticias/eleicoes,bolsonaro-perde-para-ciro-marina-e-alckmin-no-segundo-turno-diz-ibope,70002490009

Outra imprecisão corrigida na nova figura foi a colocação do eixo vertical (dos y's) começando de onde deve começar, do valor 0. Isso evidencia visualmente que números em torno de 40% são o dobro de números em torno de 20%. Embora esse fato seja óbvio e conhecido de todos, ele ficado mascarado na figura anterior e sua omissão poderia ensejar uma avaliação ilusória da comparação entre as taxas de rejeição nos 2 períodos pesquisados. A figura correta não deixa nenhuma dúvida quanto à efetiva distância entre as diferentes taxas de rejeição.

Esse assunto me proporcionou a retomada da série Desmistificando idéias equivocadas sobre Estatística que eu havia iniciado no passado já distante do StatPop e que estava adormecida há mais de um ano. Ele também permite que seja mencionado um clássico da Estatística onde esse tipo de problema já havido sido explicado em detalhes e que eu ainda não havia mencionado aqui. Trata-se do livro How to lie with Statistics, escrito por Darrell Huff, cuja interessante história merece uma postagem futura. Esse livro tem mais de meio século e pode ser facilmente comprado na internet a baixo custo. O capítulo 5 desse livro trata exatamente da mudança de escala descrita no paragrafo anterior e dos problemas de interpretação que ela pode introduzir, quando uma escala inadequada é usada, ou evitar, quando uma escala adequada é usada. 

Finalmente, queria agradecer a o Rafael Izbicki e Hayala Cavenague pela contribuição deles em prol da correta utilização da Estatística e a Hedibert Lopes e Filipe Zabala por terem atraído a minha atenção respectivamente para a análise do Rafael sobre a matéria jornalística e para o tratamento desse tipo de situação no livro de Duff.

3 comentários:

  1. Ola Professor,

    Grande postagem. Outra coisa que tem me incomodado recentemente e' como os (tele)jornais estao reportando o indice de confianca das pesquisas eleitorais. "O indice de confianca e' de 95%. Isso significa que ha uma probabilidade de 95% que..". Nao. Se o intervalo for de confianca, obtido por metodos classicos, essa nao e' a interpretacao correta. Esse link por exemplo contem a interpretacao correta (http://www.eleicoes.ibopeinteligencia.com.br/Paginas/Intervalo-de-confianca.aspx) que tem a ver com pesquisas (estimativas) repetidas. Nao sei se isso vale uma postagem ou ate mesmo um contato com as emissoras (tenho visto na Globo mas suspeito que o mesmo ocorre em outras). Se as emissoras vao dar ouvidos a alguem, sera a um Professor Titular da UFRJ.

    Cordialmente,

    Luiz

    ResponderExcluir
    Respostas
    1. Caro Luiz, o índice de confiança é sim a probabilidade que os limites aleatórios contenham o parâmetro e creio que é isso que é dito em muitos telejornais. Essa probabilidade pode ser checada amostralmente verificando se a proporção de amostras repetidas independentemente que contem o parâmetro se aproxima do índice nominal de confiança.

      Excluir
  2. Me permita discordar, professor. Acabei de re-assistir a jornalista apresentando a pesquisa Datafolha no Jornal Hoje e ela disse ".. probabilidade de 95% dos resultados refletirem a realidade". Ora, essa me parece ser a interpretacao do intervalo de CREDIBILIDADE, que faz alusao a probabilidade de UM determinado intervalo [L, U] conter o valor verdadeiro do parametro. Certo seria dizer que o indice de confianca implica que se fossem feitas 100 pesquisas, poderiamos esperar que 95 delas dariam uma margem de erro que contem a real intencao de voto do candidato.

    ResponderExcluir