terça-feira, 31 de março de 2015

Outliers - parte I

apandre.wordpress.com

Esse assunto foi mencionado em postagem passada tratando do assunto correlato de sobredispersão. Outlier é uma palavra da lingua inglesa que designa itens ou coisas que se situam fora dos padrões usuais. No contexto estatístico, outlier é aquela observação que aparenta estar fora ou distante do padrão visto nas outras observações. A tradução que me parece mais apropriada e que muitos utilizam é dado aberrante. A avaliação sobre o que vem a ser uma aberração é claramente subjetiva e depende de uma compreensão do que é a norma estabelecida.

Qualquer que seja a causa que levou a presença de outliers, ela deve ser investigada. A sua adequada compreensão fatalmente elucidará aspectos do problema que não estavam totalmente claros. Existe uma série de motivos que pode levar a outliers. Todos devem ser investigados, de preferência dentro de uma cronologia bem definida. Parece-me que o ponto de partida deve ser a fonte de geração dos dados. Não é raro se descobrir que alguns dados foram erroneamente reportados por meros erros de transcrição de uma tabela para outra. Já publicamos postagem sobre esse ponto aqui. Várias fontes podem ser causadoras desse equívoco, sendo a mais comum delas a falta de atenção da pessoa responsável pela transcrição. Essa é uma falha comum pois em muitos problemas, a massa de dados a ser transcrita é grande e repetitiva, levando à exaustão e leniência, que podem ser fatais.

Outra fonte comum de erros na etapa de geração dos dados é a possibilidade sempre presente da coleta da informação em alguma(s) unidade(s) observacional(is) ter sido realizada de forma diferente da utilizada com o restante das unidades observacionais. Isso pode acontecer por cansaço do responsável pelo levantamento, condições adversas no momento da medição e por outras circunstâncias específicas do momento de aferição da informação.

A verificação de toda a gama de possibilidades descrita acima está longe de ser uma tarefa simples ou rápida mas é fundamental para garantir que o dado que parece ser discrepante efetivamente o é. Nesse ponto, deve ser inciada uma outra etapa da verificação que está mais associada ao fenômeno estudado em si. O que fazer a seguir será tratado na 2a postagem sobre esse assunto.

Gostaria de concluir esta postagem com uma ilustração de cunho eminentemente prático sobre os pontos discutidos acima. O Projeto Sexualidade (ProSex) é organizado pelo Instituto de Psiquiatria da Universidade de São Paulo. Há alguns anos atrás, esse projeto realizou um levantamento sobre homossexualidade a partir de um questionário aplicado a 8.200 pessoas em 10 capitais brasileiras. Esse estudo encontrou eco em uma série de meios de comunicação, indo desde de enciclopédias online até blogs com interesse voltado a esse tema.

Os resultados revelaram que a proporção de homossexuais do sexo masculino varia de 10,8% (Brasília) a 6,5% (Manaus), em um padrão relativamente contido em uma mesma faixa de valores. A única exceção era a cidade do Rio de Janeiro com 19,3%, quase o dobro da 2a cidade com a maior percentagem de gays. Essa número chama muito a atenção pelo enorme distanciamento com relação à massa das outras cidades (unidades observacionais desse estudo). Esse comportamento aberrante se torna ainda mais destacado quando se observa que levantamento similar na população feminina apontou variação de 10,2% (Manaus) a 2,6% (Cuiabá).

Apesar de todo o respeito pela seriedade que a instituição emana, fica difícil acreditar na veracidade dos números apresentados, especialmente do outlier que destaquei na população masculina do Rio de Janeiro. Esse tipo de levantamento sobre questões sensitivas está muito longe de ser trivial e a chance de uma séria distorção ter acontecido no momento da coleta dos dados é muito grande. O fato dos extremos na população feminina terem ocorrido nos centros menos desenvolvidos culturalmente apenas serve para aumentar essa dúvida sobre um levantamento de muito difícil implementação.

Afinal, é perfeitamente plausível que o Rio seja a cidade com maior proporção de homossexuais por uma série de motivos associados à estrutura socio-cultural dessa cidade. Mas fica difícil acreditar que essas características cariocas sejam responsáveis por uma discrepância tão exagerada com relação a todas as outras cidades brasileiras. É possível que o levantamento esteja correto mas se eu tivesse que arriscar um palpite, eu colocaria minhas fichas em um levantamento sistematicamente inadequado da informação (locais mal escolhidos, perguntas mal formuladas e/ou preenchimento inadequado).


Nenhum comentário:

Postar um comentário