terça-feira, 7 de abril de 2015

Outliers - parte II

nelsontouchconsulting.wordpress.com

Uma vez vencida a etapa inicial de verificação da veracidade da informação discrepante, resta a questão de como tratá-la. Nesse ponto, deve ser inciada uma outra etapa da verificação que está muito mais associada ao fenômeno estudado em si. Perguntas que aparecem são: a unidade de observação que gerou o dado discrepante tem alguma característica que a difere do conjunto das outras unidades? a unidade de observação poderia estar no conjunto de dados junto com as outras unidades? Respostas a essas perguntas certamente contribuirão para uma melhor compreensão do fenômeno sendo estudado.

Existem técnicas exploratórias que estabelecem regras simples de pertinência de um valor a um dado grupo. Se o valor satisfaz a essas regras, é mantido no grupo de estudo. Se não satisfaz, esse dado é sumariamente eliminado da análise, que prossegue como se esse valor nunca tivesse sido observado. Essa regra é sempre a mesma e é válida para qualquer conjunto de dados, independente da área de estudo de onde eles se originem. Um exemplo é a regra que estabelece limites para valores aceitáveis em função de múltiplos da distância interquartílica, como ilustra a figura acima. Pontos externos à cerca interna (inner fence) são declarados outliers.

Um exemplo bastante conhecido é o estudo da área das ilhas existentes no mundo. O outlier nesse caso é a Australia, que muitos consideram uma ilha. O boxplot das ilhas (mesmo na escala logarítmica)  mostra que a área da Australia se destaca de forma bastante expressiva dos tamanhos de todas as outras ilhas, levando a se questionar se é adequado classificar esse país-continente como uma ilha.

A arbitrariedade dessa regra incomoda a muitos estudiosos, que procuram uma solução mais estruturada. Estudos nessa direção floresceram algumas décadas atras quando a área de robustez se destacou no cenário da estatística. Várias idéias surgiram e algumas técnicas foram propostas. Uma delas é a função de influência, que se destina a medir o efeito que um valor tem na estimativa de uma quantidade populacional de interesse.

O exemplo mais conhecido é o de estimação de uma média populacional. Se é feita a suposição de normalidade (ou Gaussianidade) dos dados, a função de influência é linear; todos os valores entram da mesma forma no cálculo da estimativa. Com isso, quanto mais discrepante é a observação, maior a sua influência na inferência. Esse tipo de situação caracteriza distribuições que não são resistentes a outliers. No outro extremos estão as funções de influência que (podem até crescer no início mas) diminuem de valor à medida que a observação se torna mais extrema (isto é, se afasta de 0). Esse tipo de função de influência é chamada de redescendente e distribuições com esse tipo de comportamento são chamadas de resistentes a outliers. A figura abaixo mostra uma função de influência redescendente. Note que para observações próximas de 0, a influência é linear, como no modelo Gaussiano. À medida que os valores se tornam mais extremos, o peso que elas tem na inferência vai progressivamente sendo diminuido.  Apenas no limite, o peso se anula, como nas técnicas exploratórias.


www.isca.in/rjrs/archive/v2/i8/13.ISCA-RJRS-2013-139.pdf

Modelos com esse tipo de função de influência permitem que observações aberrantes sejam tratadas da mesma forma que o restante dos dados. O que diferencia as observações aberrantes é a influência que elas terão na inferência.

Nenhum comentário:

Postar um comentário