terça-feira, 30 de abril de 2013

Estatística não-paramétrica

fonte: Paez & Gamerman (Environmetrics, 2003)

Boa parte dos trabalhos em Estatística é baseada em alguma hipótese sobre a natureza dos dados. Em geral assume-se que os dados provêm de alguma distribuição conhecida. A situação mais usual é a hipótese de normalidade ou Gaussianidade, usada em uma série quase infinita de aplicações reais. Nesses casos, a distribuição é conhecida a menos de alguns parâmetros que a caracterizam. No caso da distribuição normal ou Gaussiana, esses parâmetros são a média e a variância. Situações desse tipo, onde a distribuição dos dados tem forma conhecida a menos de alguns parâmetros são chamadas de situações paramétricas.

Fica claro então que situações onde não se assume nenhuma hipótese sobre a forma dos dados são chamadas de situações não-paramétricas. Isso acontece quando não se tem certeza sobre qual a forma mais apropriada para os dados. Mas a abordagem não-paramétrica vai além da simples especificação de distribuições, cobrindo também especificação de relação entre variáveis, como em modelos de regressão.

[A dicotomização entre as 2 categorias é mais uma questão didática e está longe de ser bem definida. Um bom exemplo que ilustra essa dificuldade é dado pelos processos Gaussianos, muito utilizados em análises espaciais. Esses processos procuram descrever a variação do nível ao longo do espaço, impondo apenas que locais mais próximos sejam mais parecidos. Como a forma de variação espacial é livre, sem nenhuma especificação paramétrica, esses processos podem ser entendidos como não-paramétricos. A figura acima, de uma análise da poluição no Rio de Janeiro feita com processos Gaussianos pelo nosso grupo, ilustra isso. Por outro lado, esses processos pressupõem uma estrutura Gaussiana para todos os locais, podendo caracterizar também uma especificação paramétrica.]

Estatística não-paramétrica é uma área importante da Estatística, que cresceu muito nas últimos décadas. Existem vários motivos para isso, muitos já comentados anteriormente aqui no blog:
  • estruturas mais gerais e com maior quantidade de dados permitiram contemplar casos mais gerais, além dos modelos paramétricos conhecidos;
  • o aumento da capacidade computacional permitiu contemplar situações mais custosas computacionalmente, que antes eram inviáveis.
O que as abordagens paramétricas fazem no fundo é uma especificação ainda paramétrica, mas muito mais geral e com boas propriedades. A mais importante delas garante que quase tudo poderia caber dentro dessa especificação e o que não cabe é muito bem aproximado por ela. Vários tipos de funções são usadas dentro dessa abordagem, muitas delas conhecidas como splines, termo derivado da mecânica onde se usa essa denominação para caracterizar ferramentas que auxiliam na formação de peças metálicas. E é isso que os splines fazem na matemática. Em geral, são funções polinomiais que variam ao longo de pedaços para poder captar melhor o que acontece naquele pedaço. Como qualquer processo de inferência estatística, essas técnicas podem ser aplicadas sob os pontos de vista frequentista e Bayesiano. 

No ponto de vista Bayesiano, surgiram recentemente formulações bem mais gerais baseadas em processos estocásticos.  Ou seja, são especificadas distribuições a priori para toda a distribuição e não apenas para parâmetros dela. Essas se adaptam naturalmente a qualquer situação na qual são aplicadas sem depender da difícil especificação dos tamanhos nem das quantidades de pedaços da análise. Essas técnicas têm sido aplicadas com excelentes resultados a problemas bastante gerais como reconhecimento de padrões e machine learning. Com isso, atraíram não só a atenção de estatísticos mas também de técnicos de áreas afins como computação e engenharia.   

Uma alternativa aos métodos não-paramétricos que teve uma certa relevância no passado foi a de buscar distribuições ainda paramétricas mas que generalizassem as formas paramétricas usuais. Essa extensão levou a algumas especificações importantes, notadamente as distribuições t-Student e algumas versões assimétricas de distribuições usuais. Hoje em dia ainda existe um grupo de pesquisadores devotados a esse tipo de atividade, inclusive no Brasil.

Faltou dizer também que há uma inevitável perda de precisão ao usar técnicas não-paramétricas. Mas surpreendentemente essa perda se mostra bastante diminuta em muitos e muitos casos. Assim, perante a riqueza de possibilidades contempladas pela abordagem não-paramétrica, parece que esse conjunto de técnicas vai inevitavelmente engolir as extensões paramétricas que ainda são procuradas. Na realidade, acredito que as técnicas não-paramétricas de hoje em dia tendem a crescer ainda muito mais e se tornarão em breve lugar comum em muitas análises estatísticas do futuro.
  

2 comentários:

  1. Dani, tudo bem? Dúvidas nesses trechos: 1) "O que as abordagens paramétricas fazem no fundo é uma especificação ainda paramétrica, mas muito mais geral e com boas propriedades." 2)"A mais importante delas garante que quase tudo poderia caber dentro dessa especificação e o que não cabe é muito bem aproximado por ela."
    No 1) faltou um "não-" em "paramétricas"? No 2)você poderia dizer qual é a mais importante das abordagens não-paramétricas? Valeu! Abração!!!

    ResponderExcluir
  2. Oi Edson, 1) voce tem razão; 2) é difícil explicitar a importância de cada técnica mas acho que podemos destacar os splines (em suas diferentes modalidades) como os mais usados, pela sua disponibilização em software estatísticos tipo R.

    ResponderExcluir