terça-feira, 9 de junho de 2015

Regressão com restrição - parte II

www.crcpress.com/product/isbn/9781439878804

Na postagem anterior sobre o assunto, foi apresentada uma 1a opção para restrição introduzida em problemas de regressão, que foi a penalização ridge. A penalização ridge foi precursora do que estava por vir mas a forma como a penalização atuava era muito acentuada, penalizando com o quadrado do valor das estimativas. Uma alternativa seria penalizar afastamentos de 0 de forma menos acentuada, com o módulo do valor das estimativas ao invés do quadrado do módulo. Isso pode ser expresso matematicamente com a penalização

P( beta ) = | beta[1] | + | beta[2] | + ... + beta[p] 

onde beta[1], beta[2], ... , beta[p] são os coeficientes da regressão associados às p variáveis explicativas.

Esse tipo de penalização foi popularizado no início do século com o nome de penalização lasso. Embora a penalização lasso seja qualitativamente similar à ridge, ela introduz mudanças quantitativas importantes e particularmente relevantes para alguns contextos.

A figura acima já tinha sido apresentada na postagem anterior sobre o mesmo tema. Podemos agora voltar a ela e completar a explicação dos elementos que lá estão. A penalização lasso é representada pelo losango azul escuro e o novo estimador agora obtido, o estimador lasso, é dado pelo ponto verde. Esquematicamente ele é obtido quando a curva de nível da soma dos quadrados (representada por elipses) intercepta a curva de nível da penalização (representada para o lasso pelo losango). Note que esse estimador tem a peculiaridade de estar sobre um dos eixos, o que significa que uma das suas componentes é 0. Isso é, esse estimador tem maior propensão de retornar valores zerados para componentes que os outros (ridge e mínimos quadrados).

Esse fato é particularmente relevante para contexto de grandes massas de dados onde existe um número p potencialmente grande de variáveis explicativas e esse número é às vezes muito maior que o número n de observações. Isso tem acontecido muito em experimentos com mapeamento genético onde a obtenção de dados é extremamente custosa mas a quantidade de informação que pode ser obtida com cada indivíduo é extremamente abrangente. Esses contextos ficaram conhecidos na literatura estatística como sendo small n, large p. Sabemos que não é possível obter estimadores de mínimos quadrados nessas condições. Estimadores ridge ainda podem ser obtidos mas tipicamente terão baixa precisão. Estimadores lasso não sofrem desse mal; como muitas componentes serão zeradas, a precisão dos coeficientes remanescentes acaba ficando em níveis aceitáveis.

Em termos matemáticos, a mudança da penalização ridge para a lasso foi a diminuição do expoente aplicado a cada coeficiente de regressão de 2 para 1. Pesquisadores começaram recentemente a se perguntar o que aconteceria se o exponente fosse reduzido ainda mais para um valor menor que 1. Esse estudo deu origem aos estimadores baseados em penalização horse-shoe, ou ferradura. A figura abaixo fornece uma comparação com ridge e lasso. A penalização (ou priori) horseshoe favorece ainda mais a presença de 0's pois tenderá a encontrar as elipses geradas pelos mínimos quadrados em cima dos eixos com mais frequencia que ridge e lasso, propiciando maior esparcidade (presença de 0's) dos coeficientes.


http://faculty.chicagobooth.edu/nicholas.polson/research/papers/Horse.pdf

Ainda é cedo para decretar um veredito mas parece que esses estimadores são ainda mais parcimoniosos na escolha dos coeficientes que serão não nulos. Isso caminha na direção desejada em problemas do tipo small n, large p. Assim, uma área que permaneceu com pouca atividade por muitas décadas sem parecer ter muita relevância parece ter ressurgido com bastante força para fornecer ferramentas necessárias aos desafios associados a regressão em contextos de grandes massas de dados.

Já falamos de situação semelhantes antes aqui no blog; a história do MCMC foi um ótimo exemplo. Isso está longe de ser exceção. Não é raro ver artigos que ficaram empoeirados por décadas ou séculos de abandono serem ressuscitados e assumirem papel protagonista em alguma descoberta científica; esses são os caminhos tortuosos da Ciência.

Nenhum comentário:

Postar um comentário