terça-feira, 2 de junho de 2015

Regressão com restrição - parte I

www.crcpress.com/product/isbn/9781439878804

Nas postagens sobre identificabilidade, foi destacada a importância do uso de penalizações para solucionar problemas de identificação que muitos modelos possuem. Essas idéias de impor restrições para estabilizar de alguma forma o modelo tem ramificações pelas mais variadas áreas da Estatística. Uma das mais básicas áreas da Estatística é a de modelos de regressão. Dela surgem modelos hierárquicos, modelos espaciais, modelos para séries temporais e vários outros onde procura-se explicar o comportamento de alguma quantidade de interesse em função de outras quantidades a ela associadas (exemplo: peso x altura).

Uma das primeiras tentativas de estabilizar a estimação de coeficientes de regressão foi introduzida em meados do século passado e foi denominada ridge regression ou regressão em crista, como alguns gostam de traduzir. A idéia aqui é introduzir uma componente extra à soma dos quadrados de forma a garantir solução única ao problema. Existem vários motivos que podem levar a essa necessidade. O mais óbvio é a presença de multicolinearidade. Esse fenômeno ocorre quando de forma proposital ou inadvertida são introduzidas no modelo variáveis explicativas que estão intimamente correlacionadas. Isso faz com que existam problemas numéricos na obtenção dos estimadores de mínimos quadrados. A introdução do termo extra, que funciona como uma penalização, resolve isso. O termo extra introduzido pela regressão ridge é na forma

P( beta ) = [ beta[1] ]2 + [ beta[2] ]2 + ... + [ beta[p] ]2

onde beta[1], beta[2], ... , beta[p] são os coeficientes da regressão associados às p variáveis explicativas. Existem várias extensões do método ridge mas a expressão acima nos é suficiente aqui. Esse termo de penalização é acrescentado à soma dos erros quadrados, usada para obtenção dos estimadores de beta. Isso equivale à introdução de uma distribuição a priori para esses coeficientes. Essa penalização aumenta à medida que os coeficientes se afastam de 0. O efeito prático dessa penalização é favorecer estimadores mais próximos de 0. Assim, se destacariam como significativas apenas aquelas variáveis que efetivamente contribuem para a explicação da variação observada na resposta.

A figura acima foi retirada da capa de meu livro, que acaba de ser publicado no ano passado. Ela ilustra o parágrafo anterior, para o contexto bivariado (p=2). As elipses representam valores da soma dos quadrados e o ponto em vermelho é o estimador de mínimos quadrados. A bola em azul claro representa a penalização oriunda do ridge. O ponto em amarelo é o estimador ridge, chamado na figura de beta[r], obtido da introdução da penalização, claramente trazendo a estimativa para mais perto de 0. 

Essa mesma idéia foi usada nos anos 80 em modelos econométricos para controlar a presença de defasagens em demasia em modelos autoregressivos. Modelos autoregressivos explicam o comportamento de uma quantidade em função de defasagens temporais dessa mesma variável. À medida que a defasagem se afasta no tempo torna-se cada vez menos plausível que ela possa estar efetivamente relacionada à resposta e qualquer efeito ali encontrado é provavelmente decorrente de correlação espúria

O econometrista Robert Litterman em sua tese de doutorado defendida em 1980 na Universidade de Minnesota propos que modelos autoregressivos fossem estimados sob o prisma Bayesiano com uma distribuição a priori que desenfatizasse a presença de termos com defasagens muito altas. Essa distribuição a priori não foi muito notada nos meios estatísticos mas ficou bastante conhecida no mundo da Econometria e foi chamada de priori de Litterman ou priori de Minnesota. Em termos matemáticos, essa priori é equivalente à penalização 

P( beta ) = [ beta[1] ]2 + 2 [ beta[2] ]2  + ... + p [ beta[p] ]2  

onde beta[1], beta[2], ... , beta[p] são os coeficientes da autoregressão respectivamente associados às defasagens de ordem 1, 2, ... , p. Note da expressão acima que à medida que a defasagem cresce, maior é o peso dado à sua penalização. Isso significa que o coeficiente é cada vez mais fortemente forçado a se aproximar de 0. 


A bem da verdade, os métodos ridge para regressão também não encontraram muito eco dentro da Estatística e não foram muito utilizados. Entretanto, a motivação trazida por eles foi a base para várias propostas muito similares na sua essência e que tem encontrado um forte eco na Estatística do século XXI. Que propostas foram essas e explicações para a importância que elas receberam serão objeto da próxima postagem sobre o tema.

Nenhum comentário:

Postar um comentário