terça-feira, 19 de maio de 2015

Identificabilidade - parte II


en.wikipedia.org

Conforme anunciado, vamos retomar a discussão sobre identificabilidade, iniciada na semana passada. Na postagem da semana passada, vimos as dificuldades causadas por um modelo não identificável. Vamos agora falar sobre as possíveis soluções que podem ser adotadas para evitar esse problema. A primeira solução é óbvia: remover a redundância que causou o problema. Isso foi ilustrado no exemplo da postagem anterior. Essa é a solução que deve ser adotada quando a falta de identificação foi causada inadvertidamente por quem propos o modelo. 

Entretanto, muitas vezes a falta de identificação é causada propositalmente pelo modelador. Imagine um modelo bastante comum onde as observações constituem uma amostra da distribuição normal onde a variância é a mesma mas as médias variam de observação para observação. Sem fazer muita conta, já dá para intuir que haverá problemas usando apenas o bom senso. Afinal, este modelo tem 1 parâmetro a mais que o número de observações. 

Efetivamente, fazendo as contas percebe-se que vários padrões de observação conduzem à mesma função de verossimilhança. Bastaria saber o valor de 1 das médias ou da variância comum para reduzir o número de parâmetros ao número de observações e assim tornar o modelo identificável. Mas é pouco provável que isso aconteça em uma situação prática. Assim, a solução canônica de redução da redundância não faz muito sentido no contexto desse modelo. 

O mais plausível em situações desse tipo é a introdução de alguma restrição adicional ao modelo. Um exemplo é o contexto de séries temporais onde imagina-se que haja proximidade nos valores consecutivos das médias x[t] das observações y[t] ao longo do tempo. Assim, espera-se que x[t] e x[t-1] sejam próximas. A figura acima ilustra essa idéia graficamente. Uma forma de impor essa restrição é através de um termo de penalização P( x ) dado por 

P( x ) = [ x[2] - x[1] ]2 + [ x[3] - x[2] ]2 + ... [ x[T] - x[T-1] ]2

e não permitir que P( x ) seja muito grande. Com isso, está se impedindo que em qualquer par de médias consecutivas haja afastamento de uma da outra ou, em outras palavras, penaliza-se afastamentos indesejáveis. Outro exemplo similar é o contexto de Estatística Espacial, onde espera-se que exista alguma proximidade nos valores observados em regiões próximas. Assim, poderia ser imposto às médias que elas não pudessem ter valores muito distantes caso correspondessem a observações feitas em locais próximos. 

Para que a penalização imposta ao modelo impacte o processo de estimação, ela deve ser agregada ao instrumento usado para definir o estimador. No caso de estimação por máxima verossimilhança, a penalização é agregada à função de verossimilhança. Essa agregação pode ser feita de várias formas mas a mais comum é através de um termo somado ou subtraído ao logaritmo da função de verossimilhança. Com isso, médias consecutivas distantes seriam penalizadas e se tornariam menos verossímeis. Idéias similares forma propostas no contexto de regressão: regressões ridge, que adquiriram certo destaque em meados do século passado, e regressões lasso, que são primas das regressões ridge e foram propostas mais recentemente, são os exemplos mais vistosos. Esse tópico merece destaque especial e será objeto de postagem futura.

Voltando às penalizações apresentadas acima, pode-se ver que ela atuam como se trouxessem informação adicional apesar de não serem observações. Efetivamente, a introdução dessas penalizações permite um procedimento de estimação seguro e, o que é mais importante, torna o modelo identificável. As médias das observações podem permanecer todas diferentes e isso não impede que elas sejam identificadas. 

Quem achou que já viu algo similar à solução via penalizações está correto. Já viu mesmo: é o teorema de Bayes, que combina a verossimilhança com a priori para gerar a posteriori. E a distribuição a posteriori é a base da inferência sob o ponto de vista Bayesiano. A penalização somada ao logaritmo da verossimilhança desempenha papel matematicamente idêntico ao do logaritmo da priori. 

Do ponto de vista histórico, fica fácil entender porque tantos estatísticos que trabalham com modelos com estrutura complexa se tornaram Bayesianos. Esses modelos requerem alguma componente adicional que pode ser uma penalização mas podem também ser uma distribuição a priori. A vantagem prática de ver essa componente adicional como priori e não como penalização é que ela possibilita o uso de toda a gama de facilidade que a inferência Bayesiana tem para gerar inferência mesmo nesses contextos complicados. 

Uma história que ilustra bem esse estado atual da Estatística ocorreu em um encontro de Estatística onde um dos maiores nomes da atualidade em Estatística Espacial estava presente ministrando um minicurso. Eu perguntei a ele ao final de uma aula se ele, que se notabilizou por avançar a Ciência sob a ótica frequentista, tinha se tornado Bayesiano. Ele me respondeu que tinha se tornado um Bayesiano pragmático. Embora esse episódio tenha ocorrido no início do século, a franqueza dele reflete bem o estado atual da Estatística.

Nenhum comentário:

Postar um comentário