terça-feira, 26 de maio de 2015

Identificabilidade - final


As postagens anteriores descreveram o que existe de principal sobre esse conceito. Faltou apenas consolidar a idéia com um resumo sobre como lidar com a falta de identificação de um modelo. Também faltou deixar claro que pode não ser necessário tornar o modelo identificável. O modelo pode ter sido construído de tal forma que 2 de suas componentes possam ter problema de identificação mas podem existir motivos para mante-las não identificáveis: ou por uma questão de interpretação ou por que esse fato não é relevante.

Um exemplo do 2o caso é a mistura de distribuições. Imagine que se queira representar nossos dados por uma mistura de 2 distribuições normais. Se não for colocada nenhuma restrição adicional, não será possível identificar as 2 médias mu[1] e mu[2]. O procedimento de estimação ficará perdido entre uma e a outra dividindo o peso ou verossimilhança entre os 2 valores mais plausíveis. Uma forma usual de resolver esse impasse (e tornar o modelo identificável) é impor uma restrição do tipo mu[1] < mu[2]. Isso resolve a dúvida que qualquer procedimento de inferência baseado apenas nos dados teria e permitiria identificar quem é mu[1] e quem é mu[2]. Isso é útil se deseja-se interpretar as 2 médias.

A figura acima mostra exatamente isso com o gráfico da verossimilhança (na escala logarítmica) através de suas curvas de nível. Fica claro que existe uma simetria e a verossimilhança não sabe dizer se é mais plausível mu[1]=1 e mu[2]=3 ou mu[1]=3 e mu[2]=1. Ao impor a restrição mu[1] < mu[2], devemos olhar apenas para o que acontece acima da linha diagonal tracejada. Fazendo isso, a dúvida desaparece e a parte acima da diagonal da verossimilhança identifica claramente as estimativas de mu[1]=1 e mu[2]=3. 

Por outro lado, se o objetivo da inferência é apenas o de encontrar uma boa descrição da distribuição, não há problema em manter a dúvida. Como o resultado final é a soma ponderada das 2 distribuições, a distribuição acabaria sendo estimada de forma única mesmo sem que se tenha segurança sobre quem é mu[1] e quem é mu[2]. 

Outro ponto a ser mencionado é que priori (se você é Bayesiano) ou penalização (se você é frequentista) introduzem elementos que podem permitir a identificação do modelo. Tomando como exemplo uma priori concentrada em torno de 1 para mu1 e concentrada em torno de 3 para mu2. O resultado está na figura abaixo, novamente representado a verossimilhança.
Agora, a verosimilhança também resolveu sua dúvida e parece ter abandonado a opção de mu1=3 e mu2=1, concentrando-se mais claramente em torno 1 para mu1 e em torno de 3 para mu2. Obviamente a força dessa concentração depende do peso da priori (ou da penalização).

Assim, vimos de forma resumida nessas 3 postagens o que fazer para identificar, analisar e resolver problemas de identificabilidade.


Nenhum comentário:

Postar um comentário