StatPop - Popularização da Estatística: Identificabilidade

booleanblackbelt.com

Não existe unanimidade absoluta sobre o conceito de identificabilidade mas creio que seja um consenso da Estatística o reconhecimento da sua importância. Em linhas gerais, diz-se que um modelo paramétrico é identificável se quaisquer 2 valores do parâmetro sempre levam a modelos diferentes e, consequentemente, a inferências distintas. Quando isso não acontece, fica evidenciado que existe algum problema no modelo adotado.

Para entender melhor o conceito, suponha que temos dados sendo classificados em 3 categorias, aqui representadas pelas cores preto (P), branco (B) e cinza (C). Várias situações práticas dão origem a esse tipo de classificação tricotômica. Exemplos incluem resultados de partidas de futebol (vitória, empate ou derrota), de pesquisas de opinião (a favor, contra ou indiferente), ... Como só existem 3 opções, as probabilidades de cada categoria podem ser chamadas de p[1], p[2] e p[3] e essas probabilidades tem que somar 1. Suponha que na hora de registrar os resultados, anotou-se apenas os resultados favoráveis (que podem ser as vitórias no caso do futebol, as opiniões favoráveis em pesquisa de opinião, ... Nesse caso, só é possível identificar p[2]+p[3] a partir dos dados. Qualquer tentativa de tentar inferir os valores de p[2] e de p[3] separadamente olhando apenas para os dados será mal sucedida.

O que aconteceu no exemplo é que não há informação disponível para p[2] e para p[3], mas apenas para sua soma, muito embora p[2] e p[3] sejam quantidades genuínas de interesse. O problema foi apresentado como tricotômico mas ele é de fato dicotômico. A única quantidade identificável é p[1]. As outras categorias constituem o resto e só conseguimos identificar o complemento de p[1], isto é, 1- p[1], que coincide com p[2] + p[3], por conta da restrição de soma total igual a 1. Alguns autores nomeiam a situação acima como parcialmente identificável pois parte dos parâmetros, neste caso p[1], pode ser identificada.

O exemplo acima dá algumas pistas que nos ajudam a entender o problema e indicam possíveis soluções. Fica claro que falta de identificação está associada a uma especificação inadequada do problema. A solução seria simples, bastando avaliar criticamente o modelo proposto e corrigindo possiveis imperfeições detectadas. No exemplo acima, isso foi muito simples pois o modelo é simples. Os modelos que tem sido usados recentemente costumam ter vários tipos de componentes e algumas delas possuem estrutura complexa e muitos parâmetros. Fica dificil garantir a indetificabilidade de todas as componentes.

Quando o modelo não é identificável, a imposição de restrições adicionais ao modelo costuma resolver o problema. Existem várias possibilidades de como fazer isso, com diferenças qualitativas importantes entre elas. Essa discussão é mais longa e ficará para as próximas postagens sobre o assunto.

StatPop - Popularização da Estatística

terça-feira, 12 de maio de 2015

Identificabilidade - parte I

Nenhum comentário:

Postar um comentário