Modelagem hierárquica

À medida que o estado de conhecimento e a capacidade computacional aumenta, fica mais diversificado o leque de opções disponíveis para a Estatística atuar. Uma das opções que tem mais se desenvolvido recentemente é a estratégia hierárquica de modelagem. Ela tem sido aplicada com sucesso às mais variadas áreas do conhecimento humano. A chave desse sucesso é a flexibilidade que essa estratégia possibilita, o que vem atraindo cada vez mais usuários.

A gama de modelos com os quais a Estatística vem trabalhando aumentou assustadoramente tanto em termos de dimensão quanto de complexidade. É comum se trabalhar com modelos com inúmeras componentes. Isso não deveria constituir nenhuma surpresa, dada a complexidade dos fenômenos que tem se procurado estudar. Como lidar com problemas tendo tantas facetas?

O bom senso sugere que uma estratégia factível é a de compartimentalizar o problema, isto é, identificar componentes menores e mais controláveis que quando combinadas recuperam a estrutura global. Parece simples mas essa idéia é a base do raciocínio hierárquico. Dentro dessa linha de pensamento, ´procura-se identificar as características comuns e as idiossincrasias. Uma vez feito isso, a etapa seguinte consiste em verificar de que forma(s) essas diferentes componentes podem ser agrupadas em uma estrutura comum.

Um exemplo de abundante utilização dessas idéias é a área de Educação. Imagine que queremos explicar o desempenho de um aluno em um dado Exame. É esperado que esse desempenho seja influenciado por uma série de características do aluno, como idade, sexo e nível socio-econômico mas também por fatores associados à escola que esse aluno estuda. Não é claro de que forma a escola influencia mas trata-se de uma influência multipla de amplo espectro. Na ausência de uma definição mais clara de como a escola impacta o desempenho do aluno, o mais razoável é supor apenas uma variabilidade genérica que reconheça que o efeito existe.

A técnica mais comum é assumir efeitos aleatórios associados à escola e a aleatoriedade cumpre pelo menos 2 papéis importantes: permitir uma ampla variabilidade e impor algum padrão. A forma mais comum é supor que as escolas estudadas pertencem a uma população mais ampla contendo todas as possíveis escolas, com efeitos distribuidos ao longo dessa população. Esses efeitos aleatórios são na prática determinados pelos próprios dados obtidos no estudo. Eles permitem identificar que escolas estão contribuindo de forma positiva e quais estão piorando o desempenho do aluno.

A figura acima fornece um outro exemplo, conhecido como modelo de equações estruturais (structural equation modeling). Essa área tem sido muito aplicada em Ciências Sociais. As componentes em quadrados (x e y) representam o que foi observado e as componentes em círculos (f e g) são latentes ou não observadas. No caso da figura, se quer explicar y que se sabe ser influenciado por x. Ao invés de partir diretamente para um modelo de regressão de x em y, procura-se reduzir x por um conjunto menor de variáveis f e faz-se o mesmo para y com relação a g, possivelmente pelas altas dimensões envolvidas. A relação entre x e y passa a ser indiretamente representada pela relação entre f e g.

Uma característica quase inevitável dessa estruturação da análise é a introdução de quantidades auxiliares, que não estavam originariamente presentes. No caso do exemplo acima, as quantidades introduzidas caracterizam de que forma f sumariza x e g sumariza y bem como a forma da relação entre f e g. Essas quantidades também precisam ser estimadas e a informação sobre elas virá também dos dados. Sob o ponto de vista Bayesiano, é necessário também incorporar nossa incerteza sobre essas quantidades. Essa questão será tratada em postagem posterior.

Outros exemplos de uso bem sucedido da modelagem hierárquica são os modelos espaciais e modelos de modelos de espaço de estados. Na primeira classe de modelos, supõe-se a existência de um padrão influenciado pela similaridade geográfica. Assim, alunos que moram perto, tenderiam a obter notas semelhantes em exames, caso possuam as mesmas características pessoais. Essa especificação leva a modelos hierárquicos onde o 2o nível da hierarquia trata de identificar e quantificar a forma dessa similaridades.

Na 2a classe de modelos, supõe-se a existência de um padrão influenciado pela similaridade temporal. Esse reconhecimento não permite identificar o tipo de padrão dessa influência. Nesse caso, a especificação de uma estrutura que apenas informe a existência de um padrão de dependência temporal parece adequado. Novamente, faz-se necessário que quantidades auxiliares sejam introduzidas de forma a permitir a quantificação desse padrão de dependência.

StatPop - Popularização da Estatística

terça-feira, 9 de dezembro de 2014

Modelagem hierárquica

Nenhum comentário:

Postar um comentário