terça-feira, 17 de setembro de 2013

Priori não-informativa


A inferência Bayesiana difere da frequentista pela explícita incorporação na análise da informação prévia que se dispõe sobre as quantidades desconhecidas do problema sendo estudado. Isso é feito através de uma distribuição de probabilidade. A questão que se coloca aqui é: como transformar esse conhecimento em uma distribuição? Essa tarefa não é fácil e já foi genericamente tratada anteriormente.

Uma questão correlata e igualmente importante é: como representar ausência de informação? Essa pergunta procura responder a 2 questionamentos comumente endereçados aos Bayesianos. O primeiro é sobre a busca de uma resposta que não fosse contaminada pelos vícios julgados inerentes ao uso informação prévia (tendenciosidade, equívocos, etc). Com isso, teria-se uma forma mais justa de comparação com a metodologia frequentista. O segundo diz respeito a que se deve fazer quando não se sabe nada sobre alguma quantidade desconhecida. 

Esses questionamentos despertaram o interesse no que poderia ser chamado de distribuições a priori não-informativas. Outro nome comumente usado é priori de referência. Poder-se-ia supor que a especificação adequada nessas situações seria uma priori uniforme, de forma que todos os possíveis valores tivessem o mesmo peso. Essa foi a priori usada por Bayes, em seu artigo original. Essa priori não é apropriada, como já dissemos aqui antes. Segundo muitos, Bayes a utilizou a contragosto pois já desconfiava (ou sabia) de seus problemas. 

Um problema da priori uniforme é que ela é muitas vezes imprópria, isto é, não obedece as regas básicas da probabilidade. Isso acontece nos casos onde o conjunto de valores possíveis é ilimitado pois a priori uniforme só é própria se ambos os limites de variação forem finitos. Mas esse problema poderia ser relevado se ela levasse a distribuições a posteriori próprias. Note que isso envolveria uma certa vista grossa do analista ou, de outra forma, uma postura do tipo o fim (posteriori própria) justificaria o meio (eventual uso de priori imprópria).

Mas o maior problema, para o qual ela não tem defesa é a sua inflexibilidade. Se uma priori é especificada para uma determinada quantidade, as leis da probabilidade impõe a distribuição que transformações dessa quantidade terão. A exemplificação desse problema é um pouco técnica e, portanto pode ser suprimida numa 1a leitura.

[Imagine que p é uma proporção desconhecida e deseja-se especificar uma distribuição uniforme para ela. Note que essa é uma priori própria pois proporções tem limites finitos [0,1]. Suponha que agora queremos tratar de p10. Se não sabemos nada sobre p, tampouco saberemos sobre p10. Portanto, p10 também deveria ter priori uniforme. Entretanto, as regras da probabilidade nos informam que a uniformidade de p impõe que p10  deverá ficar concentrado em valores baixos. Por exemplo, p10 será menor que 0,35 com 90% de probabilidade.]

A solução para esse dilema é baseada no respeito à essa regra de transformação e na busca da escala mais apropriada para propor a uniformidade. Note que essa escala será única, isto é, se p for uniforme a priori, ném p10  ném qualquer outra função de p será e vice-versa. A regra mais utilizada e aceita é a priori não-informativa de Jeffreys. Ela foi proposta por Sir Harold Jeffreys, estatístico e astrônomo do início do século passado, e se baseia em levar em conta o experimento que está sendo realizado. Assim, ela é uma priori não-informativa relativamente ao experimento. Essa regra tem sua lógica mas não está livre de questionamentos. Um deles é que ela gera distribuições estranhas, como a da figura, que se concentra em torno dos valores extremos 0 e 1. Mas o mais sério questionamento é quanto ao fato da priori levar em conta os dados que serão observados, o que contraria a própria definição do que seja uma priori.

Várias variantes foram propostas, nenhuma delas com ampla aceitação. Mas o uso de modelos cada dia mais complexos e portanto contendo mais quantidades desconhecidas tem aumentado a importância desse tipo de priori. Afinal, quanto mais quantidades desconhecidas, menos sabemos a respeito de cada uma delas. E na prática, elas acabam por ser usadas apesar dos vários problemas que elas enfrentam.

Outro problema das prioris não informativas é que por ser muitas vezes baseada em prioris impróprias, elas algumas vezes levam a posterioris impróprias. Esse problema é amplificado pois a inferência Bayesiana na maioria dos casos é baseada em aproximações, pois é muito difícil obter a distribuição a posteriori de forma exata. A verificação da propriedade de uma distribuição está longe de ser uma tarefa trivial nesses contextos e muitos usuário de Estatística nem se dão conta disso. Assim, algumas vezes as análises podem apresentar resultados totalmente descabidos.

É difícil antecipar que futuro as prioris não informativas terão. Mas acho que sua erradicação completa será muito difícil e elas são um mal com o qual teremos de conviver por questões práticas. O melhor a fazer é compreendê-las melhor. Felizmente, tem muita gente trabalhando nisso. 

7 comentários:

  1. Muito bom! obrigado!

    So uma pergunta mas: em otimização as pessoas muitas veces utilizam términos de regularização para nao ter problemas numericos (so isso é a e"scusa")...isso é uma a-priori na verdade... do punto de vista Bayesiano tem alguma explicação da vantagem numérica?

    ResponderExcluir
  2. Luca, muitas técnicas frequentistas se baseiam em incorporar acréscimos à verossimilhança sob as mais diversas justificativas: correção de vício, regularização (ou penalização), etc... Como a priori já é um acréscimo à verossimilhança, essas técnicas podem ser vistas sob o prisma Bayesiano
    onde esse acréscimo seria a priori. Já se mostrou que existe conexão de algumas desses acréscimos (associados a correção de vicio) com prioris de referência.

    ResponderExcluir
  3. Obrigado! mas tenho outra pergunta:
    Esse acréscimo nao pode sempre ser visto como uma a priori? tem algum exemplo a donde isso nao é certo? obrigado outra vez,
    Luca

    ResponderExcluir
    Respostas
    1. Luca, esses acéscimos sempre podem ser vistos como alguma priori, pois basta normaliza-los para transfomá-los em uma densidade. Mesmo que a normalização não seja possível (por divergência da sua integral), ela pode ser associada a alguma priori imprópria. Mas nem sempre ela pode ser associada a uma priori de referência.

      Excluir
  4. Seus textos são ótimos, eu gosto muito de eles!!
    Jhonatan desde Colombia.

    ResponderExcluir
  5. Na verdade procurava IC Jeffrey. Porém li e gostei! Vlw

    ResponderExcluir