terça-feira, 15 de janeiro de 2013

A visão subjetiva da Estatística

M.C. Escher (Bond of Union, 1956)


De uma forma bastante geral, a Estatística é a ciência que trata de obter informação sobre quantidades desconhecidas. O ponto de vista subjetivo ou Bayesiano pressupõe que qualquer quantidade desconhecida deve ter nossa incerteza sobre ela descrita através de probabilidade. Assim, ele sempre se baseia no cálculo da probabilidade do que não sabemos baseado naquilo que sabemos. 

Isso oferece uma série de vantagens na prática. Para começar, esse ponto de vista é a representação matemática do que as pessoas fazem ou gostariam de fazer.  Como exemplo, suponha que temos que tomar uma decisão sobre onde investir nosso dinheiro. Para decidirmos isso, é fundamental sabermos as chances de cada possível ativo se valorizar. Isso só pode ser feito adequadamente se levarmos em conta tudo que sabemos sobre esse ativo e sobre o mercado financeiro.  

O teorema de Bayes é a ferramenta da probabilidade que nos permite atualizar as probabilidades sobre aquilo que é incerto à luz de novas informações recebidas. O teorema é um conhecindo resultado de probabilidade e recebeu esse nome pois foi o Reverendo Thomas Bayes que mostrou sua importância. Resumidamente, o teorema nos ensina como combinar informação proveniente do que observamos (verossimilhança) com o que já sabíamos (priori). Isso foi ilustrado no contexto do problema médico na apresentação sobre como tomar decisões (ver postagem de 11/12/2012). De uma forma mais filosófica, podemos dizer que o teorema de Bayes também é a representacao  matemática da dialética onde a síntese (posteriori) é resultante da contraposição de tese e antítese (verossimilhança e priori, ou vice versa).

A especificação da verossimilhança é geralmente um ponto de concordância entre Bayesianos e não-Bayesianos.  Já vimos que o mesmo não pode ser dito a respeito da especificação da priori. Os não-Bayesianos se opõe a incluir essa componente numa análise estatística. Uma alternativa que visa contemplar os 2 pontos de vistas antagônicos é fazer a análise de forma Bayesiana sem incorporar informação a priori. Nesse caso, pode se imaginar que os dois pontos de vistas poderiam convergir. E isso efetivamente acontece na maioria dos casos.

Assim, um tópico de particular relevância é como representar ausência de informação a priori.  Bayes nunca publicou seu trabalho; ele só foi publicado pelo seu amigo Richard Price (o mesmo da tabela Price de juros) 2 anos após sua morte. Reza a lenda que Bayes considerava seu trabalho incompleto pela dúvida sobre como especificar ausência de informação a priori. Na falta de proposta melhor, Bayes usou uma distribuição uniforme sobre todos os valores possíveis. Hoje está claro que essa solução não é apropriada; a uniformidade não se preserva após transformações da quantidade desconhecida. Esse problema só veio a ser adequadamente tratado quase 2 séculos depois mas ainda é objeto de polêmica; uma resposta definitiva ainda esta para ser encontrada. Isso só evidencia quão difícil o problema é. De qualquer forma, o fundamento de trabalho de Bayes estava correto.

O uso do teorema de Bayes como atualizador de probabilidades é básico mas poderoso. Podemos usa-lo repetida e indefinidamente, sempre que novas informações se tornarem disponíveis. Essa idéia foi usada no cálculo das probabilidades de paternidade em testes DNA (ver postagem de 08/01/2013). A posteriori de ontem é a priori de hoje. Essa regra simples nos ensina que o teorema é tudo que precisamos para processar a aquisição de conhecimentos.

Nesse ponto, alguns Bayesianos se empolgam e chegam a dizer que Bayesiano é aquele que sabe atualizar suas informações. Essa equivocada prepotência ignora todo o avanço da humanidade, conseguido com inúmeras contribuições feitas por não-Bayesianos. A grande maioria das pessoas atualiza suas probabilidades à medida que aprende novos fatos. Só que muitos não o fazem usando o teorema de Bayes. A teoria mostra que o mais correto nesses casos é usar teorema de Bayes.

É preciso usar probabilidade para representar incertezas ou mesmo para atualizar a representação da incerteza? Poderia se argumentar que não. Várias tentativas foram feitas mas nenhuma delas teve vida longa. Na realidade, isso não chega ser surpreendente. Alguns autores se debruçaram sobre esse tema e conseguiram mostrar que a única forma razoável de fazer isso é usando probabilidades e suas propriedades. 

O ponto de vista subjetivo contrasta com pontos de vista não-Bayesianos. Nestes últimos, uma quantidade fixa não pode ter probabilidades a ela atribuídas. Note que na abordagem Bayesiana, quantidades fixas mas desconhecidas seguem fixas. A probabilidade a ela atribuída é a descrição da incerteza da pessoa que realiza a análise estatística e não intrínseca à quantidade de interesse. Outra pessoa pode ter outra distribuição de probabilidade e outra pode saber o valor dela e prescindir do uso de probabilidade. Essa é a essência do  ponto de vista subjetivo.

Um comentário: