terça-feira, 5 de maio de 2015

Subjetivismo não é exclusividade Bayesiana

www.statsjobs.com

Logo no início da vida do StatPop procurei em várias postagens caracterizar os pontos de vista predominantes na Estatística: frequentista e Bayesiano. Em uma dessas postagens, chamei a atenção para a questão da presença de componentes subjetivas em toda a atividade estatística. Na realidade, o mesmo vale para qualquer área da Ciência embora não tenha dito isso lá de forma explícita.

Não me detive mais sobre esse ponto pois achei que ele já estava suficientemente claro na mente de todos. Ledo engano! Acho que superestemei a capacidade de elaboração de conceitos que não são muito complicados mas que dependem de uma visão mais amadurecida e abrangente do processo. Ao perceber que até professores de Estatística tem dificuldades com esses conceitos achei que valia a pena retornar a esse tema para tentar deixar mais claro para todos. 

Uma série de equívocos ajuda a perpetuar o estado de confusão. A principal delas é a idéia que Bayesiano é aquele que usa distribuição a priori para os parâmetros de seu modelo. Isso é falso pois uma série de modelos considerados frequenstistas pelos próprios frequentistas contem quantidades desconhecidas e não-observáveis com distribuições de probabilidade. Exemplos incluem os modelos com efeitos aleatórios, modelos de fragilidade, modelos espaciais, modelos de espaço de estado e modelos hierárquicos. Os frequentistas não entendem esses modelos como Bayesianos. Os frequentistas não se referem a essas quantidades desconhecidas como parâmetros mas elas funcionam exatamente como se fossem parâmetros, isto é, são desconhecidas, não são observáveis e são descritas através de uma distribuição de probabilidade.

Outra idéia equivocada é que ao especificar um modelo para os dados e não incluir nenhuma distribuição para os parâmetros fixos está se procedendo uma análise frequentista e portanto livre de subjetividade. Novamente isso é falso. Quando se opta por construir uma regressão para explicar peso em função apenas de sexo e idade está se fazendo uma escolha subjetiva. Aliás, essa é a escolha mais radical que se pode fazer sob o prisma subjetivo pois assume que temos certeza em uma situação que é claramente incerta! Quem garante que idade é relevante? Quem garante que outras variáveis, como nível educacional, não são? É a Lei de Cromwell, cuja aplicação já condenamos aqui no StatPop. E não adianta querer incluir nível educacional ou qualquer outra variável que se julgue relevante pois o mesmo problema persistirá. Ele é resultado de uma escolha do pesquisador e é isso que caracteriza a subjetividade.

Outras escolhas subjetivas comumente feitas em análises frequentistas são as distribuições assumidas para os dados observáveis. Opções por normalidade, Poissonidade, exponencialidade se incluem nessa relação. Mesmo formas mais gerais como distribuição t-Student ou generalizações não escapam dessa pecha. Análises preliminares podem dar mais substância e credibilidade a ela escolha mas não eliminam a possibilidade, ainda que remota, da escolha ter sido inadequada. Abordagens não-paramétricas minimizam substancialmente essa dificuldade mas tem um grau considerável de dificuldade no seu uso e também não eliminam a possibilidade de inadequação; elas também envolvem escolhas, ainda que menos influentes.

A escolha de um modelo pode até ser apoiada por estatísticas baseadas na amostra observada. Isso poderá dar até sustentação empírica mas nunca será provado que isso é verdade. Escolhas desse tipo são realizadas corriqueiramente por estatísticos ao redor do mundo, sem muitas vezes se dar conta que no fundo escolhas essencialmente subjetivas estão sendo feitas. O mais correto me parece que seja reconhecer o carater subjetivo dessas escolhas e, consequentemente, não assumi-las como se fossem certas.

O mundo começou a ser despertado para essa realidade a partir dos anos 80 e a frase emblemática dessa percepção pode ser atribuída a George Box: "todo modelo é errado mas alguns podem ser úteis." Essa frase ajudou gerações de estatísticos a entender ou ao menos aceitar que não existe uma verdade a ser buscada nos dados. Dependendo da estratégia adotada, várias "verdades" podem emergir.

O que distingue os procedimentos Bayesianos dos frequentistas é a forma de resolver problemas de inferência. Os primeiros aceitam (resignada ou confortavelmente) descrever sua incerteza a respeito das quantidades desconhecidas através de distribuições de probabilidade. Os últimos se recusam a fazê-lo usando sempre que possível distribuições amostrais (dos dados) para acessar a incerteza associada ao procedimento de inferência. Os princípios que norteiam essa abordagem são nobres. Mas a inversão de conceitos que essa idéia requer acaba trazendo inúmeros problemas tanto de ordem teórica (que foram objetos de postagens recentes) quanto de ordem metodológica (levando a dificuldades na sua implementação). 

Nenhum comentário:

Postar um comentário