Uma questão relevante na Ciência é a reproducibilidade de resultados. Relacionado a esse ponto está a determinação de quando se torna legítimo declarar significância de um estudo. Esse ponto foi objeto de recente pesquisa em Estatística e recebeu destaque recente no prestigioso periódico Nature. Essa pesquisa procurou relacionar p-valores de testes frequentistas com resultados obtidos com testes Bayesianos.
Testes Bayesianos podem ser construídos de diferentes formas e isso será tema de postagem futura. Mas a forma canônica é através de fatores de Bayes. Fator de Bayes é a razão de verossimilhanças preditivas, que afeta diretamente a probabilidade a posteriori das hipóteses. A evidência trazida por fatores de Bayes costuma ser classificada na escala logarítmica, seguindo o padrão estabelecido por Sir Harold Jeffreys: valores entre 3 e 10 fornecem evidência substancial, valores entre 10 e 30 fornecem evidência forte, valores entre 30 e 100 fornecem evidência muito forte e valores acima de 100 fornecem evidência decisiva.
Para se ter uma idéia mais palpável do que esses números significam, suponha que a priori estamos indiferentes entre 2 hipóteses. Isso poderia ser expresso por probabilidades iguais a 50% para elas. Uma evidência substancial dos dados com fator de Bayes igual a 9, por exemplo, levaria a uma revisão das probabilidades (que antes de coletar os dados eram iguais) para 90% e 10%. Fatores de Bayes em torno de 99 (evidência muito forte) levam a probabilidades a posteriori de 99% e 1%.
A pesquisa destacada pela Nature centra na construção de testes Bayesianos que de alguma forma sejam equivalentes a testes frequentistas. Como se sabe, um padrão adotado em testes frequentistas é declarar significância em situações que levam a p-valores iguais ou inferiores a 0,05. Essa mesma evidência quando vista sob o prisma Bayesiano é considerada insuficiente para declarar sua aceitação, fornecendo algumas vezes evidência no máximo substancial. Assim, resultados longe de serem decisivos são usados como tal apesar da evidência trazida por eles não permitir isso.
Em casos como esses, deveria se declarar significância apenas após obter evidência muito forte ou decisiva no teste Bayesiano equivalente. Mas para que isso aconteça, o p-valor que garante significância deveria ser substancialmente reduzido dos usuais 0,05 ou 0,01 para valores muito menores, como 0,005 ou 0,001.
Isso provocaria muita mudança no que foi feito nas últimas décadas nas diferentes áreas da Ciência. Um sem número de medicamentos que foram liberados para uso e vem sendo comercializados no mundo todo deveriam ser recolhidos por ausência de evidência decisiva que justifique o seu uso! Resta-nos ver como esse achado vai ser incorporado não só às práticas científicas daqui para a frente mas também às práticas adotadas no passado e que determinam padrões que afetam a humanidade até hoje.
A pesquisa sobre a equivalência entre testes Bayesianos e frequentistas pode ser vista:
- de forma matematicamente rigorosa - Johnson, V. E. (2013). Uniformly most powerful Bayesian tests. Annals of Statistics, 41, 1716-1741.
- de forma mais palatável para o público em geral - Johnson, V. E. (2013). Revised standards for statistical evidence. Procedings of the National Academy of Science (versão online).
"Um sem número de medicamentos que foram liberados para uso e vem sendo comercializados no mundo todo deveriam ser recolhidos por ausência de evidência decisiva que justifique o seu uso! "
ResponderExcluirPara se tomar uma decisão você tem que analisar não somente o peso da evidência, mas os custos de se tomar uma decisão errada e as magnitudes dos efeitos envolvidos.
Recolher medicamentos porque não atingiram um nível arbitrário de significância ou fator de bayes ou probabilidade a posteriori pode ser muito pior (no sentido de matar mais vidas e causar outros danos) do que deixá-los serem comercializados - tudo depende do que está envolvido. O remédio tem quais prováveis efeitos sobre quais doenças? Quais os prováveis efeitos colaterais ele possui? Quais as magnitudes dos efeitos? Se os efeitos colaterais são nulos e os prováveis benefícios altos, a exigência será menor do que caso os efeitos colaterais sejam altos e os prováveis benefícios baixos, por exemplo.
Você pode ter um remédio que tem probabilidade a posteriori de 99% de curar uma gripe e tem 0,01% de ter um efeito colateral, que seria o desenvolvimento de uma doença altamente contagiosa que pode dizimar a humanidade.
A decisão aqui não é depende somente das probabilidades, mas do tamanho dos efeitos e quais seus impactos. Provavelmente as pessoas pensariam duas vezes antes de permitir a comercialização do medicamento acima, a despeito de se ter quase certeza de que ele cure a gripe.
Já outro medicamento pode ter uma probabilidade a posteriori de 80% de curar uma gripe e 0% de ter qualquer efeito colateral. Nesse caso os custos de se liberar o medicamento são quase nulos.
O ponto é que não faz sentido falar de evidência de maneira isolada como algo que vale em qualquer circunstância, ainda mais de hipóteses nulas precisas. Um p-valor de 0.3 ou uma probabilidade a posteriori de 60% pode ser suficiente para se tomar uma boa decisão em certo contexto, e em outros nem uma probabilidade a posteriori de 99,99% e um p-valor de 0,001% são suficientes.
Abs
Carlos, concordo com o que voce falou. Seu ponto foi discutido em http://statpop.blogspot.com.br/2012/12/como-tomar-decisoes.html. O ponto é que muitas decisões são tomadas (indevidamente) com base em p-valores. Essa recente discussão aqui reportada apenas reforça a impropriedade desse tipo de procedimento.
ExcluirMuito interessante este texto. Obrigada pelas referências sugeridas, vou verificá-las, pois me parece um tema de muita relevância.
ResponderExcluirMuito interessante, li no seu blog e no dia seguinte levei o artigo da Nature para a sala de aula para discutir com o pessoal da epidemiologia. Vou ler os artigos do Johnson que eu julgo serem fundamentais para trazer a inferencia bayesiana para problemas práticos. Será que vamos substituir os p-values pelos Bayes Factor?
ResponderExcluirAh, outra coisa. Fantastica coincidência, um post aqui no blog sobre p-valor no dia 5/11 e 6 dias depois um artigo na Nature falando sobre o tema.
ResponderExcluirLeo, acho que muitos estatísticos aplicados (Bayesianos e frequentistas) sabe que não se deve usar p-valor fixo pois a rejeição é quase certa quando o tamanho da amostra é grande. O que não está (estava?) claro é como fazer essa compensação. O que essa pesquisa propõe é UMA formalização possível para operacionaliza-la.
ResponderExcluirDani, isso mesmo! os estatísticos (independente da religião rs) sabem (ou deveriam saber) das limitações do p-valor, e essa é uma entre algumas para compensar o valor fixo do p-valor. Isso não é novo (um teste bayesiano uniformemente mais poderoso sim), mas acaba ficando só dentro da estatística.
ExcluirEu acho que o problema maior é a galera na outra ponta que simplesmente usa a estatística, eles geralmente olham para 0.05 como um número quase divino para rejeição de hipóteses. Isso me lembra um quadrinho do xkcd: http://xkcd.com/882/
Grandisimo Dani!
ResponderExcluirAcabo de ler hoje 17/2/2015 um artigo relevante e muito interessante sobre o assunto
ResponderExcluirhttps://www.academia.edu/9960616/An_investigation_of_the_false_discovery_rate_and_the_misinterpretation_of_P_values
E um artigo expositivo relacionado aos trabalhos de Gerger e Selke