terça-feira, 17 de março de 2015

Banimento de testes de hipóteses

Ioannidis & Panagiotou (JAMA, 2011)


Há cerca de um ano atrás, o StatPop ecoou o trabalho de um estatístico contendo críticas à metodologia usual de comprovação de teorias através do uso de testes de hipóteses. Esse trabalho buscava uma reconciliação de p-valores com métodos Bayesianos, através de uma releitura dos primeiros sob a ótica dos segundos. Esse trabalho teve repercussão muito forte fora da Estatística, especialmente entre pesquisadores que estavam há muito tempo insatisfeitos com a "praga" do p-valor < 0.05 como garantia de sucesso de uma nova teoria e padrão a ser seguido para garantir a publicação de resultados. 

A comunidade estatística como um todo não reagiu muito fortemente a esse movimento, possivelmente por entender que o correto uso de metodologia estatística por si só garantiria a manutenção do status quo. Bom, a pressão não diminuiu e culminou com o recente editorial de um periódico de Psicologia banindo o uso de testes de hipóteses como suporte para viabilização de alguma teoria. 

O editorial sustenta que esses testes podem até ser usados mas devem ser removidos da redação final do artigo, antes da publicação. O texto não é muito claro a respeito das suas motivações mas expressa de forma vívida as preocupações que muitos cientistas de muitas áreas diferentes vem tendo com a metodologia de testes de hipóteses. Ele basicamente lança dúvidas sobre todas as metodologias baseadas em cálculos amostrais e faz 2 recomendações, aparentemente situadas em extremos opostos: utilizar estatísticas descritivas (embora não tenha deixado claro o que isso significa) e utilizar metodologia Bayesiana.

Um dos maiores críticos do uso indiscriminado da metodologia de testes de hipóteses e de p-valores é o Professor John Ioannidis, da Universidade de Stanford. Ele é um respeitado pesquisador na área médica e tem vários textos críticos a respeito do uso da metodologia de testes de hipóteses como garantia de validade de resultados. Um exemplo é seu texto Power failure: why small sample size undermines the reliability of neuroscience, publicado na Nature. Outro exemplo é Comparison of Effect Sizes Associated With Biomarkers Reported in Highly Cited Individual Articles and in Subsequent Meta-analyses, publicado no Journal of the American Medical Association. Nesse estudo, ele mostra que muitos estudos publicados reportando efeitos significativos de algum medicamento não se sustentam quando inseridos dentro de estudos mais gerais envolvendo mias pacientes ou combinados com outros centros. A figura acima ilustra esse ponto, com os estudos mais citados sendo sistematicamente mais significativos que estudos maiores. A lista pode ser completada com o artigo Why most published research findings are false, cujo título sumariza a discussão.

Mas a noticia desses "banimento dos p-valores" parece ter acordado a comunidade estatística. As reações foram bastante diversas, como ilustra esse debate eletrônico realizado pela RSS, sociedade de Estatística britânica, e despertou reações das mais diversas. A maioria das reações envolveu contestação da argumentação usada no editorial. Esse tipo de reação corporativista é esperada em qualquer grupamento humano e certamente em grupos de cientistas, mestres na arte da argumentação.  

Não irei entrar no mérito dessa discussão, inclusive porque ela é complexa o suficiente para gerar várias possíveis reações e a discussão da RSS mostra isso em altíssimo nível. Mas vale ressaltar que o argumento usado pela metodologia frequentista é de muito fácil implementação, o que ajuda a explicar o seu sucesso, mas de bastante complicada interpretação. É muito fácil se render aos encantos da regra mágica p-valor < 5% (ou p-valor <1%) sem realmente entender o seu significado e suas limitações. Raciocínio similar vale para intervalos de confiança frequentistas. Ambas as técnicas envolvem uma conversão não trivial dos dados para os parâmetros, e consequentemente para as hipóteses que se deseja testar. Ainda que com mais de meio século de atraso, as outras áreas da Ciência parecem ter acordado e estar finalmente se dando conta disso.

2 comentários:

  1. Professor, o que você acha sobre as inferências baseadas no p valor ? Descartáveis ou úteis ?

    ResponderExcluir
  2. Como disse na postagem, acho que a inferência baseada no p-valor é limitada. Mas desde que respeitadas as suas limitações e guardadas as devidas reservas, pode trazer informação útil.

    ResponderExcluir