Fonte: figura 1 do artigo de Benjamin et al. (2017)
Há algum tempo vimos falando aqui da crise na ciência com respeito a questões de reprodutibilidade e perda da credibilidade dos testes estatísticos e nos P-valores. Várias críticas foram explicitadas dentro, e principalmente fora, da comunidade estatística. O que ainda faltava era ir além das críticas e propor efetivamente algo concreto. O texto abaixo descreve em linguagem simples uma proposta que acaba de ser sistematizada em um artigo científico, que será em breve publicado. Essa proposta foi assinada por 72 autores, encabeçabos por Dan Benjamin, e dentre os quais figuram vários estatísticos proeminentes. Ela recomenda que para declarar significância estatística de resultados de análises o valor do P-valor deve ser diminuído de 0,05 para 0,005, como já tínhamos antecipado aqui, e é fortemente calcada em argumentação Bayesiana (como ilustra a figura acima).
Uma defesa da proposta foi dada no texto, originalmente postado aqui, escrito por 6 dos 72 autores do artigo, e que traduzo abaixo:
Pesquisadores que representam uma ampla gama de disciplinas e perspectivas estatísticas - 72 de nós no total - publicaram um novo artigo no PsyArXiv descrevendo um senso comum. Argumentamos que a significância estatística deve ser redefinida. O artigo estará disponível em Nature Human Behavior. Para reivindicações de descobertas de efeitos novos, o artigo defende uma alteração no limiar de P-valor para um resultado ser "estatisticamente significativo" de 0,05 a 0,005. Os resultados atualmente chamados de "significativos" que não atendem ao novo limiar seriam chamados sugestivos e tratados como ambíguos quanto ao efeito. A idéia de mudar o limiar de significância estatística para 0,005 foi proposta anteriormente, mas o fato de este artigo ser de autoria de estatísticos e cientistas de diversas disciplinas - incluindo psicologia, economia, sociologia, antropologia, medicina, epidemiologia, ecologia e filosofia - indica que a proposta agora tem amplo apoio.
O artigo destaca um fato que os estatísticos conhecem há muito tempo, mas que não é amplamente reconhecido em muitas comunidades científicas: a evidência que é estatisticamente significativa em P = 0,05 constitui realmente uma evidência razoavelmente fraca. Por exemplo, para um experimento testando se há algum efeito de um tratamento, o artigo relata os cálculos de como diferentes P-valores traduzem nas chances de que realmente existe um efeito versus não. Um P-valor de 0,05 corresponde a probabilidades de que existe realmente um efeito desse intervalo, dependendo de hipóteses, de 2,5:1 a 3,4:1. Essas chances são baixas, especialmente para achados surpreendentes que provavelmente não serão verdadeiros positivos, em primeiro lugar. Em contraste, um P-valor de 0,005 corresponde a probabilidades de que haja verdadeiramente um efeito que varia de 14:1 a 26:1, o que é muito mais convincente.
Um impulso importante para a proposta é a crescente preocupação de que haja uma "crise de reprodutibilidade" em muitos campos científicos, devido a uma alta taxa de falsos positivos entre as descobertas originalmente relatadas. Muitos problemas (como teste de hipóteses múltiplas e baixo poder do teste) contribuíram para esta alta taxa de falsos positivos e enfatizamos que é importante abordar todos esses problemas. Argumentamos, no entanto, que apertar os padrões de significância estatística é um passo simples que ajudaria. Na verdade, a relação teórica entre o P-valor e a força da evidência é empiricamente suportada: quanto menor o P-valor do efeito relatado no estudo original, mais provável é que o efeito fosse replicado no Projeto de Reprodutibilidade na Psicologia e no Projeto de Replicação de Economia Experimental.
Um impulso importante para a proposta é a crescente preocupação de que haja uma "crise de reprodutibilidade" em muitos campos científicos, devido a uma alta taxa de falsos positivos entre as descobertas originalmente relatadas. Muitos problemas (como teste de hipóteses múltiplas e baixo poder do teste) contribuíram para esta alta taxa de falsos positivos e enfatizamos que é importante abordar todos esses problemas. Argumentamos, no entanto, que apertar os padrões de significância estatística é um passo simples que ajudaria. Na verdade, a relação teórica entre o P-valor e a força da evidência é empiricamente suportada: quanto menor o P-valor do efeito relatado no estudo original, mais provável é que o efeito fosse replicado no Projeto de Reprodutibilidade na Psicologia e no Projeto de Replicação de Economia Experimental.
Reduzir o limiar de significância é uma estratégia que já foi usada com sucesso para melhorar a reprodutibilidade em várias comunidades científicas. A comunidade de pesquisa de genética mudou para um "limiar de significância do genoma" de 5 × 10-8 há uma década, e a adoção deste padrão ajudou a transformar o campo com uma taxa de falsos positivos notoriamente alta para um campo com um forte histórico de descobertas robustas. Na física de alta energia, a tradição tem sido, há muito tempo, definir significância para novas descobertas por uma regra de "5 sigma" (aproximadamente um limite de P-valor de 3 ×10-7). O fato de que outras comunidades de pesquisa mantiveram uma norma de limiares de significância mais rigorosos do que 0,05 sugere que a transição para um limiar mais rigoroso pode ser feita.
Alterar o limite de significância de 0,05 a 0,005 traz um custo, no entanto: além da mudança semântica na forma como os resultados publicados são descritos, a proposta também implica que os estudos devem ser baseados no novo limite de 0,005. Comparado com o uso do antigo limite de 0,05, manter o mesmo nível de poder estatístico requer o aumento de tamanhos de amostra em cerca de 70%. Esse aumento no tamanho das amostras significa que menos estudos podem ser realizados usando os projetos e orçamentos experimentais atuais. Mas o artigo argumenta que, sob pressupostos realistas, o benefício seria grande: as taxas de falsos positivos tipicamente cairíam por fatores maiores do que dois. Assim, recursos consideráveis seriam economizados ao não realizar futuros estudos com base em premissas falsas. O aumento do tamanho das amostras também é desejável porque os estudos com tamanhos de amostra pequenos tendem a produzir estimativas infladas do tamanho de efeito, e vícios de publicação e outros podem ser mais prováveis em um ambiente de pequenos estudos.
Alterar o limite de significância de 0,05 a 0,005 traz um custo, no entanto: além da mudança semântica na forma como os resultados publicados são descritos, a proposta também implica que os estudos devem ser baseados no novo limite de 0,005. Comparado com o uso do antigo limite de 0,05, manter o mesmo nível de poder estatístico requer o aumento de tamanhos de amostra em cerca de 70%. Esse aumento no tamanho das amostras significa que menos estudos podem ser realizados usando os projetos e orçamentos experimentais atuais. Mas o artigo argumenta que, sob pressupostos realistas, o benefício seria grande: as taxas de falsos positivos tipicamente cairíam por fatores maiores do que dois. Assim, recursos consideráveis seriam economizados ao não realizar futuros estudos com base em premissas falsas. O aumento do tamanho das amostras também é desejável porque os estudos com tamanhos de amostra pequenos tendem a produzir estimativas infladas do tamanho de efeito, e vícios de publicação e outros podem ser mais prováveis em um ambiente de pequenos estudos.
Em comunidades de pesquisa, onde a obtenção de tamanhos de amostra maiores é simplesmente inviável (por exemplo, estudos antropológicos de uma sociedade em pequena escala), existe um "custo" relacionado: a maioria dos achados pode não ser estatisticamente significativo sob a nova definição. Nossa visão é que este não é realmente um custo: chamar de "sugestivos" os achados com P-valores entre 0,05 e 0,005 é, na verdade, uma descrição mais precisa da força da evidência.
Na verdade, o documento enfatiza que a proposta é sobre padrões de evidência e não padrões de ação política nem padrões para publicação. Os resultados que não atingem o limite para significância estatística (seja lá o que isso for) ainda podem ser importantes e merecem a publicação em periódicos de elite se abordarem questões de pesquisa importantes com métodos rigorosos. A evidência que não atinge o novo limite de significância deve ser tratada como sugestiva e, quando possível, outras evidências devem ser acumuladas. Deixar de rejeitar a hipótese nula (se mantém!) não significa(ndo) aceitar a hipótese nula.
O artigo antecipa e responde a várias potenciais objeções para a proposta. Uma grande classe de objeções é que a proposta não aborda os problemas de base, que incluem testes de hipóteses múltiplas e atenção insuficiente para efeitos de tamanhos - e, de fato, podem reforçar alguns dos problemas, como o excesso de dependência no limite de significância de hipóteses nulas. Concordamos essencialmente com essas preocupações. O documento enfatiza que a redução do limite do P-valor complementa, mas não substitui soluções para outros problemas, como o bom desenho do estudo, cálculos de poder do teste ex ante, pré-registro de análises planejadas, replicações e relatórios transparentes de procedimentos e de todas as análises estatísticas realizadas.
Muitos dos autores concordam que há melhores abordagens para análises estatísticas do que testes de significância de hipóteses nulas e continuarão defendendo alternativas. A proposta destina-se a comunidades de pesquisa que continuam a depender do teste de significância de hipóteses nulas em um limiar de 0,05; para essas comunidades, reduzir o limite do P-valor para reivindicações de novas descobertas para 0,005 é um passo acionável que irá melhorar imediatamente a reprodutibilidade. Longe de reforçar a dependência excessiva da significância estatística, esperamos que a mudança no limiar - e o aumento do uso de resultados que descrevem com P-valores entre 0,05 e 0,005 como "sugestivos" - levem a conscientizar as limitações de confiar tão fortemente em um limite de P-valor e, assim, facilitarão uma transição a longo prazo para melhores abordagens.
A mudança proposta para um limite de P-valor mais exigente envolve tanto um problema de coordenação (qual limite usar?) e um problema de decisão (por que eu deveria impor um limite mais rigoroso para mim, a menos que outros o façam?). O objetivo da proposta é ajudar a coordenar em 0,005 e desencorajar a livre circulação no antigo limite. Em última análise, acreditamos que o novo limite de significância ajudará pesquisadores e leitores a entender e comunicar evidências com mais precisão.
A mudança proposta para um limite de P-valor mais exigente envolve tanto um problema de coordenação (qual limite usar?) e um problema de decisão (por que eu deveria impor um limite mais rigoroso para mim, a menos que outros o façam?). O objetivo da proposta é ajudar a coordenar em 0,005 e desencorajar a livre circulação no antigo limite. Em última análise, acreditamos que o novo limite de significância ajudará pesquisadores e leitores a entender e comunicar evidências com mais precisão.
Legal! Acho que é hora de repensarmos também os intervalos de 95%. Entao o equivalente seria reportar os IC 99.5%? Acho que sim né?
ResponderExcluirOi Leo, muito bom ponto. Como você bem sabe, a lógica de construção de intervalos de confiança não é exatamente a mesma da lógica de construção de testes de significância. Entretanto, intervalos de confiança são muitas vezes utilizados para realizar (implicitamente) testes de hipóteses. Nesses casos, concordo com você que os intervalos deveriam passar a ter 99,5% de confiança.
ResponderExcluirNão seria melhor completamentar a sugestão de "baixar o nível de significância para 0.005" com a recomendação de se mostrar a "curva de poder" do teste? Porque quase não se fala de poder nas publicações em outras áreas. A impressão que a maioria das pessoas de outras áreas têm é a de que o "acerto" da decisão do teste é 100% confiável se o "p" é pequeno. Além disto, os estudos com amostras imensas, em que qualquer efeito é dado como "estaticamente significativo" (até se o liminar fosse reduzido para 0.001!), por mais insignificante que o efeito seja na prática, vão ganhar ainda mais força com este novo e apertado limiar. Mais do reduzir apenas o nível de significância, eu gostaria que a recomendação viesse no sentido de reportar algo mais que o valor-p, talvez ao menos o trio (valor-p, n, poder) ou um a medida que os combinasse, além da discussão do tamanho real (não estatistico) deste efeito na prática.
ResponderExcluirFisherianos trabalham com testes de significância e não com testes de hipóteses Neyman- Personianos , onde aparece poder!!!
ExcluirObrigado, Basilio, por ter me indicado o artigo tema dessa postagem.
ExcluirOi Edna, excelente comentário. A redução do p-valor é um 1o passo. Também acho que deveríamos caminhar para um limiar mais baixo mas que também dependesse do tamanho da amostra. Como o texto explica, algumas áreas já adotam limiares bem menores (que 0,05 ou 0,005) talvez pensando em tamanhos tipicamente usados lá. Quanto ao poder, a idéia pode até ser boa mas para muitos testes é muito difícil a obtenção dos seus valores.
ResponderExcluirO artigo é muito bom, mas um número maior de amostras aumenta o custo da pesquisa. E dependendo desse custo, inviabiliza o seu financiamento.
ResponderExcluirOi Aleksander, os autores consideram esse problema que você levantou. Veja o 5o parágrafo do fim para trás.
ResponderExcluirFazendo um adendo ao comentario de Basílio, será que este "problema dos P-valores" também ocorre na denominada Estatística Bayesiana ????? Ou será que não ??
ResponderExcluirTchau e desde já grato por tudo ...
A estatística Bayesiana usa outra lógica, que prescinde de p-valores. Vou tentar elaborar melhor esse ponto em postagem futura.
ResponderExcluir