terça-feira, 9 de abril de 2019

Ainda a discussão sobre p-valores...

https://towardsdatascience.com

A discussão recente em torno de p-valores foi retratada aqui em algumas postagens mas está longe de terminada. Um recente volume do interessante periódico The American Statistician foi inteiramente dedicado a esse debate. Dezenas de artigos foram publicados com propostas e discussões sobre o tema. O volume tem várias contribuições com títulos provocativos, começando com Indo para um mundo além de p < 0,05, que intitulou o editorial de abertura do volume. Outros títulos interessantes foram O que (não) aprendemos com milhões de artigos científicos com p-valores?, Porque é tão difícil se livrar de p-valores? e Corrigindo pesquisa corrompida: rdcomendações para a profissão parar de mal utilizar p-valores. Pelos títulos, a abordagem parece ser predominantemente crítica ao uso de p-valores.

O volume teve um editorial e 43 artigos, entre os quais um escrito por brasileiros. E é justamente sobre o contexto desse artigo que eu queria focar esta postagem. Esse artigo teve Mark A. Gannon, Carlos A. B. Pereira e Adriano Polpo como autores. Esses autores, assim como muitos outros desse volume, chamam a atenção para um ponto que já é conhecido de muitos estatísticos há décadas mas tem sido menos valorizado na discussão sobre p-valores: a fundamental influência do tamanho da amostra nas estratégias baseadas no p-valor.

Tomei conhecimento formal desse ponto ao ler o texto seminal de DeGroot, entitulado Probability & Statistics. Ele livro, já em sua 4a edição agora com co-autoria de M. Schervish, apresenta exercícios numéricos simples para ilustrar esse conceito e deixar clara a conexão entre níveis de significância e tamanho da amostra. A apresentação a seguir é uma pequena modificação das contas apresentadas pelo livro para enfatizar o uso do valor limite de 0,05.

Suponha que deseja-se testar a hipótese H0: µ = 0 contra a hipótese alternativa H1: µ = 1 baseado em uma amostra de tamanho n de uma população normal com média µ e variância 1. O teste usualmente proposto rejeita Hse a média amostral é maior que
O valor de c depende do nível, que é a probabilidade de rejeitar erroneamente H0, isto é, de cometer o erro tipo I. O valor 1,645 é usado para um nível de 0,05. Isso significa que se a amostra tiver 25 observações e sua média for 1,645/5 (= 0,329) teremos um p-valor 5% O nível 5% é relativamente baixo e supostamente garante que estamos priorizando não rejeitar H0 erroneamente. Essa suposição é razoável se a amostra é pequena. De fato, se o tamanho da amostra for 1, a probabilidade de cometer o erro do tipo II (aceitar erroneamente H0) é de 74%. entretanto, se o tamanho da amostra cresce para 25, a probabilidade de erro tipo II decresce para 0,0004 ou 0,04% e se o tamanho da amostra cresce para 100, essa mesma probabilidade vai para 
Esses números mostram que o rigor usado para o controle do erro tipo I apenas privilegiam o controle desse erro (em detrimento do controle do erro do tipo II para amostras muito pequenas. Para amostras de tamanho 100, o controle do erro tipo II é muito mais maior. Trocando em miúdos, é muito mais fácil rejeitar erroneamente Hnesses casos do que aceitar erroneamente H1. Isso se traduz na prática na obtenção de muitas mais falsas descobertas que o pretendido, justamente o oposto que se pretendia com a pre-fixação do p-valor em 5%

A relevância desse achado no contexto científico é que usualmente a rejeição de H0 é associada a alguma descoberta (a eficácia de algum tratamento novo). O suposto rigor na escolha do p-valor refletiria o rigor que se adotaria ao afirmar que essa descoberta é um reflexo genuino do que a amostra nos informa. Os particulares valores escolhidos para os valores de µ nas hipóteses  usadas e no valor escolhido para a variância populacional alteram marginalmente a argumentação acima. Contas similares seriam obtidas com modificações nos valores utilizados acima. 

Para ilustrar esse ponto, vale relembrar que recentemente postamos aqui sobre um artigo sobre o assunto assinado por importantes pesquisadores de Estatística e outras áreas. Nesse artigo, os autores propõe que o padrão de corte do p-valor seja reduzido de 5% para 0,5%, simbolizando um maior rigor na declaração de significância de uma nova descoberta científica.

As contas acima mostram que a estratégia de reduzir o limiar de significância dos p-valores não resolve.  De fato, se repetirmos o exercício acima com probabilidade de erro tipo I reduzida para 0,5%, o valor de c efetivamente aumenta; ele irá de 1,645 para 2,576. E de fato, tudo aponta para a priorização do controle do erro do tipo I: as probabilidades do erro tipo II sobem 94% para tamanho da amostra igual a 1 e 0,07% para tamanho da amostra igual a 25. Mas novamente decaem para valores baixíssimos quando o tamanho amostral sobe para 100!

No contexto atual, os tamanhos amostrais estão na casa dos milhares e muitas vezes na casa dos milhões. As contas acima mostram que a redução do limiar para declaração de significância caminha na direção correta mas está ainda muito muito longe de resolver os problemas causados pela utilização de p-valores iguais a 5%. Nem se fosse baixado ainda mais o limiar de significância (para 0,05% ou 0,005%) o problema não se resolveria para as amostras grandes com as quais lidamos hoje em dia.

De qualquer forma, fica a lição que não adianta pre-fixar os limiares do p-valor sem considerar o tamanho da amostra, isto é, sem considerar a quantidade de informação usada na análise. Os 44 artigos se debruçam em explicitar que existe um grave problema e em propor soluções para ele. Mas a análise conjunta dos artigos também deixa claro que ainda não apareceu uma proposta universalmente aceita para resolver o problema.

Nenhum comentário:

Postar um comentário