Karen Kafadar (Fonte: ASA)
por Karen Kafadar, presidente da American Statistical Association
Muitos anos atrás, Allan Wilks falou sobre as experiências que ele e Richard Becker e John Chambers (co-desenvolvedores de S, o progenitor de S-Plus e R) encontraram entre os usuários. Um de seus comentários permaneceu comigo todos esses anos. Ele ficou surpreso com as maneiras como o S estava sendo usado, formas que eles nunca imaginaram. “Por exemplo, uma pessoa ligou para dizer que S era incrivelmente lento. Tudo o que ele queria era uma matriz de identidade e levava meia hora. Fiquei intrigado; o comando diag (1000) leva uma fração de segundo. Acontece que ele estava criando a matriz com loops for: para (i em 1: 1000) {para (j em 1: 1000) {if (i == j) então A [i, j] = 1 else A [ i, j] = 0}}. Nunca nos ocorreu que as pessoas usariam nosso pacote dessa maneira”.
Recentemente, em reuniões de capítulos, conferências e outros eventos, tive a sorte de conhecer muitos dos nossos membros, muitos dos quais se sentem desconfortáveis com os efeitos das opiniões divergentes sobre os p-valores expressos no suplemento de março de 2019 da The American Statistician (TAS). Os editores convidados - Ronald Wasserstein, Allen Schirm e Nicole Lazar - apresentaram a Declaração da ASA sobre p-valores (2016) ao afirmar o óbvio: “Sejamos claros. Nada na declaração da ASA é novo. ”De fato, os seis princípios são bem conhecidos pelos estatísticos. Os editores convidados continuaram: “Esperávamos que uma declaração da maior associação profissional de estatísticos do mundo abrisse uma nova discussão e chamasse uma atenção renovada e vigorosa para mudar a prática da ciência com relação ao uso da inferência estatística”.
Os autores do suplemento de março de 2019 da TAS ofereceram mudanças. No entanto, como os editores notaram, “as vozes dos 43 artigos desta edição não cantam como uma só. … Para nós, estes são todos os sons de inferência estatística no século 21, os sons de um mundo aprendendo a se aventurar além de p <0,05”.
Um debate saudável sobre abordagens estatísticas pode levar a melhores métodos. Mas, assim como Wilks e seus colegas descobriram, conseqüências não intencionais podem ter surgido: não-estatísticos (o alvo da questão) podem estar confusos sobre o que fazer. Pior, “ao se libertar dos vínculos de significância estatística” como os editores sugerem e vários autores insistem, os pesquisadores podem ler o chamado para “abandonar a significância estatística” como “abandonar completamente os métodos estatísticos”.
Concordamos com a esperança dos editores de que “as estatísticas em ciência e política se tornem mais significativas do que nunca”. Desde que este recente suplemento da TAS apareceu, seus editores convidados estiveram ocupados viajando pelo país e respondendo a telefonemas para discutir e esclarecer os problemas com p-valores com o termo “significância estatística” e com “alternativas aos p-valores”.
Mas podemos precisar de mais. Como exatamente os pesquisadores deveriam implementar esse “novo conceito” de pensamento estatístico? Sem perguntas específicas, perguntas como “Por que se livrar de p-valores é tão difícil?” podem levar alguns de nossos colegas cientistas a ouvir a mensagem como “Abandonar p-valores”… apesar da declaração dos editores convidados: “Nós não estamos recomendando que o cálculo e o uso de valores-p contínuos sejam descontinuados”.
Brad Efron disse uma vez: "Aqueles que ignoram a estatística estão condenados a reinventá-la." Em seu comentário ("Não é culpa do p-valor") após a Declaração ASA de 2016 sobre p-valores, Yoav Benjamini escreveu: Declaração do Conselho sobre os p-valores pode ser lida como desencorajando o uso de p-valores porque eles podem ser mal utilizados, enquanto as outras abordagens oferecidas podem ser mal utilizadas da mesma maneira. ”De fato, p-valores (e todos os métodos estatísticos em geral) podem ser mal utilizados. (Assim podem carros e computadores e telefones celulares e álcool. Até mesmo palavras em inglês são mal utilizadas!) Mas bani-las não impedirá o mau uso; os analistas simplesmente encontrarão outras maneiras de documentar um ponto - talvez melhores maneiras, mas talvez menos confiáveis. E, como escreve Benjamini, os p-valores resistiram ao teste do tempo em parte porque oferecem “uma primeira linha de defesa contra serem enganados pela aleatoriedade, separando o sinal do ruído, porque os modelos requeridos são mais simples do que qualquer outra ferramenta estatística”- especialmente agora que o bootstrap de Efron se tornou uma ferramenta familiar em todos os ramos da ciência para caracterizar a incerteza nas estimativas estatísticas.
Conceitualmente, razões de verossimilhança (LRs) e modelos Bayes hierárquicos e distribuições de probabilidade (nas quais os modelos LR e Bayesiano são baseados) são adições úteis aos p-valores. Mas eles também têm incerteza. Além disso, tente explicar esses conceitos estatísticos para não-estatísticos. (Eu tentei. E todos nós também quando trabalhamos com cientistas não-quantitativos. O bootstrap é muito mais fácil de explicar.) Nosso desafio continua sendo explicar efetivamente esses conceitos para não-estatisticos.
No suplemento de março de 2019 da TAS, Ronald Fricker e seus colegas analisaram 31 artigos publicados em uma edição de 2016 da Basic & Applied Social Psychology (BASP) um ano após seus editores proibirem o uso de estatísticas inferenciais. “Encontramos várias instâncias de autores exagerando as conclusões além do que os dados suportariam se a significância estatística tivesse sido considerada. Os leitores seriam em grande parte incapazes de reconhecer isso porque as informações necessárias para fazê-lo não estavam prontamente disponíveis. ”Eles concluem:“ Em nossa opinião, as práticas que observamos nos artigos publicados na BASP pós-proibição não ajudarão a resolver este problema [inferência adequada]; na verdade, acreditamos que eles vão piorar. ”Fricker et al. também relembram as recomendações da Força Tarefa sobre Inferência Estatística da American Psychological Association (1999), que incluiu Donald Rubin, Frederick Mosteller e John Tukey: “Alguns esperavam que esta força-tarefa votasse para recomendar uma proibição definitiva do uso de testes de significância em revistas de psicologia. Embora isso possa eliminar alguns abusos, o comitê achou que havia contra-exemplos suficientes ... para justificar a tolerância”.
Onde a mudança para um mundo além de p < 0,05 nos leva? Será que “as estatísticas em ciência e política se tornarão mais significativas do que nunca”, como os autores do TAS propõem? Ou levará a mais confusão, estudos menos interpretáveis e mais associações reivindicadas como importantes, mas talvez não mais do que se esperaria de ter calculado milhares de coeficientes de correlação de Pearson? Se outras revistas citam publicações revisadas por pares em periódicos da ASA como justificativa para revisar suas políticas editoriais para banir valores de p, o núcleo de nossa profissão será ameaçado, e podemos não ver “estatísticas em ciência e política se tornando mais significativas do que nunca".
É reconfortante que “a Nature não está tentando mudar a forma como considera a avaliação estatística dos artigos neste momento”, mas essa linha está enterrada em seu editorial de 20 de março, intitulado “É hora de falar sobre o descarte da significância estatística”. Qual sentença acima será mais memorável? Podemos esperar para ver se outros periódicos seguem o exemplo da BASP e depois responder. Mas então voltamos ao modo "reativo" versus "proativo" (veja a coluna de fevereiro), que, antes de tudo, é como chegamos aqui.
De fato, o ASA tem a responsabilidade profissional de garantir que a boa ciência seja conduzida - e a inferência estatística é uma parte essencial da boa ciência. Dada a confusão na comunidade científica (à qual o suplemento do TAS 2019 revisado por especialistas da ASA pode ter contribuído de forma não intencional), não podemos nos dar ao luxo de relaxar. Afinal de contas, foi isso que nos colocou no caminho do "abuso de p-valores". (Veja a coluna de abril.)
Em um manuscrito não publicado que ele gentilmente compartilhou comigo enquanto eu preparava essa coluna, Stephen Stigler sugere “Uma nova solução para a 'crise' no teste de significância: Leia Fisher!” Citando o clássico de Fisher, Planejamento de experimentos:
Para afirmar que um fenômeno natural é experimentalmente demonstrável, precisamos, não de um registro isolado, mas de um método confiável de procedimento. Em relação ao teste de significância, podemos dizer que um fenômeno é experimentalmente demonstrável quando sabemos como conduzir um experimento que raramente falha em nos dar um resultado estatisticamente significativo”.
Stigler conclui: “É claro que Fisher não teria considerado um limite diferente, mesmo um tão pequeno quanto 0,005, como uma solução para um problema. Também está claro que Fisher era um fervoroso defensor da ciência reproduzível”. E isso - reprodutibilidade - é o real coração do problema. (Veja o relatório recentemente divulgado pela Academia Nacional de Ciências, Reprodutibilidade e Replicação na Ciência.) Como disse Benjamini: "Não é culpa do p-valor”.
Tukey escreveu anos atrás sobre os métodos bayesianos: “É relativamente claro que descartar técnicas Bayesianas seria um erro real; tentar usá-los em todos os lugares, no entanto, seria, a meu juízo, um erro consideravelmente maior. ”No contexto atual, talvez ele tenha dito: “É relativamente claro que confiar ou dispensar resultados baseados em um único p-valor seria um verdadeiro erro; descartar inteiramente os p-valores, no entanto, seria, em minha opinião, um erro consideravelmente maior”.
Devemos assumir a responsabilidade pela situação em que nos encontramos hoje (e nas últimas décadas) para assegurar que nossa metodologia estatística bem pesquisada e teoricamente sólida não seja abusada nem descartada categoricamente. Congratulo-me com suas sugestões de como podemos comunicar a importância da inferência estatística e a interpretação adequada dos p-valores para nossos parceiros cientistas e editores de revistas científicas de forma que eles entendam, apreciem e possam usar com confiança e conforto - antes de mudar políticas e abandonar completamente as estatísticas. Por favor, me envie suas ideias!
Nenhum comentário:
Postar um comentário