terça-feira, 24 de março de 2015

Dificuldades dos testes de significância

https://onlinecourses.science.psu.edu

A postagem da semana passada trouxe novamente à luz um forte questionamento em relação à metodologia frequentista para testar hipóteses. Como já havia sido comentado naquela ocasião, a metodologia é bastante atraente pela sua simplicidade de utilização mas é complexa, o que a torna de difícil compreensão e erros na sua utilização acabam se tornando frequentes. Assim, vale a pena refletir novamente sobre o que são e como funcionam os testes de significância comumente usados mundo afora e assim entender as suas dificuldades e limitações.

Para começar os testes envolvem um critério que, baseado nas evidências trazidas pelos dados, define se uma hipótese de interesse deve ou não ser aceita. Se a evidência trazida pelos dados não é compatível com a hipótese, tende-se a rejeitar essa hipótese. A incompatibilidade é caracterizada por uma baixa probabilidade de observar esse padrão nos dados se a hipótese for verdadeira. Essa baixa probabilidade em geral é tomada como 5% Ou seja, se um padrão só é observado 5 vezes em cada 100 tentativas, entende-se que ele não deve ter sido gerado a partir da hipótese e portanto ela deve ser rejeitada. 

Considere agora que a eficácia de um novo tratamento médico está sendo avaliada por 100 instituições diferentes mas que, de fato, esse tratamento não apresenta nenhuma vantagem sobre o tratamento já existente. É esperado que cerca de 5 das instituições envolvidas acabem por encontrar evidência a favor da eficácia desse novo tratamento. O pior é que são justamente esses estudos que chamarão mais a atenção da comunidade científica e tenderão a ser publicados, em detrimento dos outros 95 estudos que apontam a resposta correta. Esse fenômeno é o chamado de vício de publicação. Entretanto, se forem recuperados todos os estudos e agregados poderá se perceber com mais precisão que não existe de fato nenhuma evidência a favor do novo tratamento. Esse ponto foi ilustrado na figura da semana passada e é um dos questionamentos mais sérios que o Professor Ioannidis faz sobre a utilização de testes de hipóteses.

Outra questão é que esses 5% de incompatibilidade dos dados com a hipótese não são a probabilidade da hipótese à luz dos dados obtidos. Em termos matemáticos, se E é a evidência e H é a hipótese de interesse, o que se calcula é que Prob( E | H ) = 5% mas, em um instinto quase natural, as pessoas entendem que foi calculado que Prob( H | E ) = 5% e isso está errado. Até ai tudo bem se o erro fosse pequeno. Mas não é! A discussão é dificultada pois não é possível calcular probabilidades de hipóteses sob o prisma frequentista e portanto é impossível avaliar o tamanho do erro. Esse ponto já foi tratado no StatPop no contexto de evidências em um tribunal.

Além disso, os testes são baseados em controle de 2 tipos de erro: o erro de rejeitar erroneamente a hipótese de interesse (erro tipo I) e o erro de aceitar erroneamente a hipótese alternativa (erro tipo II). Toda a discussão acima foi centrada apenas do erro tipo I. Isso resolve apenas parte do problema e o instrumento adequado para avaliar testes de forma mais completa é a função poder. Essa função calcula a probabilidade de rejeição da hipótese de interesse para qualquer valor do parâmetro. Considere que deseja-se testar a eficácia de um tratamento através da hipótese ∆ = 0 (não há diferença entre os tratamentos) e que a hipótese alternativa seja ∆ = 2, diferença considerada suficientemente alta para garantir diferença relevante entre os tratamentos. 

Se X é a diferença padronizada entre os resultados obtidos com amostras sob os 2 tratamentos, é razoável rejeitar a hipótese de interesse se X > 1,65. Esse teste tem erro tipo I com probabilidade 5% e uma diferença padronizada de 1,7 teria p-valor < 5%. Entretanto, cálculos com a função poder mostram que esse teste tem poder 64%, ou seja, probabilidade 36% de erro tipo II. Esse poder é muito baixo para qualquer decisão baseada nesse teste ser considerada segura, apesar de 1,7 estar mais perto de 2 do que de 0. A figura acima ilustra essas contas em uma situação similar.

Finalmente, um procedimento adotado sempre que possível para aumentar o poder dos testes é o aumento dos tamanhos das amostras. Nesse caso, a informação fica extremamente concentrada e torna-se mais fácil obter a rejeição das hipóteses de interesse ao nível 5%. Isso vale para qualquer hipótese, incluindo as verdadeiras! Não se pode usar o valor padrão de 5% ou mesmo 1% cegamente e ajustes devem ser feitos nos valores que garantem significância. Esse ponto também já foi tratado aqui em postagens passadas. 

Como se pode ver, a correta utilização da metodologia clássica de testes de hipóteses é muito mais complexo que a simples verificação do p-valor ser menor que 5% ou 1%. E isso supondo que todos os pressupostos teóricos foram corretamente aplicados. É possível fazer tudo de forma adequada mas é bem mais complicado do que simplesmente apertar um botão em um computador e esperar por *, ** ou *** como indicação da significância do teste.

Nenhum comentário:

Postar um comentário