terça-feira, 5 de novembro de 2013

p-valor



Uma das ferramentas estatísticas mais utilizadas no mundo é o p-valor (algumas vezes, denominada valor-ou valor de p). É muito raro encontrar um trabalho científico de Medicina onde o p-valor não esteja mencionado ao menos 1 vez. O mesmo pode ser dito para muitas outras áreas da Ciências. Trata-se de um conceito muito útil mas de difícil compreensão. Sendo tão usado por estatísticos mas também por leigos não surpreende que ele seja muitas vezes mal utilizado. 

Vamos tentar explicá-lo aqui sem utilizar fórmulas. O p-valor é usado no contexto de testes de hipóteses e fornece uma medida de quão extremo foi o dado observado no que diz respeito à hipótese sendo testada. Para tornar a explicação mais concreta, suponha que desejamos saber se fumar causa câncer de pulmão e nossa hipótese de interesse é de que não existe relação entre fumo e câncer. Ao rejeitarmos essa hipótese, estaríamos então concluindo pela existência de relação. Para tanto, foi realizado um experimento com 100 fumante e 100 não fumantes. Suponha também que foram tomados todos os cuidados necessários para garantir que a única diferença relevante entre os 2 grupos dizia respeito ao padrão de fumo. Os resultados obtidos estão na Tabela 1 abaixo.

Tabela 1

Cancer
Sadio
Fumante
35
65
Não fumante
30
70

Essa tabela parece não indicar nenhuma relação forte entre fumo e câncer. Efetivamente, fazendo as contas observa-se que as chances de observarmos os dados dessa tabela ou algo ainda mais discrepante (da hipótese de inexistência de relação entre fumo e câncer) é de 14%. Logo, nesse caso o p-valor é de 14%. Os possíveis valores da medida de discrepância e suas respectivas probabilidades estão representada no gráfico acima, com destaque para a área em azul. Como o p-valor encontrado é relativamente alto, concluímos que não há motivos para rejeitar a hipótese e aceitamos que fumo e câncer não estão relacionados.

Imagine agora que os resultados do experimentos foram um pouco diferentes, conforme mostra a Tabela 2.

Tabela 2

Cancer
Sadio
Fumante
50
50
Não fumante
30
70

Para essa tabela, parece haver uma marcada diferença entre o comportamento dos fumantes e o dos não fumantes. Efetivamente, fazendo as contas observa-se que as chances de observarmos os dados dessa tabela ou algo mais discrepante sem que haja relação entre fumo e câncer é de 0,4%. Esse valor está representado no gráfico acima pela área em vermelho, onde também pode-se observar quão extrema é a discrepância observada. Logo, nesse caso o p-valor é de 0,4%. Como esse valor é muito baixo, concluímos que há motivos suficientemente fortes para rejeitar a hipótese e aceitamos que fumo e câncer estão relacionados.

Assim, o p-valor fornece a probabilidade de termos observado os dados se a hipótese é verdadeira. Se ele é alto, julgamos ser plausível termos os dados observados sob a hipótese de interesse e não evidência para rejeitá-la. Se ele é baixo, somos levados a concluir que a hipótese é falsa e deve ser rejeitada.  

Assim, o p-valor é uma medida sumarizadora bastante útil e isso ajuda a entender o seu sucesso. Ele fornece a probabilidade dos dados (ou da evidência E) sobre a hipótese H, isto é, Prob ( E | H ). O problema é que existe uma tentação muito grande de entendê-lo como a probabilidade de hipótese H à luz da evidência observada E, isto é, Prob ( H | E ). Essas 2 probabilidades não têm muita relação entre si e certamente não são a mesma coisa. Esse ponto já foi tratado neste blog em postagem anterior. Pudemos ver no exemplo lá apresentado que, enquanto para uma delas (o p-valor) era 0,01%, a outra era relativamente alta, de 17%.

Uma outra dificuldade com o p-valor está associada a que hipóteses estão sendo contempladas. Muitas vezes assume-se que ao rejeitar a hipótese de interesse, está se aceitando a hipótese alternativa a ela. Isso só é verdade em parte, e depende do problema. No caso do exemplo acima, a hipótese alternativa implícita é que fumar aumenta as chances de câncer de pulmão. Na realidade, tudo que o exemplo nos diz é que fumar (não) está relacionado a câncer se os dados seguirem a Tabela 2 (1, respectivamente). Se, por algum absurdo, nossa hipótese alternativa fosse que fumar diminui as chances de câncer, seria um equívoco rejeitar a hipótese de interesse em favor da hipótese alternativa mesmo se os dados seguissem a Tabela 2. Em suma, o fato de rejeitar a hipótese de interesse não implica necessariamente em termos de aceitar a hipótese alternativa. Tudo vai depender de que alternativas estão sendo contempladas.

Outro problema associado a  p-valor está na especificação da hipótese de interesse. No nosso caso, ela era de não existir relação entre fumo e câncer. Será a existência de uma inexpressiva relação entre fumo e câncer diferente da hipótese contemplada? Provavelmente não! Entretanto a inclusão dessa possibilidade à hipótese de interesse poderá causar mudanças importantes no p-valor e, consequentemente, nos resultados da análise. Mas isso será objeto de postagem posterior.

Em resumo, use o p-valor mas faça sempre com muito, mas muito, cuidado.

6 comentários:

  1. Caro Professor,

    Parabéns pelo texto. Muito claro, especialmente por não utilizar fórmulas, o que facilita para os leitores da área de saúde.

    Agora, uma pergunta técnica: é correto afirmar que o p-valor é uma probabilidade condicional? Ou seja, é válido condicionar num evento como H0? Minha dúvida se deve ao fato de, intuitivamente, entender que condicionamos em eventos que eram aleatórios a principio, e não sei se H0 se encaixa nesse contexto.

    Cordialmente,

    Luiz

    ResponderExcluir
    Respostas
    1. Luiz, concordo com sua avaliação. Contemplando também a perspectiva Bayesiana, considero esclarecedor falar de probabilidade condicional a hipoteses, embora isso não faça sentido se olharmos apenas sob a perspectiva frequentista.

      Excluir
  2. Dani, como você chegou a esses valores?

    Eu fiz o teste de Pearson de igualdade nas proporções e obtive:

    Primeiro caso -> IC para a diferença (95%) = [-0.09, 0.19], p.valor=55%
    Segundo caso -> IC para a diferença (95%)=[0.05, 0.34], p.valor=0,6%

    Também fiz o teste exato de Fisher e os números são praticamente iguais.

    Segue o código do R.

    Cancer <-
    matrix(c(35, 30, 65, 70),
    nrow = 2,
    dimnames =
    list(c("Fumante", "Não Fumante"),
    c("Câncer", "Sem Câncer")))
    Cancer2 <-
    matrix(c(50, 30, 50, 70),
    nrow = 2,
    dimnames =
    list(c("Fumante", "Não Fumante"),
    c("Câncer", "Sem Câncer")))

    Cancer
    Cancer2

    fisher.test(Cancer)
    fisher.test(Cancer2)
    prop.test(Cancer)
    prop.test(Cancer2)

    ResponderExcluir
    Respostas
    1. Carlos, usei o teste chi-quadrado da bondade de ajuste. Obrigado por apontar outras alternativas plausíveis.

      Excluir
  3. Muito legal e relevante o texto. Acho que é sempre motivo de alerta o uso de técnicas com muita atenção às hipóteses requeridas assim como na interpretação dos seus resultados.

    ResponderExcluir