Como pensar como um epidemiologista

https://www.nytimes.com/ (James Steinberg)

O texto com o título acima, escrito pela jornalista canadense Siobhan Roberts, foi publicado na semana passada pelo jornal americano The New York Times com o sub-título "Não se preocupe, um pouco de análise Bayesiana não lhe fará mal". O texto faz um apanhado de como a inferência Bayesiana pode ser útil em análises práticas, inclusive no período da pandemia. Ele reflete posições externadas em repetidas postagens aqui no StatPop. Mas como é um texto recente, atual e veiculado em mídia de alcance internacional, achei por bem reproduzi-lo aqui em português, para a compreensão de todos. Segue abaixo o texto da matéria...

"Há uma réplica de um estatístico - às vezes oferecida como uma crítica irônica, às vezes como um conselho honesto - que dificilmente poderia ser um lema melhor para nossos tempos: "Atualize suas prioris!"

No jargão das estatísticas, prioris são seus conhecimentos e crenças anteriores, inevitavelmente confusos e incertos, antes de ver as evidências. As evidências promovem uma atualização; e, em seguida, mais evidências solicitarão atualizações adicionais, e assim por diante. Este processo iterativo aprimora maior certeza e gera um acúmulo coerente de conhecimento.

No início da era pandêmica, por exemplo, a transmissão aérea da Covid-19 não era considerada provável, mas no início de julho a Organização Mundial da Saúde, com crescentes evidências científicas, admitiu que era um fator, especialmente em ambientes fechados. A OMS atualizou seus antecedentes e mudou seus conselhos.

Este é o cerne da análise bayesiana, em homenagem a Thomas Bayes, um ministro presbiteriano do século 18 que fazia matemática paralelamente. Ele captura a incerteza em termos de probabilidade: o teorema, ou regra, de Bayes é um dispositivo para atualizar racionalmente suas crenças e incertezas anteriores com base em evidências observadas.

O reverendo Bayes expôs suas idéias em “Um ensaio para a solução de um problema na doutrina das chances”, publicado postumamente em 1763; foi refinado pelo pregador e matemático Richard Price e incluiu o teorema de Bayes. Alguns séculos depois, as estruturas e métodos bayesianos, movidos por computação, estão no centro de vários modelos em epidemiologia e outros campos científicos.

Como Marc Lipsitch, epidemiologista de doenças infecciosas de Harvard, observou no Twitter, o raciocínio bayesiano chega muito perto de sua definição de racionalidade. “À medida que aprendemos mais, nossas crenças devem mudar”, disse Lipsitch em uma entrevista. “Um extremo é decidir o que você pensa e ser imune a novas informações. Outro extremo é privilegiar demais a última coisa que você aprendeu. Em termos gerais, o raciocínio bayesiano é uma maneira baseada em princípios de integrar o que você pensava anteriormente com o que aprendeu e chegar a uma conclusão que incorpora os dois, dando-lhes pesos apropriados.”

Com uma nova doença como a Covid-19 e todas as incertezas que ela traz, há um grande interesse em estabelecer os parâmetros dos modelos: Qual é o número de reprodução básico, a taxa com que surgem novos casos? Quão mortal é isso? Qual é a taxa de mortalidade por infecção, a proporção de pessoas com o vírus que ele mata?

Mas não adianta tentar estabelecer números fixos, disse Natalie Dean, professora assistente de bioestatística da Universidade da Flórida.

“Devemos nos concentrar menos em encontrar a única 'verdade' e mais em estabelecer um intervalo razoável, reconhecendo que o valor verdadeiro pode variar entre as populações”, disse o Dr. Dean. “As análises bayesianas nos permitem incluir essa variabilidade de forma clara e, em seguida, propagar essa incerteza por meio do modelo.”

Uma aplicação de livro-texto do teorema de Bayes é o teste de sorologia para Covid-19, que procura a presença de anticorpos para o vírus. Todos os testes são imperfeitos e a precisão de um teste de anticorpos depende de muitos fatores, incluindo, de maneira crítica, a raridade ou prevalência da doença.

O primeiro teste de anticorpos contra SARS-CoV-2 aprovado pelo F.D.A., em abril, parecia estar errado com a mesma frequência com que estava certo. Com o teorema de Bayes, você pode calcular o que você realmente deseja saber: a probabilidade de que o resultado do teste esteja correto. Como dito em um comentário do Twitter: "Compreender o teorema de Bayes é uma questão de vida ou morte agora."

A lógica da incerteza

Joseph Blitzstein, um estatístico de Harvard, investiga a utilidade da análise bayesiana em seu popular curso “Estatística 110: Probabilidade”. Para uma cartilha, na aula um, ele diz: “Matemática é a lógica da certeza, e estatística é a lógica da incerteza. Todo mundo tem incerteza. Se você tem 100 por cento de certeza sobre tudo, há algo errado com você. ”

No final da aula quatro, ele chega ao teorema de Bayes - seu teorema favorito porque é matematicamente simples, mas conceitualmente poderoso.

“Literalmente, a prova é apenas uma linha de álgebra”, disse Blitzstein. O teorema se reduz essencialmente a uma fração; expressa a probabilidade P de algum evento A acontecer, dada a ocorrência de outro evento B.

"Ingenumente, você pensaria: quanto você poderia conseguir com isso?" Dr. Blitzstein disse. “Acontece que tem consequências incrivelmente profundas e é aplicável a quase todos os campos de investigação” - desde finanças e genética até ciências políticas e estudos históricos. A abordagem bayesiana é aplicada na análise das disparidades raciais no policiamento (na avaliação das decisões dos policiais para revistar os motoristas durante uma parada de trânsito) e nas operações de busca e resgate (a área de busca diminui à medida que novos dados são adicionados). Os cientistas cognitivos perguntam: "O cérebro é bayesiano?" Os filósofos da ciência postulam que a ciência como um todo é um processo bayesiano - assim como o senso comum.

Considere o teste de diagnóstico. Neste cenário, a configuração do teorema de Bayes pode usar eventos rotulados como "T" para um resultado de teste positivo - e "C" para a presença de anticorpos Covid-19:

Agora, suponha que a prevalência de casos seja de 10 por cento (era assim na cidade de Nova York na primavera) e você tenha um resultado positivo de um teste com precisão de 87,5 por cento de sensibilidade e 97,5 por cento de especificidade. Passando os números pelas engrenagens bayesianas, a probabilidade de que o resultado esteja correto e de que você realmente tenha anticorpos é de 79,5%. Probabilidades decentes, considerando tudo. Se você quer mais certeza, peça uma segunda opinião. E continue a ser cauteloso.

Uma colaboração internacional de pesquisadores, médicos e desenvolvedores criou outra estratégia bayesiana, combinando o resultado do teste com um questionário para produzir uma estimativa melhor se o resultado pode ser um falso negativo ou um falso positivo. A ferramenta, que ganhou dois hackathons, coleta informações contextuais: Você foi trabalhar durante o bloqueio? O que você fez para evitar pegar a Covid-19? Alguém em sua casa teve Covid-19?

“É um pouco semelhante a ter dois 'especialistas médicos'”, disse Claire Donnat, que recentemente concluiu seu doutorado em Estatística em Stanford e fazia parte da equipe. Um especialista tem acesso aos sintomas e antecedentes do paciente, o outro ao teste; os dois diagnósticos são combinados para produzir uma pontuação mais precisa e estimativas de imunidade mais confiáveis. As prioris são atualizadas com uma agregação de informações.

“À medida que novas informações chegam, atualizamos nossas prioris o tempo todo”, disse Susan Holmes, uma estatística de Stanford, através da instável internet da zona rural de Portugal, onde ela inesperadamente passou 105 dias de pandemia, enquanto visitava sua mãe.

Essa foi a base a partir da qual o Dr. Holmes refinou um artigo recente, em coautoria com o Dr. Donnat, que fornece outro exemplo de análise bayesiana, em termos gerais. Observando as primeiras pesquisas em março sobre como a pandemia pode evoluir, eles notaram que os modelos epidemiológicos clássicos tendem a usar parâmetros fixos, ou constantes, para o número de reprodutibilidade - por exemplo, com um R0 de 2,0.

Mas, na realidade, o número de reprodução depende de fatores aleatórios e incertos: cargas virais e suscetibilidade, comportamento e redes sociais, cultura e classe socioeconômica, clima, ar condicionado e outros fatores desconhecidos.

Com uma perspectiva bayesiana, a incerteza é codificada na aleatoriedade. Os pesquisadores começaram supondo que o número de reprodutibilidade tinha várias distribuições (os prioris). Em seguida, eles modelaram a incerteza usando uma variável aleatória que flutua, assumindo uma faixa de valores tão pequena quanto 0,6 e tão grande quanto 2,2 ou 3,5. Em algo semelhante a um processo de aninhamento, a própria variável aleatória tem parâmetros que flutuam aleatoriamente; e esses parâmetros também têm parâmetros aleatórios (hiperparâmetros), etc. Os efeitos se acumulam em uma "hierarquia bayesiana" - "tartarugas por todo o lado", disse Holmes.

Os efeitos de todas essas flutuações aleatórias para cima e para baixo se multiplicam, como os juros compostos. Como resultado, o estudo descobriu que o uso de variáveis aleatórias para números de reprodutibilidade prevê de forma mais realista os eventos de cauda arriscados, os eventos de superespalhamento mais raros, porém mais significativos.

Os humanos sozinhos, no entanto, sem um modelo bayesiano de bússola, são notoriamente ruins em compreender o risco individual.

“As pessoas, incluindo crianças muito pequenas, podem usar a inferência bayesiana inconscientemente”, disse Alison Gopnik, psicóloga da Universidade da Califórnia, em Berkeley. “Mas eles precisam de evidências diretas sobre a frequência dos eventos para fazer isso.”

Muitas das informações que orientam nosso comportamento no contexto da Covid-19 são probabilísticas. Por exemplo, por algumas estimativas, se você for infectado com o coronavírus, há uma chance de 1 por cento de morrer; mas, na realidade, as chances de um indivíduo podem variar em mil vezes ou mais, dependendo da idade e de outros fatores. “Para algo como uma doença, a maioria das evidências é geralmente indireta, e as pessoas são muito ruins em lidar com informações probabilísticas explícitas”, disse Gopnik.

Modelagem de Humildade

Mesmo com evidências, revisar crenças não é fácil. A comunidade científica lutou para atualizar suas prioris sobre a transmissão assintomática de Covid-19, mesmo quando surgiram evidências de que é um fator e que as máscaras são uma medida preventiva útil. Isso provavelmente contribuiu para a lenta resposta do mundo ao vírus.

“Os problemas surgem quando não atualizamos”, disse David Spiegelhalter, estatístico e presidente do Centro Winton para Comunicação de Evidências e Riscos da Universidade de Cambridge. “Você pode interpretar o viés de confirmação, e muitas das maneiras pelas quais reagimos mal, por sermos lentos demais para revisar nossas crenças.”

Existem técnicas que compensam as deficiências bayesianas. Dr. Spiegelhalter gosta de uma abordagem chamada lei de Cromwell. “É o paraíso”, disse ele. Em 1650, Oliver Cromwell, Lorde Protetor da Comunidade da Inglaterra, escreveu em uma carta à Igreja da Escócia: “Eu te suplico, nas entranhas de Cristo, pense possível que você esteja enganado”.

No mundo bayesiano, a lei de Cromwell significa que você deve sempre "mantenha um pouquinho - um pouco que seja de probabilidade, mesmo minúsculo - para o fato de que você pode estar errado", disse o Dr. Spiegelhalter. “Então, se aparecerem novas evidências que contradigam totalmente sua principal crença anterior, você pode rapidamente abandonar o que pensava antes e pular para essa nova forma de pensar.”

“Em outras palavras, mantenha a mente aberta”, disse o Dr. Spiegelhalter. “Essa é uma ideia muito poderosa. E não precisa necessariamente ser feito técnica ou formalmente; pode estar apenas no fundo da sua mente, como uma ideia. Chame isso de 'modelagem de humildade'. Você pode estar errado.”

StatPop - Popularização da Estatística

segunda-feira, 10 de agosto de 2020

Como pensar como um epidemiologista

Um comentário: