terça-feira, 7 de abril de 2020

Como prever pandemias/epidemias?


A postagem de hoje vinha sendo amadurecida ao longo das últimas semanas mas sua publicação agora foi motivada por acontecimentos recentes e também pelo este texto, escrito pela pesquisadora Zeynep Tufekci, registrada na foto acima, professora de uma universidade americana de prestígio. Ela pesquisa justamente o efeito na sociedade de novas tecnologias, como as associadas a Big Data. 

Gostei do texto. De certa maneira, ele traduz de forma mais cientificamente defensável algo que venho achando. O texto se concentra em modelos epidemiológicos e na relevância de uma boa especificação dos seus parâmetros. Mas isso não é tudo!

Tanto as abordagens que ela critica quanto a crítica que ela faz sofrem do mesmo mal. Ambos assumem que esses parâmetros são estimados sem erros e basta pluga-los nos modelos. Feliz ou infelizmente, toda estimação tem erro e saber quantifica-lo é fundamental para saber o nível de certeza que se pode emprestar a uma estimativa e às suas consequências, como decorrência matemática inevitável.

Essa é a parte que os epidemiologistas não vão tão bem. Os modelos epidemiológicos usados são baseado em incorporação de vários aspectos de uma epidemia. Isso é tipicamente feito através de equações diferenciais e existem parâmetros dentro dela para caracterizar diferentes aspectos (taxa de infecção, taxa de recuperação, etc). Esses parâmetros não são conhecidos e seus valores tem muita influência quantitativa nos resultados. 

Assim, elementos auxiliares são usados para acessar a especificação desses parâmetros mas a correta incorporação dessa incerteza em modelos já complexos mesmo se esses parâmetros fossem conhecidos é muito longe de trivial. Os bons epidemiologistas conseguem se salvar com boas especificações de cenários alternativos. O texto da Profa. Tufekci ilustra um pouco desse problema no contexto de um relatório técnico do Imperial College e de toda a fama e imediata controvérsia que ele adquiriu após a sua divulgação. 

Os modelos nos quais estou trabalhando, e que espero reportar resultados aqui em breve, tem muito menos teoria por trás. Mas são baseados em explicação diretamente para dados observados e não indiretamente para o sistema que se supõe rege-los.  Nesse sentido, tem uma preocupação mais concreta com aquilo que podemos assumir como certo.

Infelizmente, essa matéria prima básica está vindo contaminada por imperfeições de diversos tipos no caso do Brasil e seus vizinhos. O país está registrando uma quantidade muito grande de casos suspeitos, muito maior que os números de casos confirmados. Muitos desses não estão sendo testados e portanto não podem ser considerados casos confirmados. Mesmo os poucos suspeitos que estão sendo testados tem demorado muito a ser incorporados aos sistemas pela demora na obtenção de resultados. Os testes estão levando em torno de 2 semanas para terem seus resultados revelados. 

Para mitigar esse problema estão sendo importados milhares de testes chamados rápidos pois fornecem o resultado em poucos minutos. Isso resolveria o problema mas vários questionamentos sobre a qualidade e adequação desse teste estão sendo levantados. Mas estaremos tentando  podemos obter afirmações mais precisas para países com sistemas de informação mais estruturados com paises da Europa e Asia.

Um comentário:

  1. Oi Dani, concordo.

    A maioria dos modelos epidemiológicos têm ignorado a incerteza, não são todos, existem modelos muito bem feitos com um MCMC por trás combinando a teoria matemático epidemiológica relacioanda com a doenca e dados de casos. Mas a grande maoria das pessoas usando modelos compartimentais do tipo SIR nao fazem isso, no máximo induzem a incerteza dos parametros do modelo usando Monte Carlo, eu mesmo fiz isso na época da Zika para estimar o R0 no Rio de Janeiro.

    Parte da justificativa para nao fazer um modelo estatístico mais robusto é a qualidade do dado, o dado mais atualizado sofre de atraso, para a covid a definicao de caso ainda é somente via resultado de teste, o teste não é perfeito, dá pra listar bastantes complexidades que é mais fácil ignora las e ficar gerando cenários.

    Eu sou muito mais data-driven, cheguei a estudar e usar modelos compartimentais, mas sempre que posso uso modelos estatísticos, que aprendi com um pessoal muito bom :) Mas como falei, a grande maioria das vezes o nosso dado é pobre, e cheio de problema. E basicamente o que tenho feito é tentar adequar/desenvolver modelos que se adequem as especificidades dos problemas que aparecem.

    Vamos seguindo!

    ResponderExcluir