terça-feira, 14 de julho de 2020

Atualizações na pandemia e no projeto CovidLP


O projeto CovidLP foi descrito aqui há algumas postagens. Desde então muita coisa aconteceu dentro e fora do projeto com relação à Covid19. Gostaria de falar aqui sobre algumas delas. Elas envolvem novas manifestações da pandemia e a resposta do projeto a elas, bem como outras novidades do projeto. Procurarei descrevê-las aqui na medida do seu relacionamento com o projeto.

O primeiro e mais importante aspecto dessa pandemia é o afastamento do padrão estabelecido para pandemias/epidemias. Normalmente uma epidemia apresenta um comportamento de aumento de casos seguido de um decréscimo nos casos. Esse padrão segue a lógica do crescente aumento da infecção devido ao maior número de suscetíveis, seguido do decréscimo decorrente da diminuição desse último número. Entretanto, esse padrão tem sido quebrado pela mudança no nível de isolamento. Com o relaxamento do isolamento, novos grupos de suscetíveis se expõe ao contágio, permitindo uma nova onda de crescimento. Essa epidemia já havia exibido esse comportamento em alguns poucos países. O caso mais vistoso era o do Iran. Neste momento, que vários países já encerraram um seu (primeiro?) ciclo, estamos vendo esse ressurgimento de crescimento de contagens em uma série de países, como Estados Unidos.

Um fenômeno aparentemente similar tem sido observado em alguns países. Se o país é muito heterogêneo, o comportamento da pandemia em suas diferentes regiões tem diferenças marcantes. O início da pandemia varia muito temporalmente. No caso do Brasil, a pandemia começou pelos estados de Rio de Janeiro e São Paulo, onde estão situados os principais pontos de entrada de estrangeiros no país: os aeroportos. Além disso, o próprio formato do crescimento depende de políticas de testagem e, principalmente de políticas de isolamento, sobre os quais as decisões em esfera estadual tem grande relevância. Apesar de diferentes, esse fenômeno pode ter uma expressão em número de casos e de mortes muito parecida com a que identificamos com os fenômenos descritos no parágrafo que o antecedeu. Eles são são usualmente denominados de 2a onda.   

A forma mais simples que pode ser usada para representar matematicamente essa 2a onda, ou mais geralmente qualquer onda adicional, é a inclusão de uma curva logística adicional na formulação do modelo. Embora conceitualmente simples, a implementação dessa idéia não é tão simples quanto parece. O maior problema advém da dificuldade do modelo saber separar as 2 curvas que se somam para descrever uma única série temporal observada. Várias tentativas estão sendo adotadas para permitir essa identificação e estão sendo testadas. Espero poder reportar sobre elas em breve. 

Outro aspecto relevante a ser considerado é a correta especificação da variabilidade dos dados. O projeto CovidLP vem utilizando a especificação Poisson, por ser a mais natural para lidar com contagens. Entretanto, experimentos realizados com os dados dessa epidemia mostram que a variabilidade dos dados tem se revelado muito maior que a permitida pela Poisson. Faz-se necessária uma especificação que permita essa sobredispersão. Existem várias opções disponíveis na literatura estatística, incluindo a mais conhecida: a binomial negativa. Entretanto, todos os experimentos realizados até agora apontaram para uma especificação que, embora mais adequada em termos de ajuste, tem levado a previsões com muita incerteza. Após poucos dias a frente, os intervalos que refletem a incerteza das previsões ficam tão largos que praticamente tornam inócua qualquer inferência. Tentativas de minimizar o tamanho da incerteza, sem chegar à estreiteza dos intervalos oriundos da Poisson, ainda estão em curso.

Outro aspecto que tem sido muito comentado por aqueles que tem trabalhado com dados da pandemia é a dificuldade de obter estabilidade nas sucessivas projeções que são rotineiramente feitas e de atribuir confiabilidade nas previsões a longo prazo. Efetivamente, tem sido observadas mudanças constantes nas estimações não apenas pela pouca robustez dos modelos utilizados. As condições sobre as quais se desenvolve a pandemia em muitos países tem exibido flutuações consideráveis o que torna previsões de longo prazo ainda mais incertas. Uma busca na literatura mostra que essa não é uma prerrogativa dessa pandemia. Críticas à performance de modelos de previsão para epidemias tem sido publicadas. A fala do reitor da UEM ao fim de minha palestra a essa universidade ajuda a entender porque as projeções seguem sendo usadas apesar de todas as ressalvas. Ele essencialmente disse que as previsões não são feitas para indicar o caminho mas tão somente para jogar luz sobre ele.

A disseminação do projeto deu origem a vários instrumentos de interações com a academia e a sociedade. De fato, o projeto foi feito para isso. O aplicativo já deu origem a um site e um blog. O site divulga aspectos associados ao aplicativo, como detalhamento da metodologia, instruções para melhor compreensão dos resultados (ilustrado na figura acima) e repercussões na sociedade (mais sobre isso no próximo parágrafo). O blog serve como um espaço para interação mais direta com os usuários. Embora ainda subutilizado, ele serve para ouvirmos sugestões e até críticas. 

Vários convites para apresentações do aplicativo foram feitos para a equipe responsável. Além disso, houve interesse para utilização dos resultados em algumas instâncias oficiais, tanto a nível municipal quanto a nível estadual. Esperamos poder atingir ainda mais secretarias de saude municipais e estaduais espalhadas pelo país.

A mais recente ferramenta a ser disponibilizada é o pacote. Ele vem atender uma demanda que rotineiramente recebemos de usuários, interessados em analisar as regiões de seus interesses pessoais.  ele está sendo desenvolvido com descrição, exemplos e ajuda. Esperamos que essa facilidade tenha o potencial de angariar uma maior utilização dessa ferramenta.

terça-feira, 30 de junho de 2020

Navegar ao sabor do vírus*


Navegar ao sabor do vírus
Abrimos mão de controlar a pandemia e o vírus está nos levando para onde deseja

por Fernando Reinach,  Professor Titular da USP

Navegar ao sabor do vento significa içar vela e deixar que o vento nos leve para onde soprar. É abrir mão de comandar o futuro. O Brasil está navegando ao sabor do vírus. Abrimos mão de controlar a pandemia e o vírus está nos levando para onde deseja. Talvez mais lentamente do que poderia, pois não levantamos completamente a vela: lavamos as mãos, usamos máscaras e fazemos um mínimo de isolamento. Sem dúvida estamos caminhando em direção à tragédia, mas em câmera lenta, e não temos planos para retomar o controle. É a consumação da estratégia que chamei em 9 de maio de imunidade de rebanho por incompetência.

Ao sabor do vírus a pandemia no Brasil só terminará quando atingirmos a imunidade de rebanho, o único mecanismo biológico conhecido que inibe a propagação do vírus sem intervenção humana. Navegar ao sabor do vírus pode custar a vida de até 1% dos contaminados. A imunidade de rebanho geralmente ocorre quando 70% a 80% da população suscetível tiver sido infectada. Talvez ocorra antes, mas chegaremos lá antes de a vacina estar disponível. Isso é quase uma certeza. Quais são as evidências de que navegamos ao sabor do vírus? O gráfico abaixo, cortesia do meu amigo Cal, mostra nossa rota desde a chegada do vírus no Brasil.


No eixo vertical estão os números de novos casos por dia, por milhão de habitantes, em cada um de quatro países. Os dados diários foram plotados como uma média móvel de sete dias. O Brasil registra hoje por volta de 150 novos casos, a cada dia, por milhão de habitantes (sem contar as subnotificações), um número maior que os 90 registrados nos Estados Unidos. No eixo horizontal estão os dias que se passaram desde que cada país registrou um caso por milhão de habitantes. Isso ocorreu quando o Brasil registrou 220 novos casos por dia, os EUA, 330, o Reino Unido, 66, e a Itália, 60.

É fácil observar como a Itália, após um crescimento rápido do número de casos por dia, impôs um lockdown rigoroso após o dia 30 e tomou controle do barco. Passados 90 dias, estava com a pandemia sob controle. O Reino Unido demorou para responder e o lockdown veio mais tarde. Mas desde o dia 60 conseguiu reduzir o número de novos casos por dia. Os EUA também se assustaram com o crescimento rápido dos novos casos, implementaram um lockdown nas principais cidades, conseguiram estabilizar o número de novos casos, mas quando começaram a tomar pé da situação relaxaram o distanciamento social. Os resultados da abertura são gritantes, o crescimento rápido do número de novos casos por dia já está ocorrendo.

O mais impressionante é o barco brasileiro. Medidas brandas de distanciamento social retardaram o crescimento da pandemia, que cresceu lenta e livremente por 80 dias. Quando as medidas estavam começando a fazer efeito, veio o relaxamento do distanciamento social e a pandemia voltou a crescer mais rapidamente do que antes, totalmente fora de controle.

O pior no Brasil é que simplesmente não temos um plano para controlar esse crescimento. O exemplo mais claro dessa atitude é o anúncio da abertura das escolas no Estado de São Paulo. Ele deve ocorrer no início de setembro caso todas as áreas do Estado estejam com níveis de propagação classificadas como verde já no início de agosto. O problema é que não foi anunciado simultaneamente um plano capaz de garantir que o Estado de São Paulo atinja essa condição no início de agosto. Sem executar algum plano seguramente não chegaremos lá, pois São Paulo está batendo todos os dias os recordes de novos casos por dia e número de mortes por dia. Ou seja, as escolas não abrirão em setembro se o governo cumprir o que decretou.

Até agora as medidas anunciadas são inócuas para controlar a pandemia. Oferecer mais leitos de UTI ajuda os pacientes graves, o que é importante, mas não diminui o número de casos. E esse aumento tem limite, que eram respiradores, mas de agora em diante serão profissionais da saúde capazes de atender um número crescente de leitos. Liberar gradativamente as atividades ao menor sinal de desocupação de leitos vai seguramente na direção oposta do controle, pois cada liberação significa levantar um pouco mais a vela desse barco que navega ao sabor do vírus.

E a testagem em massa? Ela tem sido um fracasso em nosso Estado e em todo o País. Os governos sequer detalham o que significa esse termo e como ele pode levar ao controle da pandemia. O número de testes de RT-PCT, que detectam pessoas durante a fase em que estão transmitindo o vírus, e podem ser usados para isolar pessoas que estão transmitindo a doença, são executados em número ínfimo. Pululam iniciativas governamentais baseadas em testes sorológicos, que, sabemos muito bem, somente identificam pessoas que já passaram pela fase crítica da doença e já contaminaram quem deveriam contaminar. São inúteis para controlar a doença e uma bênção para o vírus.

Em suma, não existe nenhuma medida em andamento que tenha alguma chance de reverter o andamento da pandemia nos próximos meses. Nenhuma.

A impressão é que nossos governantes esperam por algum milagre, alguma intervenção divina que provoque a diminuição do espalhamento da doença de maneira mágica, sem que eles tenham de executar algum plano que tenha embasamento científico. Como a fração da população já infectada ainda é baixa, não existe nada no horizonte que vai conter o crescimento diário do número de novos casos em 2020. Estamos navegando ao sabor do vírus com a vela a meio mastro.

* - texto publicado no dia 27 de junho de 2020 n'O Estado de S.Paulo

terça-feira, 23 de junho de 2020

As estatística da Estatística no CNPq - parte IV

Minha 3a e última postagem da série As estatística da Estatística no CNPq teve uma discreta inclusão da palavra epílogo, seguida de um preocupante sinal de interrogação. Não sei ao certo porque inclui esse sinal. Afinal, metade dos pesquisadores de Estatística que não tiveram suas solicitações de bolsas de pesquisa aprovadas inicialmente e entraram com recurso acabaram tendo sua solicitação aprovada. Talvez o fato de que, mesmo havendo essa concessão por parte do CNPq, a área de Estatística tivesse continuado a ter perdas bem maiores que as outras áreas fosse o responsável pelo alerta ter permanecido ligado. Ironicamente, um artigo recente de uma das pesquisadoras que não teve seu pedido de bolsa aprovado acaba de receber um prêmio internacional pela excelência científica de um artigo recente.

As decisões tomadas naquele Edital não desagradaram apenas à Estatística. Um abaixo assinado contendo críticas ao CA-MA (comitê da Matemática que engloba a avaliação da Estatística) foi apoiado por centenas de pesquisadores (muitos deles bolsistas do CNPq) das áreas desse comitê. Uma das maiores críticas foi a pouca relevância atribuída ao histórico profissional dos solicitantes. De fato, muitos pesquisadores experientes de todas as áreas desse comitê não tiveram seus pedidos aprovados em uma primeira instância embora alguns lograram recupera-las após a fase de recursos. Mas a quantidade de bolsas das outras áreas não sofreu perdas tão significativas quanto a Estatística.

No texto que segue, procurarei elencar possíveis explicações, à luz das informações disponíveis. Para isso, adotarei a convenção de designar as outras áreas do CA-MA como Matemática. Isso facilitará a compreensão da diferença que vem havendo com respeito à Estatística neste comitê do CNPq.

A explicação é facilitada ao tomar como base um Edital do CNPq, lançado na semana passada. Esse Edital estabelece as regras para a avaliação dos pedidos de bolsa de produtividade em pesquisa. Junto ao Edital foi disponibilizado um anexo com as regras específicas de cada Comitê de área. Em particular, o CA-MA estabeleceu uma série de parâmetros. Os mais importantes são:
  1. a avaliação terá 1 nota para cada pedido e essa nota é atribuida em 2 etapas;
  2. na nota da 1a etapa, o peso da produção científica é de 60%, o peso das orientações é 30% e o peso do projeto de pesquisa é de 10%;
  3. cada artigo científico é alocado a 1 de 5 grupos que são ponderados com pesos 36, 16, 5, 2 e 1 de acordo com o periódico de publicação e os livros publicados tem pesos 16 (autor) e 4 (coletânea); 
  4.  a 2a etapa terá uma análise qualitativa que pode alterar em até 30% a nota dada na etapa 1, levando em conta aspectos mais gerais de toda a história profissional do candidato à bolsa.
Ficam claras a prevalência da produção científica e a grande ênfase dada aos níveis superiores dos periódicos, critérios que parecem prerrogativas aceitáveis do comitê. A introdução explícita da 2a etapa no Edital também parece aceitável e contempla críticas contidas no abaixo-assinado supracitado. Para avaliar a produção científica, foram listados no Edital 462 periódicos sendo 52 de Estatística e 410 de Matemática. Um levantamento feito pelo Prof. Marcos Prates, do Departamento de Estatística da UFMG, mostra os seguintes resultados

Proporção de periódicos de cada categoria de avaliação
Área
G1
G2
G3
G4
G5
Total
Estatística
7,7%
3,9%
38,5%
32,7%
17,3%
100%
Matemática
9,8%
19,5%
23,9%
34,2%
13,7%
100%

A tabela acima mostra que:
  • as chances de um periódico qualquer de Matemática estar na categoria superior G1 são superiores às chances de um periódico de Estatística estar nessa categoria. Voltaremos a esse ponto a seguir;
  • as chances de um periódico qualquer de Matemática estar na 2a categoria G2 são 5 vezes maiores que as chances de um periódico de Estatística estar nessa categoria. Esse resultado é consequência da classificação feita pelo CA-MA. Ele expressa a percepção do comitê que enquanto 30% dos periódicos de Matemática estão nos 2 primeiros e melhores níveis, menos de 12% dos periódicos de Estatística atingem esses níveis; 
  • a categoria seguinte G3, que tem peso ainda menor, apresenta uma concentração bem maior de periódicos de Estatística em relação à Matemática. Isso ajuda a entender o destino do deficit de periódicos de Estatística nas 2 categoria mais relevantes pois as últimas 2 categorias apresentam proporções similares para as 2 áreas.
Além disso, vale notar que:
  • o numero de periódicos de Matemática no nível G1 é 8 vezes maior e portanto o seleto grupo de periódicos de melhor nível oferece uma cesta de possibilidades de publicação muito maior para os matemáticos do que para os estatísticos. 
  • considero benvinda a formalização da 2a etapa dentro do Edital mas algumas reuniões recentes deste CA-MA não tiveram a participação de representantes da Estatística. Essa contextualização qualitativa fica muito difícil de ser feita por quem não é da área. Uma eventual repetição dessa ausência poderia implicar desvantagem de até 30% para estatísticos;
  • vários periódicos de Estatística (e possivelmente de Matemática também) não estão na lista que consta no Edital. Quero crer que o CA-MA promoverá a classificação desses possíveis periódicos posteriormente e provavelmente, isso seria feito dentro dos mesmos critérios que levaram à classificação disponibilizada no Edital, já similar à usada no Edital anterior, que já vimos estar relacionada a um pior desempenho de uma área em relação à outra. Mas isso não foi dito no Edital, possibilitando várias outras hipóteses e aumentando a incerteza.
Apesar dos esforços tentados pela comunidade de Estatística junto ao CNPq, tudo isso tem levado um compreensível desânimo e uma razoável dose de preocupação. Parece que esses esforços serviram apenas no curto prazo para apoiar os recursos interpostos mas foram pouco efetivos em imprimir uma mudança nas regras que permitisse à Estatística uma melhor sorte no médio e longo prazo. Vale informar que no meio desse processo, houve a troca de presidência do CNPq, o que não ajudou a interlocução dos anseios da área através da estrutura do CNPq.

A solução no curto prazo para boa parte das dificuldades da Estatística é muito simples: igualdade de condições! A tabela acima e as análises feitas a seguir deixam bem claro como fazer isso. A Estatística não quer nenhum favorecimento. Mas ela também gostaria de ser reconhecida como ela é: uma área do saber diferente de outras áreas como a Matemática. A linguagem principal da Estatística ainda é a Matemática mas sua combinação com o tratamento de sua matéria prima, os dados a serem analisados, produz um campo do conhecimento fundamentalmente diverso. Além disso, elementos específicos da área e de Computação tem desempenhado um papel cada vez mais imprescindível. Boa parte do mundo desenvolvido já reconhece essa diferenciação há algum tempo: Matemática e Estatística andam juntos quando convém a ambas e separados em outra fração do tempo.  Assim, é fundamental que no mínimo haja a presença de um estatístico para a adequada avaliação de projetos dessa área.

Do jeito que está, os movimentos recentes do CA-MA apontam um futuro preocupante para a pesquisa em Estatística no Brasil. Os jovens pesquisadores, que representam o futuro de qualquer área, em qualquer lugar do mundo sabem que precisam batalhar mais que os pesquisadores já estabelecidos para ter acesso a oportunidades similares. Isso é até esperado. O que fica difícil para os jovens estatísticos entenderem é que deverão perder oportunidades para outros pesquisadores igualmente (ou menos) qualificados simplesmente pelo fato de serem da Estatística. A parceria com a área de Matemática, que foi tão importante no passado para o crescimento da área de Estatística no Brasil, não parece estar tendo um efeito benéfico nesses últimos anos. O resultado poderá ser sombrio não só para a área mas também para o país, com evasão interna e externa de pesquisadores cujas formações tanto custaram. E o mais triste é isso acontecer em um momento onde a Estatística está se mostrando ser uma ferramenta fundamental para o bem estar da humanidade.

terça-feira, 16 de junho de 2020

A batalha dos dados da pandemia


A postagem da semana passada deixou clara uma preocupação de vários setores da sociedade com respeito à divulgação dos dados da pandemia aqui no Brasil. Essa controvérsia ficou mais explícita com uma série de pronunciamentos de autoridades do Ministério da Saude (MS) no início de junho. A entrevista coletiva de sexta feira (05/06/2020) deixou clara a intenção do MS de introduzir mudanças mais profundas no tratamento dos dados da pandemia. Nessa entrevista, foi informado que o horário de anuncio dos dados diários seria mudado, quase ao mesmo tempo que o Presidente Bolsonaro celebrava o fato dessa medida impedir a divulgação pelos principais telejornais do pais. Essa relevância insólita dada ao horário com que um dado publico seria divulgado, associando-o à sua divulgação pela mídia em detrimento dos prejuízos causados por esse atraso acendeu o alerta em todos envolvidos com a pandemia.

Outro problema apenas mencionado na entrevista daquela sexta-feira e cuja implementação foi confirmada na 2a feira se referia à mudança na natureza do dado que passaria a ser divulgado. Para entender o que foi dito, vale informar que:
  1. o padrão internacionalmente adotado pela vasta maioria de países ao redor do mundo é o de divulgar a cada dia os números de casos confirmados e óbitos que foram notificados naquele dia;
  2. tendo esses números, basta soma-los aos números acumulados anteriormente para obter os totais reportados.
Com isso, existe uma forma clara e simples de toda a informação ser disponibilizado e verificada. Todos sabemos que essa forma de contagem não é a ideal pois desloca as reais ocorrências, que representam mais vividamente a pandemia, para datas posteriores quando elas se tornam disponíveis para o aparato oficial do pais/estado/município. 

Como exemplo, quando um país divulga 100 casos confirmados em um dado dia, sabemos que apenas uma parte deles foi confirmado nesse dia. A título de ilustração, vamos supor que 60 casos foram confirmados nesse dia mas que 15 foram confirmados no dia anterior, 10 foram confirmados 2 dias antes, 5 foram confirmados 3 dia antes e 10 foram confirmados mais de 3 dias antes. Vários motivos diferentes podem levar a esses atrasos, desde a ausência do profissional responsável pelo registro do caso até falha na comunicação entre hospitais e instituições governamentais.

Claro que buscando a história de cada caso, é possível a cada dia reconstituir os históricos dos dias anteriores e revisá-los. Essa tarefa está longe de ser trivial, ainda mais em um país onde se tarda horas para realizar a tarefa muito mais simples de receber os dados compilados em uma esfera (por exemplo, municipal) e agrega-los na esfera hierarquicamente superior (no exemplo, seria a estadual).

Pedir para que a cada dia, toda a história pregressa de contagens seja revisada é uma missão repleta de perigos, que deveriam ser a todo custo evitados. E isso sem contar na facilidade de manipulação que essa retro-alimentação enseja. Assim, embora reconhecendo a ascendência técnica no número de casos ocorridos, as dificuldades práticas são determinantes em todo o mundo na preferência da divulgação de casos notificados.

Todo esse longo prólogo foi para dizer que na entrevista coletiva do MS no dia 08/06/2020, autoridades do MS disseram que a divulgação seria trocada pela sistemática de divulgar apenas dos casos ocorridos diários, sem a divulgação do total de casos acumulados. Essa informação trouxe enorme preocupação sobre a indisponibilização (e consequente perda) das contagens totais de casos e óbitos. Para chegar a ela, se precisaria voltar às contagens anteriores, que também não foram disponibilizadas, embora tivesse havido a menção que isso seria feito. Como nesse dia também houve a interrupção da divulgação das séries históricas de casos e de óbitos, ficou impossível recuperar os totais e os valores diários dos dias anteriores. Naquele dia, o Brasil perdeu a capacidade de saber seus totais de casos e de óbitos com base no portal do Governo Federal criado exclusivamente para esse fim. 

Essa decisão do MS repercutiu de forma muito negativa no país e a mídia registrou inúmeras manifestações de preocupação e repúdio. Essas manifestações não se restringiram ao país e foram registradas também pela mídia internacional. Com a ausência de informação confiável, vários iniciativas foram disparadas. Instituições públicas se movimentaram na direção de suprir a lacuna deixada pelo MS. Anunciaram a criação de portais com dados atualizados da Covid o Conselho Nacional de Secretários Estaduais de Saúde, e a intenção de fazer o mesmo foi anunciada pelo próprio Congresso nacional e pelo Tribunal de Contas da União! Isso sem contar várias iniciativas de grupos de indivíduos que já vinham acompanhando a evolução da pandemia.  

Um grupo de importantes jornais de circulação de âmbito nacional também resolveu promover sua própria contabilização de casos e de óbitos. E as contagens que esse consórcio jornalístico apresentou tinha diferenças marcantes com respeito às contagens divulgadas naquele dia pelo MS com números maiores, como esperado. Entretanto, apesar de toda a boa vontade, essa contabilização apresentou alguns dos vícios que esses mesmos jornais reclamavam da contabilização oficial. A saber, não houve divulgação ampla do conteúdo dessa plataforma, ela não foi disponibilizada e os dados que foram divulgados a critério dos jornais envolvidos apresentavam apenas uma parcela da informação que o MS já apresentava. Tentamos contato com alguns jornalistas envolvidos nessa plataforma mas não obtivemos êxito.

Paralelamente a isso, no dia seguinte (09/06/2020), o órgão máximo da justiça do pais, Supremo Tribunal Federal (STF), determinou que o MS voltasse a divulgar os totais de casos e de óbitos, atendendo a uma interpelação proposta por 3 partidos políticos. A imagem que abre esta postagem destaca o ministro que emitiu essa ordem. Apesar de um tanto estranha por exigir que o governo continuasse cumprindo seu papel de informar a nação os dados que coleta, ela talvez tenha sido determinante na manutenção da divulgação dos dados. Nesse mesmo dia, o portal do MS promoveu uma atualização nas definições dos dados lá divulgados mas paradoxalmente manteve a definição anterior de casos confirmados como sendo todos aqueles notificados, contrariamente ao que havia sido dito para todo o país a cúpula do MS no dia anterior. 

Talvez isso já tenha sido uma reação direta do cumprimento da determinação do STF. De fato, ao final do dia, as contagens apresentadas pelo MS foram substancialmente mais altas, até mesmo que as divulgadas pelo consórcio de imprensa, indicando que possivelmente houve um retorno à sistemática anterior. Entretanto, não houve comunicado oficial do MS, atualmente comandado interinamente por um general da ativa tido por alguns como tendo zero experiência em saúde, dando conta que a mudança anunciada no dia anterior tinha sido descartada. Ainda nesse mesmo dia, esse mesmo ministro interino da Saúde garantiu perante o Congresso Nacional que os dados seguirão sendo todos divulgados e que uma nova plataforma seria apresentada no dia seguinte. A plataforma divulgada no dia seguinte apresentava alguma mudança de forma e uma descrição mais detalhada das contagens diárias, sempre compatível com o padrão de divulgar notificações e não ocorrências.

Passada uma semana daquele trágico dia para a contabilização da pandemia, a situação parece ter se normalizado. O MS segue divulgando como antes os totais diários de casos confirmados e óbitos que foram notificados naquele dia, embora no fim de semana houve interrupções. As iniciativas de grupos independentes seguem ativas; parte deles já estavam acompanhando a pandemia bem antes desse incidente. As contagens do consórcio de jornais continuam sendo divulgadas até hoje mas não acredito que durem muito mais tempo. Felizmente, parece que foi só um susto mas que serviu para deixar toda a nação bem mais atenta e com isso desestimular iniciativas de mudanças incompatíveis com o padrão adotado no resto do mundo. O governo já recebeu o recado que imprimir mudanças mais profundas como as que chegaram a ser anunciadas não impedirá o país de se informar adequadamente sobre a evolução da pandemia seguindo o padrão mundial. Só lhe servirá para dificultar a obtenção dos dados corretos. Esperemos que a lição tenha sido aprendida.

terça-feira, 9 de junho de 2020

Carta Aberta ao Ministério da Saúde


O Ministério da Saúde do Brasil mudou na última sexta feira a forma de apresentação dos dados da Covid19 em seu portal. Essa modificação foi bastante abrangente e envolveu uma série de modificaçações. Houve reações de vários setores do Brasil e pelo mundo. Transcrevo abaixo a manifestação pública do Departamento de Estatística da Universidade Federal de Minas Gerais datada do dia 07/06/2020 a respeito dessas mudanças. Como ficou claro na entrevista coletiva de ontem (08/06/2020), as mudanças são mais abrangentes do que muitos haviam entendido mas isso será objeto de postagem posterior complementando o conteúdo da carta abaixo.

Carta Aberta ao Ministério da Saúde

A base do avanço da humanidade e da democracia está centrada na disponibilização da informação ao alcance de todos, da forma mais simples e abrangente possível. Isso é ainda mais verdadeiro nos dias de hoje. Com isso a sociedade, tendo acesso a várias fontes de informação, fica mais qualificada para formar sua opinião perante os fatos e tomar suas próprias decisões. 

Tão logo se deu a chegada da pandemia ao Brasil, o Departamento de Estatística (DEST) da UFMG, ciente de sua missão de prover informação qualificada para a sociedade, deu início a uma série de projetos voltados para a compreensão e análise desse fenômeno histórico, nos seus aspectos quantitativos. Importantes parceiros nessa tarefa foram os ministérios de saúde de todos os países do mundo que, em variados níveis de aprofundamento, disponibilizam toda a informação oficial disponível. Assim pudemos desenvolver projetos de organização e visualização de dados, análises da influência dos diferentes níveis de isolamento social para a evolução da doença e previsões de curto e longo prazo para número de casos e mortes devido à pandemia. Baseado nas previsões obtidas, tem sido possível prever cenários em termos de pico e fim da pandemia e totais de casos acometidos e de óbitos, tanto para o Brasil e seus estados, quanto para vários outros países. Com isto, o DEST cumpre sua função primordial de prestar serviços relevantes para a sociedade brasileira.

O Ministério da Saúde do Brasil é um dos nossos principais parceiros nessa tarefa e vem fornecendo informação sobre vários aspectos da pandemia. Porém, nos últimos dias, o atraso na divulgação da informação e a constante mudança na formatação dos dados disponibilizados vem causando dificuldades nos sistemas estruturados desenvolvidos pelos pesquisadores do DEST. 

Particularmente com relação à última modificação, realizada na data de 04/06/2020, foi introduzida uma formatação que causou prejuízos substanciais nos sistemas acima mencionados, interferindo de forma incisiva na sua capacidade de adaptação a essas modificações. Como exemplo, os dados de casos e óbitos novos que eram fornecidos em arquivos de fácil utilização passaram a ser fornecidos apenas como texto no sitio do Ministério, sem nem mesmo oferecer a possibilidade de captura a partir da tela. Assim, os dados só podem ser utilizados após sua digitação de forma manual, o que causa grande atraso na realização das nossas análises. Uma consequência imediata dessa modificação feita pelo Ministério da Saúde foi a imediata exclusão do Brasil da plataforma criada pela Universidade Johns Hopkins [NR: ilustrada na imagem acima]. Esse é um dos repositórios de dados da Covid19 mais respeitados e utilizados no mundo. O DEST mesmo faz frequente uso dessa plataforma nas suas análises comparativas com outros países. 

A outra mudança prejudicial, referente ao atraso sistemático na divulgação dos dados no portal do Ministério da Saúde, também tem forte impacto sobre as análises realizadas no DEST. Diferente do que ocorre em vários países, os dados brasileiros vêm tendo sua divulgação sucessivamente atrasada. Desta forma nossas análises, que vinham sendo realizadas ao longo da madrugada devido ao grande esforço computacional requerido, só podem ser concluídas, e os resultados liberados, na parte da tarde do dia seguinte. Assim, nossas previsões, que antes eram disponibilizadas no início do dia, só estão sendo conhecidas poucas horas antes da divulgação do seu valor verdadeiro. 

Medidas como essas só causam desconfianças e suspeitas nos diferentes agentes que trabalham com esses dados, prejudicando o planejamento das ações de combate à pandemia. Estas ações em nada contribuem para um resultado positivo para o país, tanto em termos sanitários quanto econômicos, implicando ainda em falta de credibilidade do país na comunidade internacional

Sendo assim, o DEST-UFMG vem exortar o Ministério da Saúde a retornar à formatação anterior, que tanto benefício vinha trazendo para todos aqueles envolvidos nas diuturnas tarefas de promover esclarecimentos tão importantes sobre a pandemia para a sociedade brasileira. Além disto, solicitamos também que a informação não seja disponibilizada em horário tão tardio, para que a informação produzida pelo DEST possa ser utilizada de forma adequada.
 

Belo Horizonte, 07 de junho de 2020 


Profa. Glaura da Conceição Franco  
Chefe do Departamento de Estatística - UFMG

terça-feira, 26 de maio de 2020

Devemos fazer previsões da pandemia?


Semana passada participei de 2 eventos (virtuais) para apresentar trabalhos sobre a pandemia de Covid19, conforme divulgado aqui. O primeiro evento foi uma entrevista para o canal no YouTube do Ciência no Bar, cujo anúncio ilustra esta postagem. Ciência no Bar é uma iniciativa de um grupo de jovens e animados pesquisadores de Ecologia baseados em Florianópolis, com o objetivo de popularizar a Ciência, similar ao que fazemos no StatPop voltados para a Estatística. Assim, consistia em um debate menos formal voltado para um publico mais diversificado. Já o segundo evento foi uma mesa redonda promovida pelo Programa de Pós-Graduação em Estatística de São Carlos, no estado de São Paulo. Assim, ela naturalmente envolvia um aporte mais técnico para o assunto, para uma platéia esperada de conhecedores do assunto.  

Ambos eventos deixaram algumas lições importantes que gostaria de compartilhar aqui neste espaço. Algumas dessas lições foram verbalizadas durante a mesa redonda mas passei algum tempo refletindo sobre os eventos ao longo do fim de semana. E é sobre essas reflexões que queria aproveitar o espaço aqui para reverberar.

A primeira lição é que o trabalho da Estatística é muito mais reconhecido e respeitado pela sociedade do que a comunidade estatística mundial, e especialmente a nacional, parece perceber. Essa pandemia trouxe essa redenção para a área e a Estatística parece estar resgatado seu lugar de grande destaque nas discussões sobre a análise de dados da pandemia. 

Entretanto, parece-me que boa parte dos estatísticos parece não se dar conta dessa situação. Grande parte do esforço quantitativo dessa pandemia está diretamente associado às tarefas de organização e apresentação dos dados. Isso só vem justificar todo o esforço dos últimos anos que muitos pesquisadores da área vem empregando na geração de conhecimento em visualização de dados. Muitos estatísticos ainda não parecem entender que essa também é uma área nobre do conhecimento e que tem grande valor.

Relacionado a esse ponto, vem a constatação que aquilo que para os estatísticos é considerada uma obviedade muitas vezes só consegue ser explicado ao publico leigo depois de um razoável esforço de apresentação. Isso vale para visualização de dados mas para vários outros aspectos de manuseio da matéria prima fundamental do estatístico: os dados.   

Outro ponto é a dificuldade que todos estamos presenciando de se fazer previsões sobre a evolução dessa pandemia. Inúmeros pesquisadores mas também curiosos tem utilizados seus conhecimentos para gerar um sem número de propostas para prever diferentes aspectos associados à pandemia. E como todos estamos vendo, há uma variação substancial de resultados a respeito da mesma quantidade de interesse. 

E essa variação é perfeitamente compreensível dados o baixo grau de compreensão que temos dessa doença e a diversidade de abordagens usadas para embasar as diferentes previsões. A mesa redonda redonda que participei apresentou algumas delas. Isso suscitou o inevitável questionamento sobre a validade do exercício de previsão nesse contexto. Devo deixar claro que acho o questionamento totalmente pertinente, como meu paragrafo anterior testemunhou. 

Uma frase mencionada algumas vezes durante a mesa redonda foi a célebre "todos os modelos são errados mas alguns são úteis", proferida pelo famoso estatístico George Box. Ela pontua como deve ser a atuação de qualquer estatístico mas também serve para descrever a atuação de qualquer pesquisador ou mesmo profissional ligado a modelagem. A arte da modelagem está na escolha mais apropriada possível dentro da cesta de possibilidades oferecidas ao cientista.

Novamente aqui se observa a introversão de muitos estatísticos, que preferem não apresentar suas contribuições preditivas por conta da descrença na capacidade dos modelos fornecerem informação útil. Acho que existe uma razoável compreensão na sociedade da dificuldade da tarefa de previsão. Além disso, enquanto os estatísticos não ocupam o seu lugar no cenário de predição, outros profissionais menos qualificados para essa tarefa ocuparão. Finalmente, existe um grande interesse de todos por esse tipo de resultado.

Entendo que, sendo uma questão envolvendo Estatística, o estatístico tem a missão de dar sua contribuição por mais distante do ótimo que ela se situe. Ela vai provavelmente ter erros mas talvez erre menos do que boa parte das outras previsões. E recolocaria as contribuições do estatístico no lugar que elas devem ocupar: de proeminência em questões associadas a previsões na presença de incerteza.

terça-feira, 19 de maio de 2020

Sir Adrian Smith anunicado como próximo presidente da Royal Society*

Alan Turing Institute

Parabéns ao ex-presidente da RSS Sir Adrian Smith, que agora é presidente eleito da Royal Society, assumindo o cargo de presidente em 30 de novembro de 2020.

Estatístico de muita distinção, Sir Adrian liderou várias instituições líderes mundiais, como a Queen Mary Universidade de Londres, onde foi Diretor Geral (1998-2008) e a Universidade de Londres, onde foi Reitor  (2012-18). Ele é diretor atual e diretor executivo do Alan Turing Institute.

Ele também trabalhou em estreita colaboração com o governo; foi diretor geral de conhecimento e inovação no Departamento de Negócios, Inovação e Habilidades (agora BEIS) de 2008 a 2012. Em 2002-4, ele liderou uma investigação sobre o ensino de matemática pós-14 e, em 2016-18, liderou uma revisão do ensino de matemática para jovens de 16 a 18 anos, ambos do Departamento de Educação.

Sir Adrian ganhou a Medal Guy em Bronze e Prata da RSS e foi o Presidente do RSS de 1995-97. Na lista de Honras do Ano Novo de 2011, ele recebeu da realeza britânica o título de Sir.

Sir Adrian Smith disse que é uma "grande honra pessoal" ser eleito presidente da Royal Society. "Estou consciente de que, sejam quais forem os contextos sociais, políticos e econômicos, nacional e internacionalmente, sempre foi a missão histórica da Royal Society ser a voz e o promotor da ciência", disse ele. "Nosso foco agora deve estar na forma mais eficaz de definir e cumprir essa missão para enfrentar os desafios sem precedentes dos próximos anos".

Houve 61 presidentes da Royal Society desde que foi fundada em 1660 e Sir Adrian é o primeiro estatístico, pelo menos no sentido moderno. Outros matemáticos notáveis ​​que ocuparam o cargo incluem William, Visconde Brouncker, Isaac Newton, William Spottiswoode, George Gabriel Stokes e Michael Atiyah.

* Texto publicado no boletim da RSS no dia 11 de maio de 2020

terça-feira, 12 de maio de 2020

Divulgação de trabalho científico: o caso do CovidLP


A esta altura, todos já devem ter ouvido ou lido aqui sobre o CovidLP, o aplicativo com o qual estou envolvido para previsão de curto e de longo prazo para a Covid19 no Brasil e em alguns outros países. Um pouco da história da criação do aplicativo foi contada aqui. Quase tão importante e demorado quanto o desenvolvimento em si do projeto é a sua divulgação para a sociedade.

Essa é uma arte de outra natureza que estou apenas aprendendo a dominar. Um ponto importante que pode parecer óbvio mas me tomou algum tempo a perceber é que a forma é, no mínimo, tão importante quanto o conteúdo da divulgação. A equipe envolvida no projeto já tinha consciência da importância da forma na construção do aplicativo. Muito esforço vem sendo empenhado em melhoramentos exclusivamente voltados para a apresentação dos resultados do CovidLP.

O que vem me chamando a atenção é que também na divulgação a mesma preocupação deve ser empregada. Inicialmente, a divulgação foi feita em forma de texto, explicando o que estamos fazendo e que tipo de resultados estamos obtendo. Após uma receptividade baixa para o que estavamos esperando, tentamos fazer a divulgação diretamente a partir dos resultados gráficos gerados pelo aplicativo. A aceitação e a empatia gerados nos nossos interlocutores aumentou substancialmente.

Dentro da comunidade científica, já tivemos contato de um Forum de Ciência e Cultura de uma universidade, fomos convidados para participar de uma mesa redonda de outra universidade e fomos convidados para falar em um grupo informal de divulgação científica. Assim, considero que a penetração de nosso trabalho no meio acadêmico esteja adequada.
 
Mas ainda estamos longe de ter o nosso projeto ao alcance de toda a sociedade brasileira e de parte da sociedade mundial. E seguimos trabalhando para isso. Já tivemos membros da equipe participando de um programa de radio de Minas. Essa participação levou à publicação de uma matéria em um jornal de grande circulação dentro do estado de Minas. Sabemos que ainda é muito pouco. Mas alguns sinais apontam uma possível disseminação de nosso trabalho: nosso aplicativo foi recentemente objeto de divulgação pela mídia japonesa!

terça-feira, 5 de maio de 2020

Cuidados com analises de dados da Covid19

Fonte: arquivo pessoal (Leonardo Bastos)

por Leonardo Bastos*

Eu recomendo muita cautela ao interpretar as estimativas e previsóes desses e da grande maioria de modelos para covid. O grupo do Fergunon é um grupo muito bom de modelagem de doenças infecciosas, o relatório do Samy [NR: Dana] e colaboradores é baseado em um trabalho do pessoal do Imperial. Apesar dos modelos serem interessantes, a inferência para vários países é muito pobre. Os dados de casos não refletem a dinâmica da epidemia mas a dinâmica da testagem, e a definição de casos atual não é consistente entre países e nem dentro dos países, pois não há critérios de inclusão e exclusão de casos bem definidos. Em particular no Brasil, a partir de um certo momento passou a dar prioridade aos casos graves, mas ainda alguns lugares notificam casos leves, o que faz os números serem uma mistura de dados sem uma definição do caso.

Mais alguns problemas:

Homogeneidade espacial. O Brasil, como todos sabem muito bem, não é homogêneo (suposição importante para modelos compartimentais). A epidemia do Brasil não pode ser vista como uma série única, isso não faz sentido. Em qualquer país grande, a epidemia começa em momentos distintos em lugares diferentes. Então não haverá um único pico da epidemia, o pico da série do Brasil vai ser dominada por São Paulo e Rio, mas outros lugares terão suas curvas com um shift e com intensidade bem variadas pois muito lugares tem politicas de enfrentamento da epidemia bem distintas. Lugares que conseguiram antecipar o isolamento estão evitando a evolução rápida, outros lugares que não tiveram politicas de isolamento ou agiram tarde demais estão com um rápido crescimento de casos colocando o sistema de saúde no limite. E mais adiante quando a curva começar a descer em São Paulo e Rio, a série está em plena ascensão em outros lugares.

Testes não são perfeitos. Os testes não tem especificidade e sensibilidade alta, pois eles dependem muito da janela imunológica ou da carga viral, depende do teste. Ou seja, a pessoa pode ter tido Covid19 e o teste dar negativo porque a coleta aconteceu fora da janela ótima. 

Subnotificação. Para falar de subnotificação é preciso ter uma definição clara do que é o caso. E os dados disponíveis não tem essa definição. Mas vamos supor que a definição de caso é simplesmente alguém com o virus. É fácil ver que teremos subnotificação de casos assintomáticos e casos leves que as pessoas não vão procurar um posto de saúde (nem deveriam, pois não tem o que fazer a não ser espalhar o virus para outros, uma vez que não tem nenhum tratamento específico), já os casos graves não tem jeito as pessoas precisam de atendimento médico. E esses  podem não ser testados (gerando subnotificação), ter resultados negativos ou inconsistentes por conta da janela imunológica do teste. E ainda tem a subnotificação de óbitos por Covid19 de pessoas que não procuram serviço medico. Esse subregistro pode ou não ter um padrão, existem trabalhos nessa linha cito aqui dois artigos com autores brasileiros: de Oliveira, Loschi e Assunção (2017, Statistics in Medicine) e Stoner, Economou e da Silva (2019, JASA).

Atraso de notificação. Se estiver olhando para dados reportados hoje, tenha certeza que o numero de casos é maior do que o observado. Pois existem os casos que aconteceram mas ainda nao foram reportados. Usualmente tem o atraso da digitação do caso que pode levar alguns dias ou semanas. (Alguns postos de saúde nao tem internet, a ficha de notificação costuma ser levada para um lugar e nesse lugar ela é digitada e enviada para a secretaria de saúde, q vai tratar o dado excluindo duplicidade por exemplo já que a ficha pode ser digitada duas ou tres vezes por profissionais diferentes). E para a Covid19 temos o atraso de laboratório, onde os LACENS estão com filas para realização do teste, sem contar com falta de insumos e pessoal. Existem modelos para corrigir atraso de notificação.

Esses são só alguns problemas existentes no terreno das doenças infecciosas. Não tinha intenção de escrever esse email, pois não gosto de exposição, mas achei justo compartilhar alguns problemas relacionados a essa (e outras epidemias) pois sei que muitos grupos no país ligados a departamentos de Estatística estão tentando contribuir de alguma forma com essa terrível pandemia, talvez isso possa ajudar de alguma forma.

* - Leonardo Bastos é pesquisador da Fiocruz e Ph.D. em Estatística pela Universidade de Sheffield.

quinta-feira, 30 de abril de 2020

Previsão de curto e longo prazos da Covid19 - parte II


A postagem desta semana saiu com atraso para poder noticiar a publicação em forma completa do aplicativo de previsão da Covid19 que estamos desenvolvendo. A forma está completa porque pela primeira vez foi possível a inclusão das principais funcionalidades que gostaríamos de tornar publicas. O aplicativo pode ser acessado aqui. Ele será atualizado diariamente com a divulgação de novos dados e ainda está em desenvolvimento, onde esperamos poder incluir outras funcionalidades e aprimorar as já existentes.

Esse aplicativo é o resultado de um trabalho conjunto de professores e alunos de pós-graduação em Estatística da UFMG. Ele teve origem como um desafio em uma disciplina de pós-graduação após a suspensão das aulas devido à Covid19. O que foi iniciado com o objetivo de manter os alunos motivados e em atividade foi crescendo, ganhando forma, incorporando sugestões e recebendo a participação de outros alunos e professores, até chegar ao formato de um aplicativo disponível para uso pelo público em geral. 

Na configuração atual, o aplicativo tem 2 principais tipos de resultado: previsões de curto prazo e de longo prazo. O primeiro se refere a previsões de mortes e número de casos confirmados para o futuro imediato (até 1 a 2 semanas). Esse tipo de resultado é útil para se saber o que virá pela frente e saber o que esperar da pandemia.

O segundo tipo de previsões é mais abrangente e visa traçar um panorama mais completo da pandemia. Perguntas típicas nesse contexto são: quando o número de casos deixará de crescer e começará a decair? quantas pessoas essa pandemia irá adoecer? quando podemos esperar que a pandemia seja encerrada. Todas essas perguntas só podem ser respondidas a partir de uma visão global de todo o processo pandêmico. A previsão de longo prazo ajuda a quantificar esse panorama.

Todas as perguntas listadas acima estão respondidas de forma numérica no aplicativo. Assim, quem visitar as previsões para Pernambuco verá que o pico da pandemia nesse estado deverá ocorrer entre os dias 31 de maio e 20 de junho com 95% de probabilidade. Quem visitar as previsões do número total de casos para o Brasil verá que espera-se entre cerca de 500 mil e 600 mil casos confirmados. E quem visitar as previsões para o México verá que a pandemia terá acometido 99% da população mexicana (e portanto estará perto do fim) apenas daqui a 5 meses, entre 04 e 18 de outubro deste ano. Mas que, para a população alemã, o fim está bem mais próximo; mais precisamente entre 15 e 22 de maio.

Nossas previsões são sempre acompanhadas dos respectivos intervalos de probabilidade (ou credibilidade, no jargão estatístico) para que o usuário tenha sempre noção da verdadeira incerteza associada a cada previsão fornecida. Outro ponto importante é que essas previsões são sempre baseadas na manutenção das condições no dia em que a previsão foi feita. Possíveis alterações nas condições incluem tornar o isolamento mais rigoroso ou, por outro lado, ele ser abolido. Essas alterações podem causar mudanças substanciais nas previsões. Outro ponto importante é que novos dados chegam todo dia e impõe atualizações constantes nas análises. Isso também pode causar mudanças em diferentes aspectos das previsões.

A nossa abordagem para previsão é basicamente empírica, usando apenas os dados observados como fonte de informação. Nossas análises são baseadas em modelos estatísticos que tem por base a curva logística. Essa curva descreve um crescimento que começa intenso e vai desacelerando progressivamente até chegar ao seu limite. Esse comportamento é a base do que se espera de toda epidemia/pandemia. Inúmeras variações estão sendo testadas para acomodar mudanças nas condições, como já exemplificamos, existência de uma maior dispersão que a esperada pelos modelos usuais e generalizações da curva em questão. Todas essas possibilidades vem sendo exploradas com vista a uma melhor descrição do fenômeno sendo observado. 

Esperamos estar apresentando um apanhado útil do que todos, enquanto sociedade, podemos esperar dessa pandemia que tanta interferência vem causando nas vidas de todos nós e que possamos deixar todos um pouco mais informados do que esperar pela frente. 

terça-feira, 21 de abril de 2020

Um guia do estatístico para os números de coronavírus*


Durante esta pandemia do COVID-19, você ouvirá ou lerá sobre muitos números diferentes. A sociedade britânica de Estatística (RSS) existe para ajudar o público a entender melhor as estatísticas. Preparamos este pequeno guia para ajudá-lo neste momento difícil e incerto.

Pontos chave

- O número de casos confirmados será menor que o número de casos reais.

- As comparações de números de casos e óbitos entre países podem não ter significado.

- Os modelos produzem estimativas com faixas plausíveis. Esses modelos podem nos ajudar a entender os efeitos prováveis das políticas.


Palavras que você poderá ver e ouvir

Um caso confirmado com COVID-19 significa uma pessoa com um resultado positivo para o vírus. Um caso confirmado estará ativo se a pessoa ainda estiver infectada: ela não se recuperou ou morreu. Uma morte no COVID-19 significa um caso confirmado que morreu.

A taxa de mortalidade de casos é o número de mortes dividido pelo número de casos confirmados. Isso também é chamado de taxa de fatalidade de caso.

A taxa de transmissão é o número esperado de infecções diretas em um caso. É também chamado de número reprodutivo básico.

A taxa bruta de mortalidade é o número de mortes como proporção de toda a população. Os pesquisadores calculam essa taxa para diferentes regiões e países.

O que você precisa considerar

O número de casos confirmados será menor que o número real de casos. Algumas pessoas infectadas não apresentam sintomas. Ter sintomas consistentes não é suficiente para um diagnóstico confirmado. Pessoas com sintomas consistentes podem não fazer o teste do vírus.

O teste não é perfeito. Os países diferem em suas regras em relação a quem faz o teste para o COVID-19 e quais testes eles usam. Às vezes, um teste diz que uma pessoa infectada não possui o vírus. Regras de teste, capacidade e qualidade afetam o número de casos confirmados.

Comparações de casos confirmados entre países são desafiadoras. Diferentes países têm diferentes demografias, políticas de saúde, estruturas sociais e culturas. Os países têm diferentes regimes de teste, que podem mudar com o tempo. Os países também podem estar em diferentes fases da epidemia. As disparidades entre países em casos e mortes podem resultar em parte dessas diferenças.

Trate a taxa de mortalidade de casos com cautela. Há incerteza sobre o número de casos e mortes. Casos leves e sem sintomas podem passar despercebidos. Novos casos podem não atingir recuperação ou morte por vários dias ou semanas. Os sistemas de saúde podem registrar uma morte por COVID-19 como pneumonia ou outra causa. Futuras mortes daqueles já infectados não são incluídas no cálculo atual.

As taxas de transmissão descrevem médias. A taxa de transmissão mede a rapidez com que uma doença se espalha. Algumas pessoas podem infectar mais ou menos outras pessoas. Isso depende do comportamento, frequência de contato, biologia, chance e outros fatores.

O crescimento exponencial não pode continuar para sempre. Como exemplo, uma pessoa tem o vírus. Eles passam para três pessoas, que por sua vez passam para nove outras pessoas. Agora, existem 13 casos. Este é um crescimento exponencial nos casos. O crescimento exponencial é uma fase de uma epidemia. Continuar essa tendência simples é inadequado para previsões de longo prazo. Quanto mais pessoas se recuperam ou morrem, menos pessoas podem pegar o vírus. Em algum momento, o número de novos casos deve começar a diminuir.

Os modelos transformam valores inseridos em estimativas. Para usar um exemplo simples, um modelo usa uma taxa de transmissão e produz uma estimativa do total de mortes. Um cientista pode atualizar o modelo para refletir novos conselhos de saúde pública para ficar em casa. Eles fazem isso diminuindo a taxa de transmissão em seu modelo. Essa taxa de transmissão mais baixa leva a uma estimativa de morte mais baixa do modelo. Essas duas entradas representam dois cenários diferentes.

Modelos diferentes têm propósitos diferentes. Após novos dados e discussões, os cientistas atualizam suas suposições e modelos. Modelos que produzem estimativas diferentes podem ser consistentes entre si.

A modelagem envolve muitas camadas de incerteza. Há incerteza sobre a rapidez com que o vírus se espalha e quantas pessoas se recuperam. A incerteza flui através desses modelos. À medida que os cientistas observam mais informações, as estimativas se tornam mais precisas.

Devemos focar em faixas plausíveis de valores, em vez de um único número.

O que precisamos saber

A confiança nas estatísticas públicas é vital. A desinformação pode prejudicar a saúde das pessoas.

Por favor, verifique suas fontes antes de compartilhar estatísticas.

Se um número não parecer correto, verifique se uma organização confiável relatou esse número.

Uma estatística pode não contar a história toda. Notícias e postagens em mídias sociais podem apresentar números fora de contexto.

Os gráficos podem enganar. Verifique se há rótulos claros, que mostram de onde vêm os dados. Os gráficos devem representar os números de maneira proporcional.

Os dados constroem evidências. A evidência informa as decisões. A precisão é importante: impressa, na televisão e no rádio e on-line. Compartilhe estatísticas, não informações erradas.

* - texto publicado pela RSS aqui em 06 de abril de 2020

terça-feira, 14 de abril de 2020

Previsão de curto e longo prazos da Covid19


Como dissemos na postagem da semana passada, a correta compreensão da evolução da pandemia de Covid19 está longe de ser tarefa simples e tem trazido transtornos a todos. Também dissemos que estamos envolvidos em um grupo de trabalho visando previsão da evolução dessa doença para diferentes partes do mundo. Nosso objetivo é prever a curto e longo prazo. Vou tentar descrever qual é o nosso trabalho e acredito que as dificuldades dessa tarefa ficarão claras e ajudarão a entender porque nosso projeto ainda está em desenvolvimento.

Nosso ponto de partida foi uma abordagem extremamente simples. As equações que regem uma doença contagiosa tem como base o crescimento exponencial, baseado na lógica que cada indivíduo infecta outros tantos e que esses tantos infectam outros tantos e assim sucessivamente. Essa lógica funciona bem mas não resolve tudo porque a população é finita. Portanto, à medida que o tempo passa, fica cada vez mais difícil encontrar outros indivíduos para infectar (supondo que uma vez que um infectado é curado ele não pode ser reinfectado). Incorporando essa progressiva dificuldade de infecção ao modelo resulta em uma curva de crescimento do número total de casos é basicamente exponencial no início da epidemia seguida de um período de achatamento progressivo e eventualmente tendo um limite superior ao término da evolução. Esse comportamento é descrito matematicamente pela curva logística. Esse limite superior da logística é, na pior das hipóteses, dado pelo total de indivíduos suscetíveis na população. Mas na grande maioria das epidemias/pandemias, esse limite é substancialmente inferior à população total.

O caso da Covid19 não é diferente das outras epidemias contagiosas. Aqui o número de indivíduos suscetíveis é basicamente toda a população da região ou país. À medida que o tempo passa, os países vão de alguma forma se encaminhando para um limite superior. Isso já aconteceu com a China, como ilustra a figura acima. Poderíamos supor, como inicialmente fizemos, que a curva logística seria uma boa descrição dessa evolução. E foi essa a primeira abordagem que tentamos. Entretanto, várias questões se interpuseram.

A questão mais importante é que para o ajuste da logística funcionar seria preciso que todas as taxas de infecção, recuperação e mortalidade permanecessem imutáveis ao longo da pandemia. Isso é praticamente impossível porque vários fatores intervem. As taxas de infecção mudam porque o nível de isolamento da população (diretamente relacionado com a taxa de infecção) varia ao longo da evolução da doença. Além disso, os números utilizados são de casos confirmados e o processo de confirmação está longe de ser estático. Para isso, seria necessário que os sistemas de registro funcionassem à perfeição e que o estabelecimento da condição de doença para cada paciente fosse imediata.

Assim, estamos às voltas com alternativas que permitam a adequada caracterização dessa evolução. As alternativas que nos parecem caracterizar mais adequadamente as características acima listadas buscam aliviar a imposição da mesma curva logística para toda a trajetória da série de contagem de casos. Existem várias formas de promover essa adaptação em curvas em geral e na logística em particular. Nosso projeto visa encontrar a forma mais adequada para representar essa adaptação de forma adequada para todos os paises e estados.

Quando pronto, nosso aplicativo produzirá gráficos de previsão, como o que encabeça esta postagem. Também pretendemos usar as previsões no longo prazo para tentar prever o pico da epidemia e o número total de casos confirmados que cada país/região terá ao longo de todo o curso da pandemia. E todo esse procedimento será atualizado a cada poucos dias para muitos paises e todos os estados do Brasil. Nem preciso dizer que todos os resultados serão reportados com suas respectivas bandas de confiança ou credibilidade explicitadas. Isso é fundamental para correta avaliação do nível de precisão associado a cada afirmação sendo feita sobre a evolução desta pandemia. Estamos sentindo falta dessa componente da grande maioria da avaliações que vem sendo disponibilizadas 

No momento, ainda estamos em fase de desenvolvimento. Os resultados obtidos até então ainda não estão consolidados e provavelmente serão modificados. Por isso, acho prematuro direcioná-los para o aplicativo. Tão logo tenhamos resultados confiáveis, divulgaremos aqui no StatPop.

terça-feira, 7 de abril de 2020

Como prever pandemias/epidemias?


A postagem de hoje vinha sendo amadurecida ao longo das últimas semanas mas sua publicação agora foi motivada por acontecimentos recentes e também pelo este texto, escrito pela pesquisadora Zeynep Tufekci, registrada na foto acima, professora de uma universidade americana de prestígio. Ela pesquisa justamente o efeito na sociedade de novas tecnologias, como as associadas a Big Data. 

Gostei do texto. De certa maneira, ele traduz de forma mais cientificamente defensável algo que venho achando. O texto se concentra em modelos epidemiológicos e na relevância de uma boa especificação dos seus parâmetros. Mas isso não é tudo!

Tanto as abordagens que ela critica quanto a crítica que ela faz sofrem do mesmo mal. Ambos assumem que esses parâmetros são estimados sem erros e basta pluga-los nos modelos. Feliz ou infelizmente, toda estimação tem erro e saber quantifica-lo é fundamental para saber o nível de certeza que se pode emprestar a uma estimativa e às suas consequências, como decorrência matemática inevitável.

Essa é a parte que os epidemiologistas não vão tão bem. Os modelos epidemiológicos usados são baseado em incorporação de vários aspectos de uma epidemia. Isso é tipicamente feito através de equações diferenciais e existem parâmetros dentro dela para caracterizar diferentes aspectos (taxa de infecção, taxa de recuperação, etc). Esses parâmetros não são conhecidos e seus valores tem muita influência quantitativa nos resultados. 

Assim, elementos auxiliares são usados para acessar a especificação desses parâmetros mas a correta incorporação dessa incerteza em modelos já complexos mesmo se esses parâmetros fossem conhecidos é muito longe de trivial. Os bons epidemiologistas conseguem se salvar com boas especificações de cenários alternativos. O texto da Profa. Tufekci ilustra um pouco desse problema no contexto de um relatório técnico do Imperial College e de toda a fama e imediata controvérsia que ele adquiriu após a sua divulgação. 

Os modelos nos quais estou trabalhando, e que espero reportar resultados aqui em breve, tem muito menos teoria por trás. Mas são baseados em explicação diretamente para dados observados e não indiretamente para o sistema que se supõe rege-los.  Nesse sentido, tem uma preocupação mais concreta com aquilo que podemos assumir como certo.

Infelizmente, essa matéria prima básica está vindo contaminada por imperfeições de diversos tipos no caso do Brasil e seus vizinhos. O país está registrando uma quantidade muito grande de casos suspeitos, muito maior que os números de casos confirmados. Muitos desses não estão sendo testados e portanto não podem ser considerados casos confirmados. Mesmo os poucos suspeitos que estão sendo testados tem demorado muito a ser incorporados aos sistemas pela demora na obtenção de resultados. Os testes estão levando em torno de 2 semanas para terem seus resultados revelados. 

Para mitigar esse problema estão sendo importados milhares de testes chamados rápidos pois fornecem o resultado em poucos minutos. Isso resolveria o problema mas vários questionamentos sobre a qualidade e adequação desse teste estão sendo levantados. Mas estaremos tentando  podemos obter afirmações mais precisas para países com sistemas de informação mais estruturados com paises da Europa e Asia.