terça-feira, 23 de julho de 2019

Relato do IMPS 2019

Fonte: arquivo pessoal


Conforme prometido na última postagem, tratarei de fazer um relato de minhas impressões sobre o recém-encerrado encontro de 2019 da Psychometric Society. Devo começar dizendo que foi uma grata surpresa para mim ver a quantidade mas principalmente a diversidade de temas apresentados e tópicos cobertos. Quando conversei com o atual presidente da Psychometric Society, mencionei esse ponto a ele. Ele me informou que isso não foi um mero acaso mas um esforço consciente da sociedade na direção de temas mais variados que estão se relacionando com a Psicometria ou que possam a ela ser relacionados.

De qualquer modo, a imensa maioria dos participantes era composta de pesquisadores e profissionais vinculados às áreas sociais e humanas, notadamente Psicologia e Educação. Havia estatísticos tambpem mas eram claramente minoria na composição do evento.

Evidentemente, a maioria das apresentações versavam sobre os problemas usuais de psicometria, que se concentram em grande parte em modelos de teoria de resposta ao ítem e de equações estruturais. Entretanto, encontrei vários trabalhos interessantes em outras direções envolvendo temas atuais, como inferência aproximada para modelos incalculáveis e outros usos de técnicas de aprendizado de máquinas e redes neurais (profundas ou não). Tomei contato com vários usos interessantes de modelagem não-paramétrica para promover extensões de modelos usuais em diversas direções.

A palestra de abertura foi proferia por um psicometrista vinculado a um departamento de Psicologia (retratado na foto acima). O tema central da palestra foi a utilização de muitos modelos em inferência Bayesiana e o palestrante fez uma enfática defesa da abordagem conhecida como model averaging em oposição à model choice. Na 1a opção, faz-se inferência considerando todos os modelos contemplados, ponderados por suas respectivas probabilidades (a posteriori). Na 2a opção, utiliza-se algum critério (máxima probabilidade a posteriori, AIC, BIC, DIC, etc) para escolher um único modelo e fazer toda a inferência baseada neste modelo.

Um ponto que me chamou a atenção foi o estilo de algumas das apresentações, claramente com mais ênfase na forma (lúdica) da apresentação do que em seu conteúdo. Pareceu-me ser uma tendência mais associada à Ciência dos Dados, talvez por conta da vastidão de técnicas disponíveis e talvez menos no desenvolvimento propriamente dito dessas técnicas. As palestras mais técnicas que assisti claramente se inseriam em um estilo de apresentação mais convencional, com o qual estou mais acostumado. A palestra de abertura ficou em um formato híbrido, como a foto acima ilustra.

O evento teve cerca de 400 participantes representando 33 países. Houve apresentações para todos os gostos. Afora as conferências, que eram destacadas com no máximo 2 por horário, o grosso da programação consistiu de sessões paralelas de apresentações orais (6 a 8 sessões por horário) e em formato de poster. Assim, havia um cardápio bem variado com muitas pitadas de novidades tanto teóricas quanto de outras disciplinas bem como apresentações específicas de tópicos usuais de psicometria. quem queria ficar dentro do seu nicho, teve o que assistir e quem queria ver novidades também teve. O evento correu no Centro de Extensão da PUC do Chile, em um prédio histórico com um enorme claustro central, devidamente coberto para facilitar a climatização do ambiente. Esse enorme espaço livre foi muito bem aproveitado para os coffee breaks e os almoços, onde a organização forneceu saladas e sanduiches. Isso fomentou a possibilidade de mais interação entre os participantes.Eu mesmo me beneficiei com interessantes e proveitosas trocas de informação. 

Esses encontros ocorrem anualmente, em revezamento de continentes e o próximo já está agendado para os Estados Unidos. Se você tem interesse pelos avanços da área, faço uma forte recomendação para participar.

terça-feira, 16 de julho de 2019

IMPS 2019


A Psicometria é a área da Ciência que cuida da análise de dados provenientes de fenômenos das Ciências Humanas e Sociais. Análises de dados inevitavelmente envolvem a incorporação de incerteza e consequentemente a Estatística é uma componente muito forte de análises psicométricas. essa área tomou um impulso muito grande na 1a metade do século passado. Personagem fundamental desse avanço, Thurstone foi o criador de escalas de inteligência baseadas em análises fatoriais. Outro contribuinte muito importante para o avanço da área foi Frederick Lord, com seu trabalho de caracterização da Teoria de Resposta ao Ítem, já aludida aqui antes. 

Thurtstone fundou a Psychometric Society (sociedade internacional de psicometria) em 1935 e criou a Psychometrika, o periódico que até hoje é o principal meio de divulgação científica da área. Essa sociedade cresceu muito ao longo do tempo e vem realizando encontros anuais há um bom tempo. Ocorrerá ao longo desta semana a edição 2019 do International Meeting of the Psychometric Society (IMPS). Esse evento ocorrerá em Santiago do Chile e ocupará toda a semana.

Eu tenho trabalhos realizados na área, especialmente em Teoria de Resposta ao Ítem (TRI), que foram até apresentados em edições anteriores do IMPS mas por colaboradores. Além disso, fui criador, junto com Caio Azevedo, dos Congressos Brasileiros em TRI. Mas nunca tinha participado de alguma edição do IMPS. Essa lacuna estará sendo preenchida amanhã, quando darei minha conferência no evento.

Essa participação será paradoxal de uma certa forma, pois apresentará um estudo do efeito da poluição na saúde, já tratado aqui. (Curiosamente, a foto que ilustra a postagem sobre poluição foi tomada em um inverno de Santiago.)  Entretanto, o trabalho que irei apresentar é um exemplo de modelagem de dados através de estruturas latentes. Esse é justamente o enfoque principal da Psicometria: extração de fatores latentes para caracterizar traços latentes como inteligência ou nível de ansiedade em estudos psicológicos ou proficiência em estudos educacionais.

Apesar da diferença na área de aplicação da técnica estatística, ele é basicamente um conjunto de procedimentos eminentemente estatísticos. O foco da palestra será evidenciar as similaridades entre as aplicações, que levam ao uso de ferramentas similares. Claro que também explicarei as dissimilaridades, que caracterizam o efeito da poluição na saúde. Várias outras palestras do evento tratam de modelos similares tratando de relação entre variáveis a nível latente. Esse modelos são conhecidos como modelagem de equações estruturais (ou structural equation modeling).

Espero que a palestra seja compreendida assim pela platéia e seja uma contribuição útil para os participantes. Pretendo fazer um relato do evento em uma postagem futura.



terça-feira, 9 de julho de 2019

Novos cursos de Estatística com Ciência de Dados


O tema Ciência de Dados tem sido recorrente aqui no StatPop, sendo a última postagem no tema no início do ano. Desde então aconteceram eventos importantes nesse campo. Acho que estamos em um momento oportuno para voltar a falar sobre o tema. A diferença é que agora vamos nos concentrar em como o Brasil está reagindo a essa novidade na esfera acadêmica. Nesse particular, a única postagem que tenho lembrança foi a de uma breve menção em postagem feita há cerca de um ano.

Desde então juá temos registradas uma série de iniciativas a nível de pós-graduação recém criadas ou já existentes em diversas regiões do país. (A figura acima foi tirada da página inicial de uma dessas inciativas.) A maioria desses cursos me parecem ser a nível de especialização com duração de 1 a 2 anos. Essas inciativas são muito boas e tem refletido o carater interdisciplinar dessa área que vem surgindo, com efetiva participação de estatísticos, especialistas em computação e até matemáticos aplicados.

A pergunta que fica é: e a nível de graduação, como estão reagindo nossas instituições de ensino superior? Parece-me que vários cursos de graduação pelo país vem revisando suas grades curriculares para incluir mais elementos característicos dessa nova área. Os momentos mais impactados pela revisão costumam ser as disciplinas de Estatística Computacional, Modelos de Regressão e Análise Multivariada mas algumas disciplinas eletivas tem sido oferecidas. Esses movimentos tem sido realizados em maior ou menor grau em várias graduações de Estatística espalhadas pelo país, sinalizando uma salutar atualização do currículo oferecido aos alunos de graduação em Estatística.

O resultado será uma formação mais sintonizada com o que o mercado de trabalho está demandando das universidades. Certamente, os alunos que escolheram a carreira de Estatística sairão com uma formação mais atual. Mas com o que isso contribui com a crescente massa de alunos terminando o ensino médio e ansiosos por embarcar nessa nova, promissora e lucrativa carreira que se inicia? Minha impressão é que ajuda muito pouco pois, além de pouco conhecida, a carreira de Estatística não tem sido claramente conectada à Ciência dos Dados. Pelo contrário, parece-me que a Computação tem sido percebida mais próxima a ela que a Estatística.

Recentemente, fomos brindados com a ótima notícia de abertura de uma graduação já para início em 2020 na Universidade de São Paulo, no campus de São Carlos. Essa mudança me parece ir mais além do que foi descrito no parágrafo anterior. Além de uma atualização na grade curricular, essa proposta explicita no nome do curso uma inequívoca vinculação da já conhecida Estatística com a sua prima-irmã recém-chegada ao mundo Ciência dos Dados. Os alunos que ficavam sem resposta adequada no que diz respeito à Estatística. A inciativa da USP procura deixar clara a existência dessa vinculação.

Esse mesmo grupo de São Carlos não parou por ai. Já está em gestação a criação, junto com a Computação, de um curso de graduação em Ciência dos Dados. Nesse curso, volta a ficar oculta no nome a ligação Estatística-Ciência dos Dados mas só no nome. O curso terá uma forte componente estatística e, mais importante, trará os jovens que só se sentiram atraídos pela novidade mas que tem interesse pela base tecnológica ao mundo da Estatística.

Acho que essa duas inciativas descritas acima cumprem o mesmo papel de propiciar aos novos alunos opções que supram de forma adequada a necessidade de formação apropriada para fazer análises de dados (com ou sem maiúsculas no nome). Isso garante a merecida relevância da Estatística no cenário cada vem mais competitivo da formação universitária com vários cursos sendo criados para atrair e dar boa formação aos bons alunos.

Essa iniciativa vai dar certo e atrais mais bons alunos para a Estatística? Ainda é muito cedo para dizer mas tudo indica que sim. De todo modo, sou bastante simpático a esse tipo de movimento mais radical que vise dar a maior visibilidade possível à área em um momento tão delicado para o seu desenvolvimento. Estou na torcida para que dê certo. A Estatística merece!

terça-feira, 25 de junho de 2019

VI COBAL


Ocorreu na semana passada a 6a edição do Congresso Bayesiano da América Latina (COBAL). O evento foi organizado e aconteceu no campus central da PUC do Peru, em Lima. Esta edição contou com 137 participantes que, segundo informado, foi um recorde no número de participantes. O evento contou com 7 conferências, 3 minicursos, 11 sessões convidadas com 3 apresentadores em cada uma delas, 10 sessões de apresentações orais (com 3 a 4 apresentações por sessão) e 2 sessões posters (com 36 apresentações registradas). Contando apenas 1 apresentação por participante já dá um total de cerca de 115 participantes ativos.

A organização do evento seguiu diretrizes já adotadas na 5a edição do COBAL e todas as apresentações foram proferidas em português ou espanhol. Nenhuma apresentação pode ser feita em inglês mas todos os apresentadores dominavam bem ao menos uma das duas línguas. Apesar de um certo estranhamento inicial, todos mais acostumados com a língua semi-oficial da Estatística, o inglês. Aos poucos foi havendo uma adaptação de apresentadores e platéia e considero que esse esquema foi relativamente satisfatório para todos. Tivemos até brasileiros se aventurando no espanhol, língua da grande maioria dos participantes.

Essa restrição às línguas do evento pela organização teve influência direta na escolha dos conferencistas e outros apresentadores. Isso esteve muito longe de ser um problema e a qualidade dos apresentadores escolhidos foi de muito boa qualidade e antenada com a fronteira do conhecimento de Estatística no cenário mundial em diferentes temas. Vale ressaltar que todos esses apresentadores não eram apenas de países de línguas português e espanhol mas todos eram originários da América Latina. Infelizmente, fui o único conferencista afiliado a uma instituição latino-americana; todos os outros estão baseados em instituições de Estados Unidos e Europa. Mas foi muito bom saber que é possível realizar um evento de ótimo nível científico contando apenas com latino-americanos.

Conferência de encerramento do COBAL6 (Fonte: Flávio Gonçalves)

O evento também aproveitou a ausência de uma conferencista para realizar uma assembléia aberta a todos os participantes no espaço liberado na agenda. Essa assembléia teve como objetivo principal a formalização do processo de organização das próximas edições do COBAL. Depois de uma rápida discussão sobre a melhor forma de fazer isso, foi decidido cair uma sessão da ISBA voltada especificamente para a América Latina. Com isso, os COBALs poderiam formalmente passar a ser organizados por esse braço da ISBA, que é associação internacional voltada para a Estatística Bayesiana. Foi falado sobre a importância de estender o alcance da Estatística Bayesiana para todos os países da América Latina mas a formalização dessa sessão ainda será feita. 

As apresentações trataram de temas bastante variados com muita ênfase em análises de grandes massas de dados (big data), sendo boa parte deles provenientes de dados genéticos. Muitas das análises envolveram a identificação e formação de clusters (ou conglomerados) para identificação de padrões. Diferentes estratégias de aproximação para viabilizar a computação e processamento das massas de dados também foram apresentadas. Diferentes métodos para analisar dados sociológicos, com as inerentes dificuldades a certas definições dessa área, também forma apresentados. Outra área contemplada foi amostragem para lidar com diferentes formas de imputação de dados faltantes sob diferentes contextos. 

Vale destacar as ótimas instalações da PUC-Peru em um campus moderno, bonito, bem equipado e funcional. Como exemplo, podemos falar da mesa "infinita" que servia para os usuários do café no subsolo da biblioteca e do Ágora, interessante espaço de convivência (vide foto abaixo) do prédio de Ciências Sociais, onde ocorreu a maioria das atividades do encontro. A existência de vários cafés e restaurantes dentro do campus tornou muito agradável a estadia ao longo de todo o dia no congresso.

Ágora, prédio de Ciências Sociais (arquivo pessoal)

O saldo final do evento foi bastante positivo com um grupo de pesquisadores experientes apresentando visões abrangentes de algumas áreas, tendo por outro lado, um grupo de jovens pesquisadores apresentando contribuições de excelentes nível e densidade. Houve muita discussão de fundamentos e muita discussão de análise de dados, com boa participação de todos. Isso nos traz esperanças de manter (ou quem sabe até aumentar) o bom nível da produção científica em Estatística Bayesiana na América Latina.

terça-feira, 18 de junho de 2019

Estatística e consequências não-intencionais*

Karen Kafadar (Fonte: ASA)

por Karen Kafadar, presidente da American Statistical Association

Muitos anos atrás, Allan Wilks falou sobre as experiências que ele e Richard Becker e John Chambers (co-desenvolvedores de S, o progenitor de S-Plus e R) encontraram entre os usuários. Um de seus comentários permaneceu comigo todos esses anos. Ele ficou surpreso com as maneiras como o S estava sendo usado, formas que eles nunca imaginaram. “Por exemplo, uma pessoa ligou para dizer que S era incrivelmente lento. Tudo o que ele queria era uma matriz de identidade e levava meia hora. Fiquei intrigado; o comando diag (1000) leva uma fração de segundo. Acontece que ele estava criando a matriz com loops for: para (i em 1: 1000) {para (j em 1: 1000) {if (i == j) então A [i, j] = 1 else A [ i, j] = 0}}. Nunca nos ocorreu que as pessoas usariam nosso pacote dessa maneira”.

Recentemente, em reuniões de capítulos, conferências e outros eventos, tive a sorte de conhecer muitos dos nossos membros, muitos dos quais se sentem desconfortáveis ​​com os efeitos das opiniões divergentes sobre os p-valores expressos no suplemento de março de 2019 da The American Statistician (TAS). Os editores convidados - Ronald Wasserstein, Allen Schirm e Nicole Lazar - apresentaram a Declaração da ASA sobre p-valores ​​(2016) ao afirmar o óbvio: “Sejamos claros. Nada na declaração da ASA é novo. ”De fato, os seis princípios são bem conhecidos pelos estatísticos. Os editores convidados continuaram: “Esperávamos que uma declaração da maior associação profissional de estatísticos do mundo abrisse uma nova discussão e chamasse uma atenção renovada e vigorosa para mudar a prática da ciência com relação ao uso da inferência estatística”.

Os autores do suplemento de março de 2019 da TAS ofereceram mudanças. No entanto, como os editores notaram, “as vozes dos 43 artigos desta edição não cantam como uma só. … Para nós, estes são todos os sons de inferência estatística no século 21, os sons de um mundo aprendendo a se aventurar além de p <0,05”.

Um debate saudável sobre abordagens estatísticas pode levar a melhores métodos. Mas, assim como Wilks e seus colegas descobriram, conseqüências não intencionais podem ter surgido: não-estatísticos (o alvo da questão) podem estar confusos sobre o que fazer. Pior, “ao se libertar dos vínculos de significância estatística” como os editores sugerem e vários autores insistem, os pesquisadores podem ler o chamado para “abandonar a significância estatística” como “abandonar completamente os métodos estatísticos”.

Concordamos com a esperança dos editores de que “as estatísticas em ciência e política se tornem mais significativas do que nunca”. Desde que este recente suplemento da TAS apareceu, seus editores convidados estiveram ocupados viajando pelo país e respondendo a telefonemas para discutir e esclarecer os problemas com p-valores com o termo “significância estatística” e com “alternativas aos p-valores”.

Mas podemos precisar de mais. Como exatamente os pesquisadores deveriam implementar esse “novo conceito” de pensamento estatístico? Sem perguntas específicas, perguntas como “Por que se livrar de p-valores é tão difícil?” podem levar alguns de nossos colegas cientistas a ouvir a mensagem como “Abandonar p-valores”… apesar da declaração dos editores convidados: “Nós não estamos recomendando que o cálculo e o uso de valores-p contínuos sejam descontinuados”.

Brad Efron disse uma vez: "Aqueles que ignoram a estatística estão condenados a reinventá-la." Em seu comentário ("Não é culpa do p-valor") após a Declaração ASA de 2016 sobre p-valores, Yoav Benjamini escreveu: Declaração do Conselho sobre os p-valores pode ser lida como desencorajando o uso de p-valores porque eles podem ser mal utilizados, enquanto as outras abordagens oferecidas podem ser mal utilizadas da mesma maneira. ”De fato, p-valores (e todos os métodos estatísticos em geral) podem ser mal utilizados. (Assim podem carros e computadores e telefones celulares e álcool. Até mesmo palavras em inglês são mal utilizadas!) Mas bani-las não impedirá o mau uso; os analistas simplesmente encontrarão outras maneiras de documentar um ponto - talvez melhores maneiras, mas talvez menos confiáveis. E, como escreve Benjamini, os p-valores resistiram ao teste do tempo em parte porque oferecem “uma primeira linha de defesa contra serem enganados pela aleatoriedade, separando o sinal do ruído, porque os modelos requeridos são mais simples do que qualquer outra ferramenta estatística”- especialmente agora que o bootstrap de Efron se tornou uma ferramenta familiar em todos os ramos da ciência para caracterizar a incerteza nas estimativas estatísticas.

Conceitualmente, razões de verossimilhança (LRs) e modelos Bayes hierárquicos e distribuições de probabilidade (nas quais os modelos LR e Bayesiano são baseados) são adições úteis aos p-valores. Mas eles também têm incerteza. Além disso, tente explicar esses conceitos estatísticos para não-estatísticos. (Eu tentei. E todos nós também quando trabalhamos com cientistas não-quantitativos. O bootstrap é muito mais fácil de explicar.) Nosso desafio continua sendo explicar efetivamente esses conceitos para não-estatisticos.

No suplemento de março de 2019 da TAS, Ronald Fricker e seus colegas analisaram 31 artigos publicados em uma edição de 2016 da Basic & Applied Social Psychology (BASP) um ano após seus editores proibirem o uso de estatísticas inferenciais. “Encontramos várias instâncias de autores exagerando as conclusões além do que os dados suportariam se a significância estatística tivesse sido considerada. Os leitores seriam em grande parte incapazes de reconhecer isso porque as informações necessárias para fazê-lo não estavam prontamente disponíveis. ”Eles concluem:“ Em nossa opinião, as práticas que observamos nos artigos publicados na BASP pós-proibição não ajudarão a resolver este problema [inferência adequada]; na verdade, acreditamos que eles vão piorar. ”Fricker et al. também relembram as recomendações da Força Tarefa sobre Inferência Estatística da American Psychological Association (1999), que incluiu Donald Rubin, Frederick Mosteller e John Tukey: “Alguns esperavam que esta força-tarefa votasse para recomendar uma proibição definitiva do uso de testes de significância em revistas de psicologia. Embora isso possa eliminar alguns abusos, o comitê achou que havia contra-exemplos suficientes ... para justificar a tolerância”. 

Onde a mudança para um mundo além de p < 0,05 nos leva? Será que “as estatísticas em ciência e política se tornarão mais significativas do que nunca”, como os autores do TAS propõem? Ou levará a mais confusão, estudos menos interpretáveis ​​e mais associações reivindicadas como importantes, mas talvez não mais do que se esperaria de ter calculado milhares de coeficientes de correlação de Pearson? Se outras revistas citam publicações revisadas por pares em periódicos da ASA como justificativa para revisar suas políticas editoriais para banir valores de p, o núcleo de nossa profissão será ameaçado, e podemos não ver “estatísticas em ciência e política se tornando mais significativas do que nunca".

É reconfortante que “a Nature não está tentando mudar a forma como considera a avaliação estatística dos artigos neste momento”, mas essa linha está enterrada em seu editorial de 20 de março, intitulado “É hora de falar sobre o descarte da significância estatística”. Qual sentença acima será mais memorável? Podemos esperar para ver se outros periódicos seguem o exemplo da BASP e depois responder. Mas então voltamos ao modo "reativo" versus "proativo" (veja a coluna de fevereiro), que, antes de tudo, é como chegamos aqui.

De fato, o ASA tem a responsabilidade profissional de garantir que a boa ciência seja conduzida - e a inferência estatística é uma parte essencial da boa ciência. Dada a confusão na comunidade científica (à qual o suplemento do TAS 2019 revisado por especialistas da ASA pode ter contribuído de forma não intencional), não podemos nos dar ao luxo de relaxar. Afinal de contas, foi isso que nos colocou no caminho do "abuso de p-valores". (Veja a coluna de abril.) 

Em um manuscrito não publicado que ele gentilmente compartilhou comigo enquanto eu preparava essa coluna, Stephen Stigler sugere “Uma nova solução para a 'crise' no teste de significância: Leia Fisher!” Citando o clássico de Fisher, Planejamento de experimentos:
Para afirmar que um fenômeno natural é experimentalmente demonstrável, precisamos, não de um registro isolado, mas de um método confiável de procedimento. Em relação ao teste de significância, podemos dizer que um fenômeno é experimentalmente demonstrável quando sabemos como conduzir um experimento que raramente falha em nos dar um resultado estatisticamente significativo”.
Stigler conclui: “É claro que Fisher não teria considerado um limite diferente, mesmo um tão pequeno quanto 0,005, como uma solução para um problema. Também está claro que Fisher era um fervoroso defensor da ciência reproduzível”. E isso - reprodutibilidade - é o real coração do problema. (Veja o relatório recentemente divulgado pela Academia Nacional de Ciências, Reprodutibilidade e Replicação na Ciência.) Como disse Benjamini: "Não é culpa do p-valor”. 

Tukey escreveu anos atrás sobre os métodos bayesianos: “É relativamente claro que descartar técnicas Bayesianas seria um erro real; tentar usá-los em todos os lugares, no entanto, seria, a meu juízo, um erro consideravelmente maior. ”No contexto atual, talvez ele tenha dito: “É relativamente claro que confiar ou dispensar resultados baseados em um único p-valor seria um verdadeiro erro; descartar inteiramente os p-valores, no entanto, seria, em minha opinião, um erro consideravelmente maior”.

Devemos assumir a responsabilidade pela situação em que nos encontramos hoje (e nas últimas décadas) para assegurar que nossa metodologia estatística bem pesquisada e teoricamente sólida não seja abusada nem descartada categoricamente. Congratulo-me com suas sugestões de como podemos comunicar a importância da inferência estatística e a interpretação adequada dos p-valores para nossos parceiros cientistas e editores de revistas científicas de forma que eles entendam, apreciem e possam usar com confiança e conforto - antes de mudar políticas e abandonar completamente as estatísticas. Por favor, me envie suas ideias!

* artigo publicado em 1 de junho no boletim da American Statistical Association (ASA) .

terça-feira, 11 de junho de 2019

Ainda sobre os cortes no Censo de 2020...

Fonte: IBGE

A discussão sobre os cortes no orçamento do Censo 2020, a ser realizado pelo IBGE continuam gerando discussão. Essa discussão foi amplificada por alguns acontecimentos recentes. O mais importante foi o pedido de exoneração de 5 gestores do IBGE de seus respectivos cargo de liderança, entre diretores e gerentes. Todos são funcionários de carreira do IBGE, permanecerão na instituição mas sem cargos de comando e se exoneraram em um curto intervalo de tempo durante a semana passada. Vale lembrar que intempéries no censo não são uma novidade na nossa história; por conta de restrições orçamentárias do governo, o censo de 1990 só ocorreu em 1991.

A principal queixa de todos esses dirigentes e de boa parte do corpo de funcionários da instituição é a falta de discussão com a presidência do IBGE a respeito das reformulações necessárias para atingir a redução do orçamento para a realização do Censo ano que vem. A nova presidente do IBGE assumiu o cargo em fevereiro deste ano e não fazia parte do quadro de funcionários da instituição. Apesar de relativamente jovem, ela ostenta em seu curriculo uma boa formação acadêmica e uma razoável experiência em manuseio de dados públicos. Baseado na sua avaliação, a redução no orçamento não apresenta prejuízo à realização do Censo.

Os censos nacionais são realizados tipicamente com um questionário curto para toda a população, de forma a garantir seu carater de Censo, acoplado a um questionário mais extenso para uma pequena parcela da população, atualmente em torno de 10% da população. Embora ainda não tenha ficado claro o tamanho do corte, a idéia da instituição parece ser a de reduzir o número de perguntas do questionário longo e assim precisar de menos entrevistadores. Alguns ex-presidentes já se manifestaram publicamente sobre o corte. Minha impressão é que a maioria deles se posicionou contra mas há exceções, que apontam para a otimização dos recursos através da complementação da informação com resultados de várias outras pesquisas que o IBGE realiza. Isso aponta apenas uma possibilidade dentre as várias que aventei em postagem recente.

Uma questão que me parece relevante é a quantidade de treinamento e testagem que são necessários para a realização desse tipo de modificação em procedimentos que já foram de uma certa forma introjetados na memória da instituição. Isso é uma pergunta para os técnicos do IBGE. Uma resposta detalhada pode ser vista aqui. Acredito que essa não seria a primeira modificação nos padrões adotados no Censo.

O que me parece mais relevante aqui para nós é alguma espécie de quantificação das perdas que estão em jogo. Muito pouco tem sido dito a esse respeito e a discussão parece estar concentrada em retórica expositiva, o que dificulta um pouco a sua correta avaliação pela sociedade. É claro que qualquer diminuição no orçamento implicará em perdas e eu acho que está claro que o país sofre uma crise fiscal de grandes proporções. Esses dois fatos estão a meu ver em direta oposição. 

A decisão sobre alocação de recursos é uma prerrogativa da sociedade ou de seus representantes. Mas ela ficaria muito facilitada se fosse contextualizada em termos quantitativos. As manifestações que vi parecem centrar na importância que o Censo tem para a sociedade a ser recenseada, o que não me parece estar sendo questionado por ninguém. Um exemplo preparado por um experiente estatístico do IBGE pode ser lida aqui ou vista aqui. Essas apresentações poderiam se beneficiar com mais estudos sobre que perdas ocorrerão com a diminuição de perguntas e/ou com a diminuição do tamanho da amostra. Mas a quantificação dessas perdas ainda carece de mais divulgação para a sociedade. 

Essa discussão ainda terá vários outros desdobramentos e o cotexto político em que ela se desenrola está longe de ser tranquilo. O valor numérico dos cortes é bastante eloquente e esperamos que se procure esclarecer o que se perde em cada opção, de forma quantitativa. Quem ganha é a sociedade

terça-feira, 4 de junho de 2019

Para onde caminha a Estatística?

https://www.statslife.org.uk/newsletter/2019/conference-bulletin-30-5-19.html

Apesar do título abrangente, esta postagem é motivada por (e uma reflexão sobre) um assunto bem específico. Todos anos a Sociedade de Estatística britânica (RSS) realiza seu encontro anual para troca de informação e divulgação de novidades. Um dos aspectos mais importantes de um encontro científico é a sua lista de conferencistas convidados. Essa lista revela o tom que a organização pretende dar ao evento. E a relevância dessa lista é aumentada pela proeminância da RSS no cenário internacional. Junto com a sociedade de Estatística americana (ASA), são indubitavelmente as duas associações nacionais mais importantes, como já falamos aqui.

[Vale destacar que a ASA também realiza encontros anuais com os mesmos objetivos da RSS. Entretanto, a quantidade de associados da RSS é muito menor que a da ASA, refletindo as respectivas quantidades de profissionais e pesquisadores de Estatística nos 2 países. Como consequência, o encontro anual da ASA também é muito maior que o encontro anual da RSS. Isso faz com que seja muito mais difícil analisar as tendências gerais de eventos da ASA. Daí a nossa preferência nesta postagem pela mensagem do encontro da RSS.]

A lista de conferencistas do encontro da RSS de 2019, que acontecerá no início de setembro em Belfast apresenta 8 nomes. Desses 8 nomes, apenas 2 conferencistas ostentam aquele perfil tradicional de pesquisadores produtivos de Estatística. Outros 2 conferencistas são estatísticos que estão envolvidos com atuação em órgãos governamentais britânicos. Mas o maior contingente de conferencistas é de profissionais dedicados à comunicação e divulgação de dados, com perfil de jornalistas.

Essa preocupação com a forma de lidar de forma adequada com a crescente massa de informação disponível nos dias de hoje e a profusão em larga escala das chamadas fake news. O site da instituição de afiliação de um dos conferencistas enfatiza exatamente este último ponto, quado diz "sorting fact from fiction" (separando fato de ficção, em português).

Outro ponto que me chamou a atenção foi o direcionamento do evento a estatísticos e cientistas de dados. Em tempos passados não havia esse foco por se tratar de um evento obviamente voltado para estatísticos. O surgimento de Ciência de Dados parece ter trazido a preocupação de contar com profissionais e pesquisadores dessa nova área.

É oportuno pontuar que essas novidades não estão restritas à organização e à divulgação do evento. Uma inspeção ao programa do congressos nos outros trabalhos que estarão sendo apresentados mostra uma correspondência da sociedade britânica com o que dele espera ou imagina a diretoria da RSS. Vários das sessões de comunicações estão voltadas para comunicação de resultados e para ciência de dados. Obviamente também estarão presentes sessões de comunicações sobre tópicos mais tradicionais, como estatística médica, estatística para meio ambiente, teoria estatística, estatísticas oficiais, estatística para a industria e finanças.

A página do evento pode ser vista aqui.

A programação completa pode ser vista aqui.

terça-feira, 28 de maio de 2019

Gráficos dinâmicos

Fonte: Wawamustats

Grupos que participo em redes sociais tem me enviado videos de toda natureza, como acredito que aconteça com a maioria de nós. Acontece que recentemente recebi videos que considerei tão interessantes que acho que merecem uma postagem. Na realidade, esses videos se auto-denominam gráficos dinâmicos, o que me parece um nome mais moderno e apropriado. 

O que esse gráficos dinâmicos exibem é tão somente a evolução de gráficos de barras ao longo do tempo. Mas a forma como isso é feita também é interessante. A cada instante de tempo, um certo número de barras é apresentada, sempre ordenadas do maior para o menor. Isso faz com que se possa observar as diferentes mudanças na ordenação a cada instante de tempo, com os cruzamentos das barras. Como cada barra tem sua própria cor, é possível acompanhar as constantes mudanças. 

Além desses gráficos de barra dinâmicos, existem outras configurações possíveis, como retângulos mas acredito que as barras são a melhor forma de fazer comparações. Elas podem ser melhoradas, com a inclusão do valor do índice sendo medido, a inclusão da bandeira do país sendo representado, etc.

Um grupo particularmente prolífico na geração desses gráficos dinâmico se denomina WawamuStats. Você pode visitar os gráficos gerados pelo grupo no YouTube, onde também é possível fazer doações e adquirir status especial na visualização. Alguns exemplos do WawamuStats incluem o gráfico acima onde se pode acompanhar a ascensão e quada dos países em termos de produção (e riqueza) ao longo dos anos. É particularmente interessante ver a recente proeminência da China a partir da virada do século.

Um grupo de jovens bioinformatas seguiu caminho similar ao criar o CSBL.com. Lá são disponibilizadas inúmeras fontes de informação de Biologia Computacional. Esse grupo contem vários latinoamericanos e brasileiros e trata de todo tipo de divulgação científica, a partir de artigos.  Eles divulgam também material didático e congressos na área. Eles também produzem gráficos dinâmicos como os da Wawamu. 

Achei muito interessante o gráfico dinâmico que eles prepararam do número de artigos científicos associados às diferentes doenças. Particularmente interessante é observar a ascenção meteórica dos artigos sobre AIDS que começam a aparecer a partir de 1985, chegando a atingir o topo da lista em 1990, quando o tema de infecção por HIV começa a aparecer e supera AIDS cerca de 5 anos após e a partir daí AIDS despenca e chega a sair do gráfico. 

Eles lembram um pouco o Google Trends, que tem o propósito similar de falar sobre relevância de temas a partir de alguma forma de aparição. No caso do exemplo do CSBL, a relevância de uma doença era representada pela incidência de artigos sobre ela. No caso do Google Trends, a relevância de um tema é uma medida da incidência de menções sobre ele. 

Mas a grande vantagem dos gráficos descritos nos parágrafos anteriores com respeito aos exibidos pelo Google Trends é o seu aspecto dinâmico. Isso é fundamental para capturar as tendências temporais que eles apresentam em comparação com eventos similares, sejam eles a riqueza de um país no 1o exemplo ou importância de uma doença no 2o exemplo.

Recomendo a visita a esses gráficos e seus respectivos sítios na internet.

terça-feira, 21 de maio de 2019

Prêmio Mahalanobis




https://en.wikipedia.org/wiki/Prasanta_Chandra_Mahalanobis

O prêmio Mahalanobis é um prêmio concedido pelo International Statistical Institute (ISI) a cada 2 anos para um estatístico de um país sub-desenvolvido que tenha trazido contribuições importantes para o avanço da Estatística. Para nossa alegria, acaba de ser anunciado que o premiado deste ano será o chileno Reinaldo Arellano-Valle. Antes de falar sobre meu colega Reinaldo, é oportuno falar um pouco sobre quem foi Mahalanobis.

Prasanta Chandra Mahalanobis é um estatístico indiano que ficou muito conhecido pela definição de uma distância entre distribuições, que ele propos em 1936. Essa medida é muito utilizada para classificação de dados multivariados. Apesar da quase centenária, essa medida ainda é muito usada e serve pelo menos como base para alocação de observações de múltiplas medições em grupos ou conglomerados. 

Mas para a Estatística indiana, tão importante quanto essa distância foi a influência política que Mahalanobis tinha. Graças à sua desenvoltura junto a políticos, ele conseguiu viabilizar a criação do Indian Statistical Institute (coincidentemente, com a mesma sigla ISI) no início dos anos 1930, junto com um promissor grupo de estatísticos indianos, interessados no avanço científico da área. Esse instituto desempenhou um papel fundamental para o avanço da Estatística na Índia. Ele forneceu o ambiente e os recursos necessários para que esse grupo desenvolvesse suas pesquisas e pudesse formar novas gerações de jovens estatísticos nos anos seguintes, colocando a Estatística em um patamar muito acima do usual no quadro das áreas da ciência.

Assim, Mahalanobis personificou em sua trajetória um misto de habilidades que constitui o máximo que se pode esperar de um pesquisador: excelência na sua produção científica e comprometimento na administração da ciência. Some-se a isso o fato dele ter desenvolvido essas atividades no cenário mais adverso de um país com escassos recursos. Assim, ele parece ser um nome apropriado para ser emprestado ao prêmio criado para homenagear estatísticos de países ainda em desenvolvimento.

O professor Reinaldo teve sua formação completada com o doutorado aqui no Brasil no final do século passado. Seu trabalho de tese foi em distribuições elíticas, onde ele cuidadosamente elencou propriedades e resultados teóricos. Sua pesquisa prosseguiu na mesma linha mas subiu de patamar. Ele foi progressivamente acumulando contribuições relevantes no estudo de distribuições elíticas e suas extensões para acomodar assimetrias. Além disso, ele foi agregando trabalhos de formação de alunos de pós-graduação e aumentando sua lista de colaboradores internacionais. 

Essa dedicação ao ensino e à pesquisa de mais de três décadas acabou sendo reconhecida e premiada pela ISI. A lista completa de premiados em edições anteriores pode ser vista aqui. Vale destacar que, apesar da difícil competição com outros centros do 3o mundo com mais tradição em Estatística, a America Latina vem despontando com destaque, tendo sido contemplada em 4 das 9 edições até agora.

O anúncio do ISI  para o Prêmio concedido pode ser vista aqui com apresentação da justificativa da escolha do premiado em função de sua extensa lista de contribuições para o avanço da Estatística. 

terça-feira, 14 de maio de 2019

Estão desmoralizando a teoria das probabilidades

https://oglobo.globo.com/esportes/lucas-moura-heroi-tottenham-vai-final-da-champions-com-virada-historica-sobre-ajax-23650939

A frase acima foi escrita no tom admitidamente informal do WhatsApp por um amigo estatístico que, assim como eu, aprecia o futebol. Ela foi escrita logo após o término das partidas semifinais da Liga dos Campeões da Europa. A frase não é desprovida de sentido, como explicaremos a seguir. Mas antes, é importante entender o contexto.

Senão vejamos: no 1o jogo da 1a semifinal, o Barcelona venceu o Liverpool por 3 x 0 jogando em Barcelona e no 1o jogo da 2a semifinal, o Ajax venceu do Tottenham por apenas 1 x 0 mas jogando no estádio do Tottenham. Para que os perdedores dos 1os jogos se classificassem, era preciso que o Liverpool ganhasse a 2a e decisiva partida por 4 x 0 e que o Tottenham vencesse a 2a e decisiva partida por 2 gols de diferença ou por 2 x 1, 3 x 2, ... no estádio do Ajax. Essas eram tarefas improváveis por motivos diferentes.

No caso do Liverpool, a maior improbabilidade se devia à alta diferença no placar contra um time poderoso, recheado de excelentes jogadores e acostumado a decisões dessa natureza. No caso do Tottenham, a maior improbabilidade era devida ao local do jogo. Times costumam ter melhor desempenho quando jogam em seus estádios. Se o Tottenham perdeu jogando em seu estádio, a lógica indicaria uma maior chance de perder quando jogasse no estádio do adversário.

Mas não foi isso que se viu. O Liverpool conseguiu seu improvável placar de 4 x 0 em seu estádio e o Tottenham conseguiu seu igualmente improvável placar de 3 x 2 jogando no estádio de seu adversário. No caso da disputa Ajax x Tottenham, a situação foi ainda mais dramática: o 2o jogo, foi para o intervalo com placar de Ajax 2 x 0 Tottenham, reforçando a crença explicitada no parágrafo anterior. Será que a teoria das probabilidades ou seus usuários foram desmoralizados?  

Quem ataca, leva

Antes da explicação, é importante uma contextualização. O futebol começou na virada do século passado e tinha uma formação quase amadora, visando essencialmente o objetivo principal do esporte: fazer gols. Assim placares elásticos, como 6 x 5 ou 8 x 2, eram muito comuns. Lá pelo meio do século passado, esse padrão foi mudando, com as equipes começando a privilegiar aspectos defensivos. Como consequência, os placares ficaram mais econômicos (1 x 0 , 2 x 1, ...). Nesse contexto, ter habilidade apenas deixou de ser decisivo. Afinal, um jogador habilidoso poderia se livrar de 1 ou 2 marcadores, o que era suficiente nos primórdios do esporte, mas fatalmente pararia num 3o ou 4o marcador, inexistentes no início do esporte. Os esquemas táticos de organização dos times passou a ter uma relevância inédita até então.

Esse padrão se manteve com raríssimas exceções ao longo do século passado. Mas neste século as coisas parecem ter começado a mudar. O padrão de bom atacante hoje deve ser aquele que alia sua habilidade a uma capacidade de encontrar soluções mesmo cercado de 3 ou 4 adversários. Assim, foram criados super-atletas treinados para resolver situações em cenários de jogo muito adversos. Esse jogadores são muito valiosos e tendem a se concentrar nos times de maior poder aquisitivo, como as equipes semifinalistas acima mencionadas.

Paralelamente a isso, placares elásticos começaram a aparecer com alguma frequência e em partidas importantes. Dois exemplos emblemáticos vem imediatamente à mente: a derrota do Brasil por 7 x 1 para a Alemanha em plena semifinal de Copa do Mundo em 2014 (já tratada aqui) e a vitória do Barcelona sobre o Paris Saint Germain por 6 x 1 nas oitavas de final da edição de 2017 da mesma Liga dos Campeões.    

Acho que os pontos descritos nos dois parágrafos acima estão correlacionados. Equipes mais abonadas tem jogadores mais preparados para fazer performances excepcionais. Eles vem sendo treinados para isso. E quando chegam os momentos decisivos, eles estão prontos para atuar.

E agora vem o argumento que para mim foi decisivo em ambos os confrontos e que persiste dos primórdios do futebol até os dias de hoje: quem ataca, leva! Isso quer dizer que a vontade de vencer é um componente fundamental para conseguir superar desafios importantes. Isso vale não só para o futebol mas para vários outros esportes e também para vários outros aspectos da nossa vida.

Foi isso que Liverpool e Tottenham fizeram. Apesar de inferiorizados tecnicamente com relação a seus respectivos adversários, eles não se intimidaram com os cenários adversos que estavam enfrentando e foram "para cima" dos adversários, como se diz no jargão do futebol. Claro que isso não se aplica a qualquer time em qualquer confronto. Se você partir para o ataque sem fazê-lo de forma estruturada e sustentada, fatalmente receberá contra-ataques perigosos e se arriscará a levar um gol, pondo tudo a perder. 

E isso quase aconteceu com o Tottenham. Precisando partir para o ataque em busca dos 3 gols que lhe faltavam (o jogo foi para o intervalo com placar Ajax 2 x 0 Tottenham) tendo apenas os 45 minutos de um tempo de futebol, chegou a receber uma bola na trave aos 46 minutos do 2o tempo mas encontrou seu 3o e decisivo gol no último minuto da prorrogação de 5 minutos dados pelo juiz.

Como foi que times inferiores ou inferiorizados partiram para o ataque contra times superiores? E como lograram êxito? A resposta à 1a pergunta está contida na própria pergunta. Os times que estavam em vantagem procuraram garantir a vantagem que possuíam e evitar correr riscos. Com isso, quase que instintivamente adotaram uma postura mais defensiva, atraíndo seus adversários em direção à sua meta. Isso responde à 2a pergunta. Quem ataca tem mais chance de fazer gol que quem defende. E os gols decisivos de ambos os confrontos foram conseguidos já no final da partida. Assim, esses times não precisaram defender a vantagem recém-conquistada por muito tempo.   

[A disputa de uma das vaga no judo para as Olimpíadas de 2004 no judô entre Flavio Canto e Thiago Camilo ilustra esse ponto. Aproximava-se do final da 3a e decisiva luta entre eles. Flavio tinha vantagem na pontuação e conservadoramente se resguardava para não ser atacado. Faltando 9 segundos para o fim da luta, ele recebeu punição por falta de combatividade e a vantagem passou para Thiago. Nesse momento, Flavio partiu para o ataque por ser a única opção que lhe restou e Thiago passou a se agarrar à vantagem que acabara de obter. Faltando míseros 3 segundos, sofreu punição por falta de combatividade e acabou sendo eliminado. Na entrevista do Flavio após a luta, ele disse que se estivesse no lugar do Thiago teria feito o mesmo, correndo o risco de ser eliminado. O timing para essas ações fortuitas é fundamental e o acaso desempenha um papel preponderante nesses casos.] 

Como saber quando esse fenômeno acontecerá de novo? Essa é a pergunta sobre a qual os especialistas em avaliação de partidas de futebol precisarão se debruçar a partir de agora. Não dá mais para usar apenas a lógica da improbabilidade do resultado para alicerçar avaliações de probabilidade de partidas de futebol. Especialmente se envolverem jogos importantes, onde existe tanto em jogo, e com equipes qualificadas com altíssimo poder de fogo, como foram os casos recentes aqui tratados. Nesses cenários extremos, tudo pode acontecer e isso precisará ser levado mais em conta daqui para a frente.

terça-feira, 7 de maio de 2019

Amostragem em questionamento no cenário nacional


https://www1.folha.uol.com.br

Nos últimos dias, algumas decisões governamentais ligadas à amostragem atraíram a atenção em áreas distintas. Iremos a seguir falar um pouco sobre elas e existem diferenças importantes entre elas. Mas em ambos os casos o cerne da questão foi o mesmo: a informação fornecida por uma amostra pode substituir a informação trazida pela população? 

O contraponto fundamental a essa discussão é o custo envolvido com essa operação. E é isso que está em jogo. A situação ideal é a coleta de informação em toda a população alvo. Tipicamente, quanto maior a amostra maior o custo e a conta que o governo precisa fazer é quanto deve investir na busca de informação. Ou seja, a pergunta a ser respondida é: quanto custa a informação?

O primeiro caso foi a avaliação governamental sobre o nível de alfabetização no Brasil, feita pelo INEP, órgão do Ministério da Educação. Ela foi amplamente noticiada pela mídia. O governo resolveu avaliar o nível de alfabetização dos alunos do 2o ano letivo do ensino fundamental. Para economizar custos, o governo resolveu fazer essa avaliação por amostragem. A medida foi alvo de críticas por motivos óbvios: a informação trazida pela amostra será sempre incompleta, qualquer que seja (o tamanho d)a amostra. Entretanto, essas críticas não consideram ou não verbalizaram consideração sobre os custos envolvidos. 

E os custos não são baixos. O sistema que faz essa avaliação é o Sistema de Avaliação do Ensino Básico (SAEB) e seus custos anuais são da ordem de 500 milhões de reais (apesar do ministro da Educação ter falado em 500 mil reais). Assim, a argumentação das críticas fica desprovida de sustentação sobre sua razoabilidade. 

Outra crítica que me parece mais consistente acabou sendo relegada a um segundo plano mas não foi esquecida pela mídia. O governo resolveu quebrar o padrão que vinha sendo adotado de avaliar alunos da 3a série. Com isso, tornou-se muito difícil, senão impossível, fazer afirmações sobre possíveis melhoras ou pioras no nível de alfabetização do país. Eu imagino que a mudança tenha sido proposta para que a avaliação fosse feita o mais próximo possível do término da alfabetização. Mas a perda de comparabilidade tem um custo difícil de mensurar.

Grande parte da crítica pode ser colocada na linha genérica que "não se pode usar amostras em situações importantes" como é o caso da alfabetização. Acho esse argumento falacioso dependendo do objetivo da avaliação. Obviamente para todo e qualquer aluno é preciso fazer a avaliação do seu rendimento escolar. Mas acredito que isso continuará sendo feito. A questão é saber avaliar a nível mais agregado de escola, bairro, município ou microrregião. Neste caso, me parece que uma boa amostragem poderia fornecer relativamente bem subsídios úteis a formulação de políticas públicas. 

O segundo caso foi o anuncio da direção do IBGE de sua intenção de reduzir os custos do Censo Demográfico de 2020 em 25% e também encontrou repercussão na mídia. O custo do censo é de cerca de R$3,4 bilhões e portanto está se falando de uma economia em torno de 850 milhões de reais. Não é pouco. Por outro lado, encontra-se a discussão sobre o que se perde de informação com essa economia. 

Antes disso é importante destacar que o censo já é parcialmente realizado com amostragem de parte da população recenseada. É certo que o censo coleta informação básica sobre toda a população, caso contrário não seria um censo. Entretanto, um sub-grupo da população é sorteado para responder a um questionário (bem) mais extenso. Acho que essa amostra representa cerca de 10% da população e num passado não muito distante era de 25%.

Assim, a questão aqui não é se deve se coletar dados completos de toda a população mas se a amostra atualmente usada pode ser reduzida ainda mais. Várias opções de economia estão sendo estudadas pela direção do IBGE. Entre elas se encontram redução da amostra com manutenção do formulário e redução do formulário completo com manutenção da amostra. Creio que uma solução de compromisso poderia ser obtida com a combinação das 2 reduções descritas acima. Mas isso exigiria um maior investimento em metodologia, para saber com tratar dados assim obtidos de forma "desbalanceada", e em treinamento, para que os recenseadores não se confundirem no preenchimento dos questionários.

De todo modo, críticas vem sendo veiculadas em diversos meios, feitas por associações de funcionários e por ex-presidentes do IBGE, entre outros. Não deve ser por acaso que o Diretor de Pesquisa, setor do IBGE responsável pelo Censo 2020, foi exonerado ontem. Essas críticas merecem ser estudadas pois contem contextualizações importantes mas também contem argumentos na linha de que "não se pode usar amostras em situações importantes"  que podem ser refutadas através do uso de um bom esquema amostral. [Certa feita, ao dar uma palestra sobre o assunto para uma platéia de professores da rede pública fui interpelado por um deles que, indignado, dizia não acreditar em nenhuma pesquisa de opinião por ele nunca ter sido entrevistado em uma delas.]

Acho que tanto o INEP quanto o IBGE são órgãos com corpos técnicos qualificados e com larga experiência em elaboração de esquemas amostrais eficientes. Portanto, estão qualificados para essa tarefa e poderão até avançar o estado de conhecimento da área com soluções inovadoras e mais eficientes economicamente para o país.

terça-feira, 30 de abril de 2019

Barry Rees James


Fui informado na semana passada do falecimento do professor Barry Rees James. O nome de Barry já apareceu aqui no StatPop, quando descrevi o inicio de minha trajetória profissional. Embora tenha descrito ele sucintamente naquela postagem, acho justo e apropriado dedicar uma postagem inteira a ele, temperada por pitadas da minha relação com ele. É o mínimo que posso fazer por uma pessoa tão especial e tão importante na minha vida.

Gostaria de iniciar esta postagem com o texto com minha reação no momento que soube do falecimento de Barry. Eu escrevi na lista de estatísticos da ABE:

"Que notícia devastadora!

Barry for minha inspiração e O responsável pela carreira que escolhi, graças ao incentivo e acolhida que recebi dele em meu 1o curso de PG, quando eu ainda era um aluno de graduação sem saber que rumo tomar.

Tenho uma dívida de gratidão infinita com Barry e devo muito do que sou hoje profissionalmente a ele.

Uma alma maravilhosa..."

Apesar de ter escrito o texto tomado de forte emoção, o texto reflete adequadamente o que sinto pelo Barry. E os outros depoimentos feitos na mesma lista me pareceram apontar na mesma direção.

Então acho importante contextualizar quem foi Barry e porque ele despertou sentimentos tão positivos de tanta gente. Barry foi um estatístico americano que se graduou em Matemática em 1964 e obteve o doutorado em Estatística na Universidade da California, em Berkeley, em 1971. Apesar da graduação em uma instituição de menor porte, seu doutorado foi obtido em um dos mais importantes centros da Estatística e que, naquela época, era um centro de referência mundial, difusor de diretrizes sobre toda a Estatística. Isso se deveu a uma série de fatores mas em grande parte à relevância dos pesquisadores de Estatística lá presentes nos anos 70. A título de exemplo, pelo menos 2 dos membros mais ilustres do departamento já foram mencionados em postagens aqui: Neyman e Blackwell

Assim, a formação acadêmica que Barry recebeu foi tão boa quanto era possível se ter na época. Ele estava perfeitamente equipado para avançar e difundir a metodologia lá sendo desenvolvida. Só que Barry não escolheu o caminho canônico que sua formação permitiria, de ir para um bom departamento de Estatística no país. Ele optou por uma aposta nada convencional: ajudar na criação de um grupo de Estatística no IMPA, aqui no Brasil. O IMPA já gozava naquela época de prestígio na área de Matemática mas muito pouco havia sido feito na área de Estatística. Barry abraçou a missão que assumiu e ao lado de sua esposa Kang Ling, que também se doutorava em Estatística em Berkeley, e de um grupo de recém-doutores nacionais ajudou a criar o mestrado em Estatística no IMPA. 

Por aqui, Barry e Kang ficaram e desenvolveram suas carreiras por cerca de 15 anos até que resolveram voltar para os Estados Unidos. Nesse meio tempo, esse grupo formou vários mestres que depois obtiveram o doutorado (muitos, no exterior) em Estatística e estão hoje ocupando posições de destaque na vida acadêmica nacional. Embora se tratasse de um grupo relativamente homogêneo, sem lideranças explícitas, a postura de Barry perante todas as questões acadêmicas faziam dele uma referência para nós alunos. Ele sempre sabia ponderar os pontos importantes de um problema e sumarizá-los adequadamente. Além disso, ele se destacava, e muito, dentro da sala de aula.

Suas aulas eram sempre precedidas de anotações precisas, considerando todos os detalhes de caracterização do assunto tratado. Assim, os cadernos de anotações os alunos eram sempre muito claros. Suas aulas eram um reflexo desse capricho e cuidado. Sou testemunha viva disso; minha primeira disciplina de pós-graduação foi Inferência Estatística, ministrada pelo Barry. Mesmo exigindo como pre-requisito a disciplina de Probabilidade, que eu ainda não havia cursado, Barry soube compensar todas as minhas lacunas e me permitiu prosseguir o curso de Inferência com bastante êxito. Além disso, seu livro sobre Probabilidade é uma referência em muitos cursos de pós-graduação em Estatística no Brasil e também o seria a nível mundial se tivesse sido traduzido para publicação em inglês 

Uma das dificuldades que podemos identificar nesse grupo da Estatística foi um investimento muito grande nas aulas em detrimento da atividade de pesquisa. Assim, boa parte do conhecimento que vinha sendo gerado pelos estudos, pela esmerada preparação das aulas e pelas inúmeras dissertações de boa qualidade lá geradas não prosseguiu em direção à geração e publicação de artigos científicos. Mesmo assim, Barry encontrou tempo e disposição para, junto com sua esposa e colaboradora profissional e com um ex-aluno de mestrado, escrever um artigo no JASA, um dos periódicos de elite da Estatística. Esse artigo pode ser visualizado aqui.

Como se isso não bastasse, Barry era uma pessoa muito boa e generosa. Ele sempre me atendia com cordialidade para tirar dúvidas ou para conversas mais gerais sobre a Estatística. Isso me deu segurança e tranquilidade para prosseguir no caminho da Estatística. Imagino que o mesmo possa ter ocorrido com outros alunos da época.

Um ótimo exemplo da disponibilidade de Barry pode ser dado por episódios ocorridos durante a elaboração de minha dissertação de mestrado. Eu estava interessado no tema robustez e escolhi um professor especialista dessa área para me orientar. Apresentei a ele sucintamente minha proposta de tese e ele aceitou me orientar. Comecei a escrever a dissertação e ia aos poucos apresentando a ele os capítulos que ia escrevendo (literalmente a mão pois não existiam editores de textos em computadores naquela época). O orientador não estava muito confortável com o tom informal que eu vinha usando e foi progressivamente se incomodando com o meu texto. [Vale esclarecer que o tom mais informal que eu vinha usando combinava com a visão subjetivista usada na abordagem Bayesiana, como veiculada em muitos textos da época, mas não com a formação matemática do meu orientador.]

Olhando agora em retrospecto, meu orientador estava coberto de razão. Mas eu não aceitei bem isso e pedi ao Barry para que ele analisasse o texto que eu ia escrevendo, em uma avaliação paralela. Hoje reconheço que o coloquei em uma situação constrangedora e que pedi para ele fazer algo que não era de sua alçada. Mesmo assim, ele aceitou meu pedido, encontrou tempo para ler minhas anotações em mais de uma ocasião e colaborou com comentários na medida do que estava ao seu alcance. Não sei se Barry também interveio junto ao meu orientador mas o fato é que eu acabei me acertando com ele nos capítulos posteriores e terminou tudo bem.

Esse era o Barry, que deixará saudade em todos que tiveram o prazer de tê-lo conhecido...

Um sucinto obituário do Barry em um jornal local de Duluth, onde ele morou seus últimos anos, pode ser visto aqui.

terça-feira, 23 de abril de 2019

Gritomudonomuro*


por Bernardo Esteves

Um trecho da mureta da via expressa que liga a Zona Sul do Rio de Janeiro à Barra da Tijuca apareceu coberto de inscrições ilegíveis numa manhã do ano passado. Era uma sequência de símbolos, pintados em tinta branca, que ocupava toda a altura do pequeno muro. Estendia-se por mais de 100 metros e tinha quase 400 sinais compridos e estreitos. Vários deles eram repetidos, o que sugeria tratar-se de um alfabeto. As letras tinham ângulos retos e poucas curvas. Algumas lembravam a escrita latina – era possível identificar um I, um X, um Y espelhado, um U de ponta-cabeça. Não havia espaço que delimitasse as palavras. Se aquilo fosse mesmo uma mensagem, era incompreensível.

Inscrições semelhantes haviam sido deixadas em muros e viadutos da Gávea, da Lagoa, do Leblon e bairros adjacentes. Há mensagens escritas no alfabeto enigmático num acesso ao túnel Rebouças, no muro de uma escola e na frente do Jardim Botânico. A meio caminho entre o grafite e a pichação, os escritos costumam ficar na parte de cima de muros altos e outros lugares improváveis. Com frequência, são associados a uma figura humana longilínea e estilizada, com os braços e pernas finos e as costelas realçadas.

A autoria das inscrições foi reivindicada pela primeira vez no início de 2011. Numa reportagem da revista dominical d’O Globo, a artista plástica carioca Joana César contou que era ela quem espalhava as mensagens pela cidade. Estavam escritas num código que criara mais de uma década antes, para preservar seus segredos de pré-adolescente, que anotava numa agenda. Acrescentou uma revelação apimentada: algumas inscrições contavam suas fantasias eróticas. Sem saber, os cariocas conviviam havia anos com relatos íntimos, escritos em letras garrafais na cara de todos.

Joana Coelho Lenz César tem 37 anos. É bronzeada, tem os cabelos curtos, olhos castanhos e piercing no nariz. Foi criada num sítio, em Jacarepaguá, com acesso ao ateliê e ao material da mãe, Tereza Coelho, também artista plástica. Ela pensou em ser escritora e produziu um número considerável de contos e esboços de um romance. Como tinha dificuldade em mostrar o que fazia, destruiu boa parte dos escritos. Mas aproveitou muitos deles como suporte para pinturas e colagens.

Ainda acha incrível que alguém torne públicos uma tela que pintou ou um texto que escreveu. “Como é que o cara vai lá e mostra, na cara dura?”, perguntou durante uma conversa num fim de tarde. “Que coragem”, completou, com uma expressão de perplexidade. Joana César marcou a entrevista no café do Parque Lage, em cuja Escola de Artes Visuais ela estudou. Vestia camiseta branca sem manga salpicada de manchas de tinta.

Um traço acentuado de sua obra é a obsessão com o ocultamento. Muitos de seus trabalhos foram cobertos de tinta tão logo concluídos. Num pedaço de parede de 5 por 3 metros, no ateliê que divide com a mãe, Joana pintou e cobriu a superfície sucessivas vezes. Entre uma camada e outra, escondia objetos: folhetos de mãe de santo trazidos da rua, bolsas que ela mesma fizera, peças de lingerie. A parede ganhou dois palmos de camadas e depois foi desmontada. “Descobri que tinha mais tesão em cobrir do que em pintar”, explicou. “Escrevia por toda a parede, muito solta, sabendo que teria depois a sensação maravilhosa de cobrir tudo aquilo.”

Os trabalhos no ateliê, contudo, lhe deram vontade de ir para a rua e mostrar seus textos. Mas não venceu a timidez: preferiu se expor de modo incompreensível e apócrifo, recorrendo ao alfabeto secreto que concebera na puberdade. Aos 12 anos, Joana se apaixonara por um amigo do irmão mais velho, de quem escondeu o sentimento. Atribuiu um símbolo a cada letra do alfabeto e passou a escrever suas confissões em segurança. Usou o idioma secreto por dois ou três anos. Aí perdeu interesse e abandonou o código.

Quando resgatou o alfabeto, não teve dificuldade para se lembrar das letras. Não tardou a recuperar a fluidez da escrita, como fez questão de demonstrar num pedaço de guardanapo. A essência do abecedário permaneceu inalterada na nova encarnação. As letras só ficaram um pouco mais estreitas e alongadas, por influência dos pichadores de São Paulo. O estilo pode explicar a semelhança de alguns sinais com as letras runas, alfabeto usado pelos povos do norte da Europa até o início da Idade Média. Joana César só soube da existência das runas quando um passante que a viu pintando assinalou a coincidência.

Começou pintando inscrições pequenas. À medida que ganhava confiança, aumentou a frequência das saídas para escrever os relatos cifrados. Joana produz suas próprias tintas. Mistura pigmento em pó, cola e água na proporção adequada à superfície que escolhe. Sai para pintar de carro ou bicicleta, e leva galões, rolos e cabos extensores de tamanhos variados. Hoje, prefere ficar nas proximidades da sua casa, na Gávea, “porque sou mulher e pinto sozinha”.

Desde que teve um filho, há três anos, parou de pintar à noite. Já foi detida três vezes. Numa delas, foi pega pichando na Barra. O acaso a levou à presença do delegado – que era justamente o amigo do irmão por quem se apaixonara, o motivador do seu alfabeto. Foi libertada, mas não lhe contou do seu amor adolescente nem revelou o conteúdo das mensagens.

Houve um almoço de família no domingo em que foi publicada a reportagem sobre as inscrições de Joana César. Sua avó lhe disse que ficara consternada com o conteúdo das mensagens. A artista admitiu que fazia relatos libidinosos. “Tem mesmo umas baixarias”, disse-me. Mas frisou que seus escritos não se limitam a isso e negou com energia que seja pornógrafa. Explicou que eles são parte de um conjunto de relatos de desejos, angústias, frustrações.

Ao lado de um ponto de ônibus da rua Marquês de São Vicente, ela deixou no chão um recado para o pai, hoje quase apagado pelos passantes. “Escrevi um monte sobre ele, falei mal à beça”, contou. “Foram duas madrugadas pintando, foi excelente para mim.” Para a artista, os muros do Rio funcionam como um enorme divã: “A rua me ajudou a resolver várias questões relacionadas com a minha infância, com a dificuldade de mostrar o que eu fazia.”

Joana César jamais revelou a chave para decifrar seu código. Adolescente isolada, não usou o alfabeto secreto para se comunicar com amigas. Valeu-se dele apenas para cifrar as anotações que fazia para si mesma e hoje espalha pela cidade. Era a única a entender o alfabeto com o qual escrevia suas confissões.

Paulo Orenstein, um rapaz de 22 anos, loiro e de olhos azuis, se formou há dois meses em economia pela Pontifícia Universidade Católica, a PUC do Rio. Mas ele gosta mesmo é de matemática. Descobriu isso no meio do curso e começou a seguir disciplinas de pós-graduação na área. Antes de se formar, já tinha feito um ano de créditos para o mestrado.

No fim do ano passado, foi admitido no concorrido processo de seleção do Instituto Nacional de Matemática Pura e Aplicada. Abriu mão da vaga para permanecer na sua universidade de origem – escolha que muitos matemáticos considerarão herética devido à proeminência do Instituto. Explicou que, entre outros motivos, optara pela PUC porque o currículo era mais flexível.

Orenstein deve muito do seu fascínio pela matemática a Carlos Tomei, que lhe deu aulas na graduação e vai orientá-lo no mestrado. Professor da PUC desde 1984, Tomei é um homem cativante, de barba grisalha e sobrancelhas arqueadas. Quando saía para almoçar pela portaria principal do campus da universidade, dava com uma mureta na qual Joana César pintara inscrições. Nunca lhes deu atenção. Até que soube que se tratava de uma mensagem em código.

Em novembro de 2008, Persi Diaconis, da Universidade Stanford, nos Estados Unidos, publicou um artigo no qual discutiu o uso de simulações computacionais para resolver problemas complexos. Na introdução, Diaconis contou como elas foram usadas para decifrar mensagens em código trocadas por prisioneiros da Califórnia e interceptadas pela polícia. Onde métodos corriqueiros haviam falhado, os algoritmos quebraram a cifra dos detentos, que misturava trechos em inglês, espanhol e gíria da prisão.

Ao saber que as inscrições eram textos cifrados, Carlos Tomei lembrou-se do artigo de Diaconis. E se indagou se a mesma estratégia não poderia ser usada para quebrar o código nos muros cariocas. Pensou logo em Paulo Orenstein e Juliana Freire, uma professora de 31 anos, de cabelos castanhos longos e lisos, de quem ele também havia sido orientador. De volta ao Brasil, depois de um pós-doutorado na Universidade de Nova York, Juliana Freire foi contratada pelo Departamento de Matemática da PUC. Carlos Tomei lançou o desafio à dupla: “Por que vocês não tentam usar o mesmo algoritmo para ver o que ela está escrevendo?”

Em algumas áreas da matemática, saber escrever as instruções para que computadores destrinchem problemas impossíveis de serem resolvidos manualmente é uma habilidade quase tão importante quanto fazer as operações básicas. Como Orenstein queria aprender a programar, entusiasmou-se em decifrar os símbolos misteriosos que via numa escola quando corria na Lagoa Rodrigo de Freitas.

Juliana Freire também topou o repto. Ela e Orenstein aceitaram uma tarefa semelhante à do sacerdote asteca Tzinacán. Num relato publicado na Argentina, em 1949, o mago contou que fora encarcerado pelos espanhóis numa prisão escura, no fundo do chão. Na hora sem sombra (o meio-dia), um carcereiro abria uma janela no alto da abóbada e fazia descer água e carne por meio de uma roldana. Só então ele via que a cela era dividida por uma fileira de barras de ferro. O seu companheiro de infortúnio, do outro lado da cadeia, era um jaguar. Sem ter mais o que fazer, passou anos recapitulando na treva tudo o que vira e aprendera.

Um dia, o sacerdote recordou que o seu deus escrevera, no primeiro dia da Criação, uma sentença mágica, capaz de conjurar os infortúnios que ocorreriam no final dos tempos. Tal frase fora composta numa linguagem secreta, de maneira a chegar incólume às mais longínquas gerações, quando um eleito a decifraria. Julgando que o apocalipse estava próximo, o mago dedicou todos os seus dias escuros – e anos, e décadas – a buscar a sentença. “O fato de que uma prisão me rodeasse não me impedia essa esperança”, escreveu. Talvez ele tivesse visto a frase milhares de vezes e só faltasse entendê-la.

A diferença entre os matemáticos e o mago é que os cariocas tinham as sentenças, e o asteca partia do nada. Mas ambos precisariam desvendar uma linguagem ignorada – em um caso, criada pelo deus; no outro, por Joana César.

O sacerdote asteca refletiu que existem na Terra formas ancestrais que poderiam conter uma sentença que perdurasse por milênios: uma montanha, um rio, um império, a configuração dos astros. Mas, no decorrer do tempo, tudo isso caduca. A montanha se aplaina, o rio desvia o curso, os impérios decaem, até no firmamento há mudança. Aí se lembrou de que o jaguar era um dos atributos do seu deus. Na Criação, pensou, a divindade escrevera a sentença no dorso do animal, que se reproduziu ao longo dos séculos em canaviais e cavernas. Nas manchas do bicho à sua frente, que ele via por instantes apenas uma vez por dia, estava a mensagem. Sua busca era no fundo idêntica à de Orenstein e Juliana Freire: achar sentido num idioma desconhecido – a pelagem da fera; os signos de Joana.

A dupla de matemáticos tinha pouco com que começar. Não havia pistas sobre o idioma das inscrições. Cada símbolo podia representar uma letra, quiçá uma sílaba. Podia haver um sinal para representar o espaço entre as palavras, já que as letras eram escritas de forma contínua.

Como Joana César criara o alfabeto aos 12 anos, ponderaram, não devia ser um código muito complexo. Uma busca na internet levou Orenstein a um blog de cultura. Vendo fotos de Joana pintando um viaduto, concluiu que ela escrevia da esquerda para a direita. No texto, ela deu uma pista sobre a natureza do alfabeto: “A única coisa que digo é que todas as letras estão dentro da própria letra.” E deu um único exemplo, mostrando como um P estilizado dava origem ao símbolo que o representava. Restava descobrir as outras 25 letras.

Se a hipótese dos dois matemáticos estivesse correta, o alfabeto da artista seria uma cifra de substituição: o sistema em que cada símbolo corresponde a uma letra do alfabeto, um código clássico que é usado pelo menos desde a Roma antiga. Júlio César se comunicava com seus generais por meio de uma cifra de substituição que hoje leva seu nome.

O uso dessa forma de cifra foi seguro até o século IX, quando o matemático árabe Al-Kindi, num marco inaugural da criptoanálise, descreveu um método capaz de quebrá-la. Al-Kindi mostrou que a frequência com que ocorrem os símbolos de uma mensagem cifrada permite apontar seus correspondentes no alfabeto de origem. Se a mensagem original estiver em português, por exemplo, é grande a chance de que os sinais mais frequentes correspondam às letras mais comuns no idioma luso – A, E e O.

A análise de frequência é até hoje o método fundamental para quebrar cifras clássicas. Foi graças a ela que matemáticos decifraram o código dos prisioneiros da Califórnia. Lá, porém, não bastou comparar a constância da ocorrência de cada letra, provavelmente porque os prisioneiros escreviam em mais de uma língua. A cifra só foi quebrada quando se comparou a frequência com a de pares de letras. Foi esse o caminho que Paulo Orenstein e Juliana Freire trilharam.

Supondo-se que Joana César escrevera as mensagens em português, era preciso comparar a distribuição dos símbolos nos muros com a frequência dos pares de letras no idioma. Executar a tarefa manualmente seria demorado e trabalhoso. Um computador, ao contrário, poderia resolvê-la com grande rapidez e sem os erros que a resolução manual acarretaria. Mas era necessário ensinar o computador a fazer isso. A tarefa de Orenstein e Juliana Freire consistiu em escrever as instruções – ou o algoritmo, como se diz em computação – para que a máquina enfrentasse o problema.

Usando uma linguagem de programação chamada C++, eles ensinaram o computador a testar milhares de soluções possíveis para o código de Joana e a compará-las com a frequência dos pares de letras em português. Ao final, avaliaram, chegariam à combinação que melhor correspondia à distribuição das letras na língua portuguesa.

Precisavam antes determinar quais são os pares de letras mais frequentes no idioma. Para isso, era preciso analisar um texto extenso e representativo do português brasileiro. Orenstein pensou no verbete “Brasil”, um dos mais longos da Wikipédia lusófona. Mas preferiu escolher um texto literário, por achar que estaria mais próximo do registro lírico que Joana César deveria ter usado nas mensagens. Escolheu Dom Casmurro. A análise do romance de Machado de Assis revelou que os pares de letras mais frequentes eram AS, RA e OT.

Era chegada a hora de testar o algoritmo. Primeiro, aplicaram um texto que eles mesmos embaralharam com um código que conheciam de antemão. Funcionou: o programa conseguiu decifrar a mensagem. Podiam finalmente pôr à prova os textos de Joana. Orenstein coletou algumas frases cifradas da artista para alimentar o algoritmo. Quando rodou novamente o programa, obteve uma resposta frustrante. “Não chegamos nem perto de conseguir ler”, contou. Ao ver o resultado, Juliana Freire duvidou que as inscrições fizessem sentido. “Aquilo é só bobagem, são letras aleatórias”, disse ao aluno.

O ceticismo da professora atiçou Orenstein. Achava que o algoritmo decifraria os escritos se coletasse um volume maior de texto. De acordo com a literatura técnica, 1 500 caracteres de texto cifrado eram a amostra mínima para quebrar um código com segurança. Era preciso voltar às ruas e registrar mais inscrições.

Depois de um levantamento feito com a ajuda de parentes e amigos, Orenstein percorreu o Rio durante três tardes e fotografou todas as mensagens cifradas de que obteve notícia. Depois, passou um fim de semana anotando manualmente as inscrições. Tinha compilado 1 692 caracteres do alfabeto em cinco folhas quadriculadas. O trabalho braçal não terminou aí: atribuiu aleatoriamente uma letra do alfabeto a cada símbolo usado pela artista, para que o computador pudesse processá-los.

Rodou de novo o algoritmo e teve outra decepção: mais uma vez, a resposta era incompreensível. Também Tzinacán enfrentou enormes dificuldades para achar sentido na pelagem do jaguar. “Não vou falar das fadigas do meu trabalho”, escreveu. “Mais de uma vez gritei para a abóbada que era impossível decifrar aquele texto.” Mas perseverou.

Orenstein, igualmente, não esmoreceu. Numa troca de e-mails com Juliana Freire, discutiu ideias para refinar o algoritmo que haviam escrito. Decidiram modificar algumas coisas do programa para fazer uma última tentativa. Abandonaram, por exemplo, a hipótese de que haveria um símbolo representando o espaço entre as palavras e deixaram de contar letras acentuadas como caracteres distintos.

Orenstein fez as correções numa noite chuvosa de outubro, no quarto do apartamento em que mora com os pais, no Jardim Botânico. Eram quatro da manhã quando terminou os ajustes e rodou o programa. O resultado que recebeu minutos depois parecia uma nova sequência ininteligível. O estudante rodou o programa várias vezes, recebendo a mesma resposta, uma algaravia de letras. Intrigado, resolveu examiná-la com mais atenção.

A resposta consistia num grande bloco de texto sem espaços entre os vocábulos, como um diagrama de caça-palavras. Seu início era uma sequência sem nexo:

ITRAGUEXOFNJFNJDVQMT 

Na segunda linha, alguns trechos pareciam fazer sentido, como:

nimvumapesoadesacidademaluca

Mais adiante, Orenstein identificou uma expressão:

VAMILIADEPORCOSFICIADOS 

Imaginou que talvez o programa tivesse se contentado com um resultado que trocava o F pelo V. Por fim, notou uma passagem que não poderia ser fruto do acaso:

ASTRONAUTADOTADODEUMAPICAGIGANTESCO

Orenstein constatou a ocorrência reiterada de uma palavra que desconhecia: RAGUEZO. Jogou o termo na internet e descobriu que era o nome do boneco de costelas aparentes que Joana César desenhava pela cidade. Achou também uma galeria de fotos do personagem num repositório de imagens. A titular da conta se identificava como IT: RAGUEZO: NHVMIDFOMT. Era uma sequência parecida com as letras da resposta que o algoritmo lhe devolvera. Não tinha como estar errado.

Excitado por estar perto da resposta, começou a fazer uma limpeza manual do texto, de modo a incluir espaços entre as palavras e corrigir erros de ortografia que poderiam ter surgido em qualquer etapa da cadeia, da escrita por Joana César à transcrição e digitação feita por ele. Notou que tratara os símbolos usados para as letras O e Q como se fossem um único sinal. Concluiu também que a artista usava um sinal gráfico para dobrar a letra anterior.

Ao final, Orenstein tinha um texto razoavelmente limpo. Ainda havia um volume considerável de ruído, mas longos trechos legíveis se destacavam entre letras desconexas.

Num trecho da mureta da via expressa que os matemáticos da PUC viam na saída do campus, por exemplo, Joana César relatara a perda da virgindade. “Não imaginava o tamanho da dor que esse sentimento de ser não mais uma garotinha”, escrevera. A menção ao astronauta bem-dotado, num muro nas imediações da Lagoa, era seguida por uma sucessão de palavras que não chegavam a formar uma frase, mas guardavam afinidade: VIRGEM, SANTA, PIRANHA, MISTÉRIO, MÃE.

Os relatos eróticos eram de fato minoritários. Na borda de um viaduto, Joana César deixou um recado para um grupo de grafiteiros cariocas. Num desenho, Raguezo parecia abraçar a palavra RIVOTRIL. O personagem foi sujeito de uma frase pintada numa mureta: “Raguezo significa quase um filho pequeno, precisando dos meus cuidados de mãe.” Noutra inscrição, ela manifestou um receio que mexeu com os brios do estudante: “Lá sei que tem gente tentando entender meu misterioso alfabeto.”

Orenstein se lembrou da euforia que sentiu quando teve certeza de que quebrara o código – e de como sua agitação contrastava com o dia que começava lá fora. “Eram seis da manhã, minha mãe estava acordando para ir trabalhar e achou que eu fosse um maluco completo”, contou. “Foi como o final de um livro de mistério. Só não foi um momento de eureca porque eu estava de roupa.”

No dia seguinte, contou a novidade a Juliana Freire. Apareceu ao final de uma aula, trazendo as folhas com os textos traduzidos e o alfabeto decifrado. A professora se entusiasmou. “Eu estava plenamente convencida de que aquilo era lixo, porque a gente tinha feito um grande esforço e não tinha encontrado nada”, disse ela. “Mas não tem importância eu achar que não tem nada se ele provar que tem. Essa é a graça da matemática.”

Ele foi depois ao gabinete de Carlos Tomei, que não estava. Deixou-lhe um recado no quadro – com o alfabeto de Joana César. Tomei entendeu assim que entrou. “Estava mais do que claro”, comentou. “Ele foi elegante.”

Tzinacán também terminou por encontrar o significado das manchas amareladas do jaguar e o descreveu assim: “É uma fórmula de catorze palavras casuais (que parecem casuais) e me bastaria dizê-la em voz alta para ser todo-poderoso. Bastaria dizê-la para abolir esta prisão de pedra, para que o dia entrasse em minha noite, para ser jovem, para ser imortal.”

O conteúdo das mensagens deixadas por Joana César era o que menos interessava aos matemáticos. Quando lhes perguntei quais eram, afinal, as fantasias da artista plástica, não souberam responder sem consultar a transcrição. Não haviam guardado detalhes das mensagens. “Como matemáticos, era o código que queríamos resolver”, justificou o rapaz.

Em meados do século XX, os matemáticos começaram a se destacar nas equipes de quebra de códigos, eclipsando linguistas e outros especialistas. À medida que aumentava a complexidade das cifras, o raciocínio abstrato e o domínio da teoria de números tornaram-se pré-requisitos para a sua resolução. A quebra do sistema de cifragem usado pela Alemanha nazista – as máquinas Enigma – foi obra de matemáticos: primeiro Marian Rejewski, na Polônia, e depois o time que tinha o inglês Alan Turing, na Inglaterra. A descoberta é considerada decisiva para a virada em favor dos aliados na Segunda Guerra Mundial.

Quebrar um código como o de Joana César não é um marco na criptoanálise. Por se tratar de uma cifra que usa um mesmo sistema de sinais para codificar cada letra da mensagem, ela é vulnerável à análise de frequência. A quebra manual de códigos requer sobretudo tempo, além de paciência e perseverança, mas está ao alcance de criptoanalistas empenhados – foi assim que eles procederam até o surgimento dos computadores.

Ter decifrado o alfabeto de Joana César tampouco terá grande importância acadêmica para os dois matemáticos. Mas Orenstein considera que aprendeu a programar de forma mais criativa do que conseguiria resolvendo listas de exercícios. A quebra do código foi o maior desafio que resolveu. A experiência representou para ele a renovação de seus laços com a matemática.

Orenstein talvez passe a vida perseguindo o mesmo êxtase que experimentou naquele começo de manhã, quando enxergou sentido num emaranhado de letras. O sacerdote Tzinacán também ficou eufórico com a quebra do código do jaguar. “Ó felicidade de entender, maior do que a de imaginar ou a de sentir!”, exclamou.

“Foi a primeira vez que consegui fazer algo com matemática que teve impacto na vida real e que ninguém mais conseguiu”, me disse Orenstein. “Esse é um problema que não dá para resolver sem matemática.”

Reforçar essa ligação com o mundo é a maior lição que Carlos Tomei enxerga no episódio. “Foi uma oportunidade maravilhosa de dizer que, quando sabe matemática, você volta para o mundo e consegue ver outras coisas”, disse.

Orenstein e Juliana Freire não tinham a mesma opinião sobre o que fazer com o código que quebraram. A professora não via maiores problemas em revelá-lo. O estudante, um tímido, preferia guardá-lo em sigilo – eram coisas muito pessoais. “Ela quer gritar para o mundo, mas não quer ser ouvida”, disse ele. “É um grito mudo.”

A mãe de Orenstein é amiga de uma prima de Joana César. Num dia de novembro, o acaso interferiu novamente. Viram-se diante de uma das inscrições da artista. Falaram quase em uníssono: “Quem pinta com esse alfabeto é uma prima minha”, disse uma; “Meu filho conseguiu desvendar esse código”, atalhou a outra. A mãe voltou para casa levando o número de telefone da artista.

A princípio, o matemático não queria procurar a artista. No que dependesse dele, Joana César nem saberia que seu código fora quebrado. Mas a coincidência o fez mudar de ideia. Ligou para a artista e ela ficou curiosa em saber como sua escrita fora desembaralhada. A receptividade surpreendeu Orenstein, que esperava uma atitude hostil. O matemático teve a impressão de que a artista se retraiu quando ele demonstrou que havia mesmo quebrado a cifra. Combinaram um encontro, mas Joana o cancelou na véspera. Ameaçaram remarcá-lo, hesitaram e a conversa não foi adiante.

Joana César disse ter sido tomada por um sentimento ambíguo, entre a curiosidade e a apreensão, quando soube do feito dos matemáticos. Estava simultaneamente entusiasmada e envergonhada. Não gostaria de ver seu código revelado na internet.

Só no dia em que nos encontramos no Parque Lage, em janeiro, a artista parece ter-se dado conta de que suas mensagens tinham sido lidas. Quando mencionei o astronauta bem-dotado, interrompeu a frase, levou a mão à boca e riu. Ao saber que os matemáticos haviam identificado o sinal que dobra a letra anterior, reagiu com admiração: “Até isso eles descobriram? Cretinos!”

Joana disse que cogitou voltar às ruas e cobrir de tinta todas as inscrições. “Não tenho nenhum problema em apagar as coisas, pelo contrário, é um alívio, sempre foi”, disse. Ela falou com mais desenvoltura sobre o alfabeto quando soube que Orenstein não divulgaria o que descobrira. E concordou em encontrar o matemático.

Como Orenstein, o sacerdote asteca não revelou o conteúdo da sentença que decodificou: “Quarenta sílabas, catorze palavras, e eu, Tzinacán, regeria as terras que Montezuma regeu. Mas eu sei que nunca direi aquelas palavras, porque já não me lembro de Tzinacán. Que morra comigo o mistério que está escrito nos tigres.” O mago nunca existiu na vida real. Ele é o personagem principal de “A escrita do deus”, conto fantástico de Jorge Luis Borges que está no livro O Aleph.

Paulo Orenstein chegou antes da hora marcada ao bar escolhido por Joana César na Gávea. Tirou seu bloco de folhas quadriculadas e começou a trabalhar num problema. A artista chegou pouco depois das nove, toda vestida de preto e com uma boina verde. O rapaz se levantou e ficaram indecisos sobre como se cumprimentariam – foram dois beijos rápidos e nervosos. Sem jeito, ele corou por alguns instantes.

Joana César parecia insegura. Assim que se sentou, esfregava as mãos sem parar. Ficou mais à vontade quando desenrolou sobre a mesa uma grande folha em branco que trouxera. Ao longo da noite, usou-a para fazer inscrições em seu alfabeto e desenhar Raguezo com um pincel atômico. Ela tomou refrigerante zero, e ele, água.

Orenstein mostrou-lhe as folhas de papel quadriculado que usara na solução do problema, com a transcrição dos sinais, o primeiro chute e o resultado, já com as correções manuais e a indicação de espaços. Ao final, uma folha com o alfabeto de Joana e o latino dispostos em duas colunas. A artista sorria boquiaberta enquanto examinava as folhas.

Ele levou algumas fotos de inscrições que haviam lhe intrigado. Queria saber de Joana se havia explicação para as letras sem nexo e os longos trechos ilegíveis – achava espantoso que o algoritmo tivesse sido capaz de resolver o problema apesar de tanto ruído.

Joana explicou que muitas vezes se deixava guiar pela estética. “Estou escrevendo algo que faz sentido e de repente começo a viajar na forma”, explicou. Desenhou um símbolo que aparece de vez em quando e que não quer dizer nada. Admitiu que gosta de determinados símbolos e às vezes repete várias palavras com as letras preferidas, como VIRGIN, só pelo prazer de escrever.

Joana revelou o sentido de sua assinatura. IT é o nome com que é conhecida “na rua”. Contou como surgiu Raguezo, uma criatura sofrida e solitária – no fundo, uma alegoria dela mesma. E o enigmático aposto NHVMIDFOMT reúne as iniciais de “nenhum homem vai me impedir de fazer o meu trabalho”.

Orenstein repetiu que achava as inscrições muito bonitas. Contou que cogitara estudar desenho industrial. “Queria ter sido artista,” disse. Joana César lembrou o dia em que um bêbado praticamente saiu lendo seus textos depois de ela lhe dar algumas dicas. E disse ao matemático: “Se o seu olhar fosse completamente livre, talvez você conseguisse entender o alfabeto sem a matemática.”

* - artigo publicado online na revista Piaui em fevereiro de 2012