terça-feira, 21 de janeiro de 2020

Estatística do Ano de 2019



Assim como foi feito em 2017 e 2018, o StatPop repercute a divulgação, feita no final do ano passado, do resultado da competição realizada anualmente pela Royal Statistical Society (RSS): a estatística do ano de 2019. Essa competição teve início em 2017 e tem todos os rigores de uma competição com prazos e formatos para submissão de propostas, comitê julgador, etc mas tem uma função mais lúdica de divulgação da Estatística para o público em geral. Considero bastante interessante esse resgate em plena era dominada pela tecnologia do aspecto mais básico da Estatística: os dados.

A estatística vencedora na versão internacional foi 72,6 anos. Essa estatística é a expectativa méida de vida ao nascer da população mundial e foi compilada pela Our World in Data, da Universidade de Oxford. Essa estatística foi escolhida por representar um ponto importante que a RSS julgou merecer destaque: a humanidade está vivendo mais do que jamais viveu. Como referência comparativa, a RSS divulgou que o valor da mesma estatística para o ano de 1950: 45,7 anos. Isso representa um aumento anual de cerca de 5 meses por cada ano, numa clara demonstração de melhora no nosso tempo de vida.

A estatística vencedora na versão nacional (britânica) foi 58%. Essa estatística é a proporção de britânicos em pobreza relativa em domicílios contendo trabalhadores. Ela foi compilada pelo Institute of Fiscal Studies, uma entidade autônoma do Reino Unido voltada para pesquisa sobre dados econômicos. Essa estatística foi escolhida por exibir um aumento preocupante na proporção da população britânica em condições desfavoráveis economicamente. Esse aumento foi de 10% para uma janela de 13 anos (de 2004 para 2018).

Além dos vencedores, a premiação destacou algumas menções honrosas tanto a nível nacional quanto a nível internacional. Entre elas, podemos destacar a estatística 54 mortes por 1000. Ela foi obtida através de dados compilados pela Organização Mundial de Saude. Essa estatística reflete a diminuição do número de mortes de crianças com menos de 5 anos, de 93 mortes em 1990 para 39 mortes em 2018. Esses números podem em princípio parecer altos. Mas vale relembrar que se trata também de uma medida global, mais impactada pelas regiões mais pobres do globo, onde nascem mais crianças. De todo modo, ela reflete um aumento na qualidade de vida da população mundial, em direto alinhamento com a estatística vencedora na competição internacional.

Vale também destacar a estatística 10,3%, que recebeu menção honrosa na competição nacional. Ela exprime a porcentagem de carros híbridos ou elétricos registrados a cada ano no Reino Unido e foi compilada pela Sociedade de Produtores e Comercializadores de Veículos (SMMT, na sigla em inglês) do Reino Unido. Ela adquire maior relevância ao refletir a quebra inédita da barreira dos 10%, ocorrida em novembro do ano passado. Outro aspecto positivo foi o substancial aumento com respeito à fatia de 6,8% do mercado que esse tipo de veículo possuía no ano anterior (2018). Um maior detalhamento para os diferentes tipos de veículos é dado na tabela abaixo. A estatística contemplada destaca uma saudável tendência dos dias atuais de buscar cada vez mais a utilização de produtos menos poluentes e mais ecologicamente aceitáveis.  


Como já disse, o principal aspecto desse prêmio me parece ser a valorização da matéria prima em análises de dados, ou seja, os dados. Um aspecto secundário que acho interessante é a valorização dos fornecedores dessa matéria prima. Assim, a competição propiciou contato com as diferentes fontes dos dados agraciados. Muitas vezes não temos conhecimento sobre todas elas e essa iniciativa ajuda a expandir nossa rede de conhecimentos dessas bases e aumenta nossa capacidade de exploração das diferentes fontes de dados.

A divulgação do prêmio pela RSS pode ser vista aqui.

terça-feira, 14 de janeiro de 2020

Vencedora do Prêmio Nobel retira artigo


Sempre que um artigo científico apresenta algum problema que só é descoberto após ser publicado existe a alternativa do artigo ser retirado (do inglês retracted).  Obviamente, essa retirada é abstrata pois o artigo já foi impresso (ou postado), publicado e lido. Mas essa retirada também tem efeitos práticos como deixar de constar de bases de artigos e citações. A retirada é uma medida extrema que é usada em último caso. Dependendo do problema, uma alternativa intermediária é uma errata consertando as imperfeições do artigo, quando não são invalidadas as conclusões centrais do texto. [Recentemente, um artigo publicado por estatísticos brasileiros passou por essa situação e o assunto foi resolvido com a publicação de uma retratação, com reconhecimento do erro.]

Esses procedimentos são rotineiramente encontrados em periódicos mundo afora nas mais diferentes áreas da Ciência. Felizmente, não são acontecimentos muito comuns. O que não é comum é quando a retirada de um artigo é efetuada por grandes exponentes da Ciência, especialmente detentores de Prêmios Nobel. 

Pois foi exatamente isso que aconteceu recentemente com o último artigo publicado pela pesquisadora americana Frances Arnold, do Caltech. Ela acabou de receber o Prêmio Nobel de Química em 2018 pelo seu trabalho em melhoramento de enzimas. Hoje em dia, seu trabalho é base de inúmeros procedimentos em laboratórios e empresas ao redor do mundo, justificando a propriedade da sua escolha para o Nobel.

Apesar disso, seu artigo foi submetido a cuidadoso escrutínio após ser publicado no aclamado periódico Science, um dos periódicos ícone da publicação científica em geral. O periódico verificou que haviam vários problemas com os dados registrados no laboratório da pesquisadora, o que impossibilitou a verificação da veracidade da informação fornecida no artigo. A notícia foi inicialmente veiculada no twitter da pesquisadora no dia 02 de janeiro deste ano e confirmada pelo periódico logo a seguir. É interessante ler o pedido de desculpa da pesquisadora, confessando que não checou adequadamente os dados levantados e resultados obtidos por suas (orientandas?) co-autoras Inha Cho e Zhi-Jun Jia, ambas do Caltech. [Algo similar ocorreu com o artigo de brasileiros acima aludido, com o co-autor e orientador não se dando conta que a redação do texto pelo orientando continha trechos com cópia literal de outro artigo, sem reconhecimento dessa citação.]

Esse tipo de notícia reportando um grave problema associado a uma pesquisadora tão proeminente e a uma publicação em um periódico de ponta volta a chamar a atenção para a inexorabilidade da verificação da reprodutibilidade dos resultados reportados. Só assim, os resultados deles provenientes podem ser chancelados como aceitáveis pela comunidade científica em geral. A profusão de periódicos disponíveis para publicação científica, muitos de qualidade duvidosa, só reforça a importância dessa verificação nos dias de hoje.

Existe ceticismo generalizado sobre muitos dos resultados reportados em periódicos científicos. Um recente levantamento feito pela revista Nature, o outro periódico ícone da elite da publicação científica mundial, mostra dados alarmantes sobre a capacidade de reprodução de resultados correntemente sendo publicados. E mais recentemente, na semana passada, a própria Science divulgou que uma investigação da Academia de Ciências da Russia levantou suspeição sobre 2528 artigos publicados em periódicos russos, recomendando em um relatório preliminar a sua retirada.

Essas notícias estão em estreita consonância com as preocupações externadas na postagem da semana passada. Vários pesquisadores não tem dúvida que o fenômeno é muito mais abrangente e permeia toda a comunidade científica, especialmente para grupos mais antenados para a busca de quantidade de publicações em detrimento da qualidade, resvalando para um comprometimento da ética. Esse é um dos problemas atuais da Ciência para os quais a postagem da semana anterior procurou apontar soluções.    


terça-feira, 7 de janeiro de 2020

Rumo rápido para a Ciência lenta


Uta Frith é uma simpática (como ilustrado na foto acima) e extremamente bem sucedida pesquisadora sobre Desenvolvimento Cognitivo da University College de Londres, na Inglaterra. Ela tem como temas principais de pesquisa o autismo e a dislexia. Além de pesquisar, ela tem uma série de outros compromissos profissionais de destaque, como cargos de direção no seu próprio departamento, projetos de pesquisa com grupos de outros países, coordenação de seu próprio laboratório, membro da prestigiosa Royal Society (já mencionada aqui) e foi recentemente presidente da British Science Association.

Além dessas atividades estritamente no âmbito acadêmico, ela também passou a se interessar pela divulgação de seu trabalho científico para a sociedade em geral (dentro do espírito do StatPop). Esse processo parece ter tido início com o interesse da BBC pelos seus temas de pesquisa. Em função disso, ela realizou alguns documentários para a emissora estatal britânica. A partir daí, ela começou a desenvolver um blog e uma ativa conta no twitter.   

Essa introdução é apenas para contextualizar a excelência e a proficiência científicas da Profa. Frith. Quem quiser fazer uma busca na produção científica, poderá ter uma boa idéia ao visitar o seu Google Scholar e verificar seu impressionante índice h de 120, com um total de cerca de 90 mil citações! Assim, ela está longe de ser uma professora improdutiva, que defende a mediocridade na Ciência.

Mas essa professora vem externando há algum tempo preocupações com os rumos que a Ciência vem tomando nos últimos tempos. Mais recentemente, ela acaba de publicar no volume de janeiro de 2020 do periódico Trends in Cognitive Sciences (Tendências em Ciências Cognitivas, em português) o artigo com o título desta postagem. O resumo do artigo diz
"A Ciência Rápida é ruim para os cientistas e ruim para a ciência. A Ciência Lenta pode realmente nos ajudar a progredir mais rapidamente, mas como podemos desacelerar? Aqui, ofereço sugestões preliminares de como podemos fazer a transição para uma cultura de pesquisa mais saudável e sustentável."
Nesse artigo, Uta vai além do usual, que é reclamar do atual estado da Ciência, onde existe uma pressão para publicar mais, em oposição a publicar melhor. O oposto da frase anterior serve para alertar a existência de grupos usando a proliferação de artigos irrelevantes para justificar a sua ausência de produção científica. Ainda que cada vez mais diminuta, essa contra-producente postura ainda pode ser encontrada em muitas universidades brasileiras. 

Assim, é com um certo receio que trago o assunto e as proposta da professora Frith. Mas suas idéias são interessantes e merecem ser trazidas para a mesa de debates. No artigo, ela vai além de reclamar e faz propostas no sentido de combater a chamada Ciência Rápida. Essa Ciência é aquela que busca resultados rápidos e portanto mais coadunada com a produção em massa de artigos com resultados mais limitados.  

No seu artigo, ela argumenta a favor de restrições que compelissem os pesquisadores a produzir Ciência com maior qualidade. Entre essas restrições, ela inclui um limite no número de apoios financeiros e um limite no número de artigos publicados por ano. Ela chega a propor que cada autor publicasse apenas 1 artigo por ano! Obviamente, ela sabe que sua proposta é utópica e reconhece isso. Como boa comunicadora, ela sabe que fazendo propostas bombásticas trará mais atenção à sua "causa" e forçará uma maior reflexão na comunidade científica internacional.

O texto completo de seu artigo pode ser lido aqui.

terça-feira, 24 de dezembro de 2019

Retrospectiva 2019

Fonte: arquivo pessoal

Depois de uma longa ausência, retomo as atividades aqui para fazer a já tradicional retrospectiva anual do StatPop. Entretanto, o apanhado deste ano será um pouco diferente dos anteriores. Ele terá um tom mais pessoal para tentar recuperar um pouco do que ocorreu ao longo deste ano.

Este foi um ano de mudanças importantes na minha vida profissional, que tiveram reflexos na minha vida pessoal. A principal mudança foi a minha aposentadoria da UFRJ, depois de 32 anos de trabalho ininterrupto. Essa não é uma marca que se obtém todo dia. Além disso, afora empregos temporários e de curta duração, esse foi meu único vinculo empregatício até então. Isso deixa muitas marcas em um profissional. 

Para começo de conversa, quero deixar clara minha imensa gratidão com essa instituição. Ela foi meu 2o lar por mais tempo de vida do que o tempo em que ela não foi meu 2o lar! Sou o que sou como profissional graças à UFRJ. Lá aprendi a ser professor, a dar aulas de pós-graduação, a orientar alunos de graduação e de pós-graduação, a construir uma bem-sucedida carreira de pesquisador e também a colaborar com a instituição exercendo atividades de administração acadêmica. Devo a ela o que possuo de bens materiais e, mais importante, imateriais. Sigo mantendo atividades na UFRJ, mas agora na qualidade de colaborador. Essa atividade é sem remuneração mas em compensação é sem pressão, sem reuniões e sem cargos! 

A foto acima ilustra a bonita homenagem de despedida que alguns colegas de trabalho me proporcionaram. O local não poderia ser mais apropriado: o hall de entrada do Laboratório de Sistemas Estocásticos (LSE). Considero esse laboratório como um dos meus maiores legados para a UFRJ, ao fornecer um ambiente voltado para pesquisadores com interesse em Estatística trabalharem e trocarem idéias. O evento foi de forte carga emotiva para mim pelas várias mensagens recebidas. Fiquei particularmente emocionado com a visita e os agradecimentos de alunos da última turma de graduação que dei aulas, no 1o semestre deste ano.

Por outro lado, aproveitei a oportunidade que a vida me proporcionou para experimentar trabalho acadêmico em outra instituição. Tive a sorte de ter sido aceito como professor visitante de uma outra instituição de ponta no cenário nacional, a UFMG. A proposta me foi bastante atraente não só pela chance de um recomeço mas pela vinculação ao Programa de Pós-Graduação em Estatística, pelo qual sempre tive uma grande admiração. Lá posso continuar a fazer o que continuo gostando (dar aulas e fazer trabalho de investigação científica) sem ter os aborrecimentos inerentes aos compromissos administrativos.

Essa mudança profissional teve importantes reflexos na minha vida pessoal. Para começar, me fez mudar de cidade e estado de residência. Além disso, me obrigou a conhecer novas realidades. Por mais que o país seja o mesmo, há sempre peculiaridades pessoais e profissionais que, quando melhor compreendidas, facilitam a adaptação nesses dois níveis. Esse processo levou mais tempo que eu tinha antecipado. Isso tomou um pouco mais de minha energia e do meu foco do que eu tinha imaginado, ajudando a explicar um pouco o meu afastamento desse convívio do StatPop, que tanto me agrada.

O que 2020 nos trará ainda é uma incógnita. Sabemos da importância dos novos desafios (Ciência dos Dados e interação com outras áreas da Ciência entre eles) e devemos encará-los de frente. Felizmente, trabalho não nos faltará!

terça-feira, 22 de outubro de 2019

Probabilidade Bayesiana para bebês

Fonte: Arquivo pessoal

A foto acima é da capa de um livro cujo título Bayesian Probability for babies me chamou a atenção. O livro foi escrito pelo canadense Chris Ferrie, que possui uma prolífica carreira profissional como pesquisador e também como pai de 4 lindas crianças. Talvez essa tenha sido a maior motivação para sua abundante produção de livros para crianças, apresentando uma introdução simples para os diferentes temas científicos tratados. Ele obteve doutorado em Matemática Aplicada trabalha na área similar de Física Quantica em seu emprego acadêmico em Sydney, Austrália.  Mais informações sobre o autor podem seu obtidos aqui.

A mais correta tradução do título seria Probabilidade Bayesiana para bebês, o que envolve uma expressão não muito comum. Eu pelo menos nunca tinha visto antes a expressão probabilidade Bayesiana, mas acredito que o autor tenha preferido usa-la em detrimento de outras mais comuns como Inferência Bayesiana ou Estatística Bayesiana por torna-la mais acessível às crianças. Afinal, probabilidade é um conceito muito mais coloquial que estatística ou inferência e portanto mais acessível a quem está começando a conhecer o mundo.

O que é o livro faz não é nenhuma novidade na literatura infantil. Ele procura apresentar seu conteúdo de forma lúdica, com poucas páginas, muitas figuras e pouco texto em cada página. Ele começa falando sobre teoria de conjuntos, espaço amostral e cálculo elementar de probabilidades. O contexto que o autor escolhe para fazer isso é o de biscoitos com gotinhas de chocolate. Ele inicia fazendo aplicações de probabilidade condicional e de cálculo de probabilidades via teorema de Bayes. Após fazer isso, ele dá um passo extra e estende as idéias para distribuição a priori e a posteriori. Ele apresenta essas distribuições de forma ilustrada.

O livro é apresentado como apropriado para crianças a partir de 2 anos. Efetivamente,  minha amostra de tamanho 1 tem essa idade e demonstrou interesse no livro. Acho até que algo passa para ela ao folhear o livro. Mas efetivamente a elaboração das idéias me parece muito além do que alcança o raciocínio de uma criança dessa idade. Mas a apropriada escolha das figuras elucidativas usadas no livro parece fazer efeito até para essa tenra idade. Obviamente, a completa compreensão das idéias só será atingida muitos anos depois. Mas entendo o livro como um documento disponível para revisitas a cada tantos meses, cada vez com maior compreensão do seu conteúdo. 

Engana-se quem, como eu, achava que o autor criou e desenvolveu um novo filão da literatura de divulgação científica. Uma busca revela que se trata de uma área bastante desenvolvida da literatura científica, bem como outras áreas fazendo tratamentos voltados para públicos especializados. Acho que existe um mercado bastante atraente para autores em um mundo cada vez mais vibrante em informação e com crescente demanda por conhecimento para um cada vez mais competitivo mercado de trabalho. 

Pode se discutir quando se deve iniciar a formação profissional de um indivíduo. Mas me parece que introduzir conhecimento, sempre com parcimônia e respeitando os limites dos leitores, não pode fazer mal. Muito pelo contrário! 

terça-feira, 1 de outubro de 2019

Pedido de concessão de Doutor Honoris Causa ao Prof. Adrain Smith


por Basilio B. Pereira e Dani Gamerman

Este documento trata da justificativa e motivação para concessão do título de Doutor Honoris Causa pela UFRJ a um dos mais proeminentes matemáticos, estatísticos e administradores científicos mundiais.

O documento apresenta inicialmente comentários sobre a contribuição de Sir Adrian para a Ciência. Em seguida, descreve sua importância para a pesquisa científica no mundo, no Brasil e em particular na UFRJ. Em seguida, anexamos o curriculum vitae de  Sir Adrian Frederick Melhuish Smith e apresentamos vários outros documentos atestando a relevância da trajetória científica do Prof. Adrian Smith e a abrangente visão de Ciência do mesmo.

Introdução

The mediocre teacher tells
The good teacher explains
The superior teacher demonstrates
The great teacher inspires.

Esse documento procura justificar o estabelecimento de uma vinculação formal do Prof. Sir Adrian F. M. Smith à Universidade Federal do Rio de Janeiro. O Professor Adrian Smith é uma das maiores personalidades científicas da Estatística da atualidade. Ele foi protagonista na revolução que foi operada na Estatística na virada do século pela introdução de ferramentas computacionais. Antes dessa revolução, a Estatística já sabia da necessidade de técnicas computacionais mas não as tinha ou não as conhecia. Adrian percebeu desde cedo essa necessidade e encontrou várias alternativas. Muitas delas levaram a bons resultados mas se mostraram de difícil implementação. Então na última década do século passado, ele publicou um artigo seminal que descortinou uma nova possibilidade: MCMC ou Monte Carlo via cadeias de Markov. MCMC permitiu que toda atividade, que estava represada, pudesse se concretizar por completo. Essa técnica é útil para toda a Estatística mas provou ser particularmente adequada para utilização e viabilização da abordagem Bayesiana. A Estatística mudou a partir desse momento, mas Sir Adrian não parou por aí.

Com a sensação de fechamento de um ciclo, ele passou a se dedicar cada vez mais à administração científica e galgou passos ainda mais altos na estrutura acadêmica britânica. Ele foi reitor de importantes universidades, estabeleceu diretrizes para ensino da matemática no Reino Unido e assumiu cargos equivalentes ao de ministro da Ciência. Todos esses pontos serão detalhados nas seções seguintes deste documento mas vale antecipar que essa atuação o levou a uma das maiores honrarias do Reino Unido: o título de Sir. Gostaríamos de concluir esta introdução, falando um pouco da relação do Professor conosco e com a UFRJ.

Um de nós (BBP) conheceu Sir Adrian ainda em 1972, quando assistiu diversas palestras do mesmo e acaloradas discussões que ele (e os outros dois promissores estatísticos, também alunos do Professor Lindley) promoviam com os palestrantes dos Fridays Seminars (seminários das sextas) da Universidade de Londres. Esses seminários conjuntos dos departamentos de Estatística das universidades londrinas se iniciaram nos anos 1930. BPP tambem assistiu nestes seminários um minicurso de Sir Adrian e do Professor Lindley sobre o importante livro de Bruno de Finneti (com discussão de Cox, Welch, e Birnbaun). Esse livro propôs uma fundamentação teórica alternativa da abordagem Bayesiana para a inferência estatística. Isso foi muito importante para o subsequente avanço dessa abordagem. Mais tarde em 1980, BBP promoveu a visita de Sir Adrian por 3 meses ao Instituto de Matematica da UFRJ onde também participou em 1980 do Simpósio Nacional de Probabilidade e Estatística, o mais importante encontro científico de Estatística do país naquele momento. Suas notas de aula para esse curso (Smith, 1980) estão armazenadas na biblioteca do IM/UFRJ e contém vestigios de algumas das idéias que anos mais tarde se tornaram tão importantes.

O outro de nós (DG) conheceu Sir Adrian quando se dirigiu ao doutorado no Reino Unido em 1983, anos mais tarde em 1987, quando defendeu sua tese de doutorado, teve o privilégio de contar com a presença de Sir Adrian na sua banca de avaliação. Logo a seguir, houve a revolução do MCMC com Adrian no seu centro e seu departamento no Imperial College de Londres como um dos principais locais do seu desenvolvimento. DG escolheu esse local para fazer seu pós-doutoramento em 1994 e conhecer de perto e das mãos de seus principais desenvolvedores. Essa visita foi um ponto de inflexão na carreira de DG. Além de vários trabalhos científicos, DG se envolveu na difusão dessa técnica, através de minicursos e palestras aqui no país. Livros didáticos surgiram como consequência desse envolvimento, inicialmente em português e posteriormente também em inglês. Junto com outros docentes da Estatística da UFRJ, a Estatística Bayesiana passou a ser mais difundida no Brasil e a UFRJ foi (e continua sendo) um dos polos mais importantes dessa difusão científica. A partir daí, Sir Adrian enveredou para um caminho que o levou a ter uma agenda muito congestionada, dificultando seus deslocamentos. Mesmo assim, ele ainda visitou a UFRJ em mais um par de ocasiões. Sendo assim, acreditamos que temos presente aqui as condições para a concessão ao Professor Sir Adrian F. M. Smith do título de Doutor Honoris Causa da UFRJ. As seções seguintes procurarão detalhar os atributos acadêmicos e profissionais de Sir Adrian.

Sir Adrian, o cientista

A influência de Sir Adrian para a ciência pode ser medida não só pelo seu curriculum, a ser detalhado nas seções seguintes, mas também pelas honrarias recebidas. Em particular, ele se tornou membro (fellow) da Royal Society. Essa é a prestigiosa academia de ciência do Reino Unido e apenas os mais exemplares cientistas são aceitos como membros. Dentre os estatísticos, o número de membro da Royal Society não passou de uma dezena. Sir Adrian também foi presidente de uma das mais antigas e importantes associações de estatísticos, a Royal Statistical Society, que congrega os estatísticos vinculados ao Reino Unido.

Sir Adrian também foi chefe do departamento de Matemática do Imperial College, Reitor do Queen Mary College (uma das escolas que compõe a Universidade de Londres), foi Reitor da Universidade de Londres, foi Diretor do Departamento de Business, Innovation and Skills (órgão governamental que fornece subsidios e distribui recursos da ordem de bilhões de libras para toda a área de Ciência e Tecnologia do Reino Unido), e vice-diretor do UK Statistics Authority (instituição voltada para controle e supervisão do bom uso da Estatística pelo governo). Atualmente é diretor do recém-criado Instituto Alan Turing (criado para agregar o setor produtivo e a academia na busca de soluções inovadoras para problemas envolvendo grandes massas de dados).

Como resultado de todo esse envolvimento institucional para o avanço da Estatística e da Ciência como um todo, o Professor Adrian Smith foi honrado com a concessão do título de Sir pela monarquia britânica. Esse honraria resume o justo reconhecimento de toda uma carreira voltada para o avanço da Ciência nas mais diferentes formas em que esse objetivo possa ser alcançado, partindo da produção científica de conhecimento inovador e chegando à administração dessa geração e passagem de conhecimento.

Outra contribuição muito importante de Sir Adrian para o avanço da Estatística Bayesiana foi a organização dos encontros de Valencia. Adrian esteve nesse projeto desde a 1a edição em 1979. A equipe organizadora inicial contou com ele, seu orientador e um dos seus ex-colegas do doutorado. Esses encontro passaram a ser realizados a cada 4 anos e foram o ponto focal para estabelecimento de
padrões, definição de metas e discussões gerais sobre a área. Isso foi possível por um bom tempo porque naquele momento a quantidade de pesquisadores ativos na área não passava de uma centena. Com o tempo, esse número foi aumentando com o sucesso da Estatística Bayesiana graças aos avanços trazidos pelos pesquisadores da época e repercutidos e ecoados nesses míticos encontros. Em seu final, após mais de 10 edições, já havia sido criada a sociedade internacional de estatísticos Bayesianos e esses eventos passaram a ser organizados por essa associação, já com várias centenas de
participantes. Mas a liga que esses encontros de Valencia deu a essa geração de pesquisadores marcou época.

Ainda no cargo de Reitor do Queen Mary, Sir Adrian chefiou uma investigação no estado do Ensino Médio na área de Matemática no Reino Unido. Sempre inquieto, ele levantou vários pontos e preparou um dossiê que suscitou muita discussão acalorada na época sobre as mudanças inovadoras que ele introduziu. Nessa oportunidade, ele pode exercitar toda sua capacidade de negociação política pois foi sujeito a várias críticas contundentes vindas do alto escalão do governo e se manteve firme nas suas posições.

Sir Adrian, o professor e orientador

O professor Adrian sempre foi um excelente professor, sempre explicando os conceitos aos seus alunos com paciência e objetividade. Ele consegue transmitir conhecimentos sem prejuízo da profundidade que o assunto exige com o mínimo de palavras.  Ele é a quintessência da concisão britânica. Além disso, o faz sempre com bom humor e utilizando elementos lúdicos para facilitar a compreensão pelos interlocutores, sejam eles alunos de graduação em uma sala de aula ou renomados participantes dos congressos mais importantes da área.

Toda essa energia não poderia ficar contida apenas em salas de aula ou de auditórios de conferências. Ele foi generoso o suficiente para passar o seu conhecimento em escala mais individualizada a dezenas de orientados de doutorado e de pós-doutorado (entre os quais um de nós (DG) teve o privilégio de ser incluído).

Uma busca na internet na sua genealogia acadêmica forneceu a lista de 42 orientados de doutorado. A grande maioria desses nomes se tornou pesquisador de prestígio no cenário internacional da Estatística e áreas afins. A título de ilustração, gostaríamos de destacar apenas 2 nomes: David Spiegelhalter e Mike West. O primeiro é um pesquisador de muito prestígio pela sua divulgação da Estatística e o segundo construiu uma sólida carreira à frente do Departamento de Estatística da Universidade de Duke, nos Estados Unidos.

A relevância do Professor Spiegelhalter para o avanço da Ciência teve início quando ele esteve à frente do projeto BUGS. Esse projeto construiu uma plataforma para análises de dados sob a abordagem Bayesiana usando a metodologia MCMC. Conforme dissemos na seção 2, essa metodologia revolucionou a Estatística no final do século passado graças ao trabalho do Prof. Adrian Smith. Faltava ainda adaptá-la aos diferentes modelos usados e aplicá-la aos conjuntos de dados. O projeto BUGS cuidou de fazer isso para uma gama muito abrangente de situações e viabilizou o uso da metodologia Bayesiana a todos usuários ávidos em usá-la mas que não conseguiam fazê-lo por falta de treinamento matemática. Isso acabou após o BUGS e uma pequena revolução teve início com psicólogos, médicos, engenheiros, geólogos, meteorologistas e outros profissionais com conhecimento básicos de Estatística podendo fazer análises de seus dados. Após esse avanço aplicado, o Prof. Spiegelhalter se dedicou à divulgação da Estatística para a sociedade em geral. Seu trabalho adquiriu muita proeminência na sociedade britânica e acabou por lhe render também a honraria de Sir, em um reconhecimento institucional do valor de sua contribuição.

O departamento de Estatística de Duke foi basicamente criado após a chegada do Prof. West e foi sua grande marca institucional. Como pesquisador, ele deixou sua marca em centenas de artigos, muitos deles publicados em periódicos de elite e abridor de novos caminhos para a Estatística em áreas como Séries Temporais, Modelagem Hierárquica e Estatística Não-Paramétrica. Com sua capacidade organizadora e científica, o Prof. West atraiu excelentes pesquisadores para o departamento, que se tornou desde então uma referência mundial no avanço da inferência Bayesiana. Não surpreende que ele tenha herdado de Sir Adrian também a capacidade de orientação. Ele formou dezenas de de orientados (entre os quais um de nós (DG) e outros 4 brasileiros), chegando até mesmo a superar quantitativamente o seu mestre e orientador.

Assim, Sir Adrian sempre teve grande generosidade em sala de aula e também na questão científica formando excelentes alunos e pesquisadores, com grandes contribuições para a Estatística e áreas afins.

Sir Adrian, o pesquisador

Genius is one percent inspiration and ninety-nine percent pespiration. (Thomas Edison)

The life of an individual is the product of GENIUS the acronym for the combined effect of Genetics, Education, Nurture, Iniciative, Upbringing and Serendipity. (C. R. Rao)

Adrian Smith começou sua carreira científica com o pé direito. Seu orientador Dennis Lindley foi responsável por boa parte da fundamentação teórica dos avanços da Estatística Bayesiana em meados do século passado. O tema que ele tomou para a tese de Sir Adrian no início das anos 1970 foi modelagem hierárquica. Essa é uma área imprescindível para qualquer análise de dados nos dias de hoje com um mínimo de estruturação, como é bastante comum atualmente. Mas naquele momento, ainda estava iniciando e a contribuição da tese de Sir Adrian foi de jogar luz sobre como usá-la e obter resultados com ela. O artigo principal de sua tese é até hoje um dos artigos mais citados de Estatística.

Ele prosseguiu na linha de construção de modelos e obtenção de mecanismos capazes de avalia-los tanto na sua produção científica quanto nas suas orientações. Mas progressivamente ele foi percebendo que isso não teria muito futuro fora das fronteiras da Estatística pela dificuldade no processamento de dados para análises de dados reais. Assim, com o passar do tempo ele foi dedicando mais e mais esforço de sua investigação na obtenção de técnicas aproximadoras de boa qualidade para gerar resultados confiáveis para os usuários da Estatística Bayesiana.

Nessa direção, ele transitou por adaptação de técnicas de quadratura, aprimoramento de algoritmos de buscas de máximos de funções, e de técnicas de simulação via Monte Carlo. Uma das áreas mais em voga hoje é Monte Carlo sequencial, cuja origem pode ser identificada com o trabalho que Sir Adrian desenvolveu em uma das suas orientações de doutorado em meados dos anos 1980. Mas sem dúvida, seu grande achado ainda estava por vir através do MCMC, técnicas de Monte Carlo usando cadeias de Markov. Essas técnicas já existiam há décadas e até eram usadas em nichos específicos de Estatística, como reconstrução de sinais. Mas foi apenas após um artigo escrito por Sir Adrian falando das suas boas propriedades que o mundo virou seus olhos para essa técnica e não a largou mais até os dias de hoje, 3 décadas após. E esse avanço devemos diretamente a Sir Adrian!

Vários artigos importantes foram escritos por ele a partir daí nesse tema para robustificar a metodologia que ele tinha identificado. Esse furor científico tornou ele um dos 10 estatísticos mais citados do mundo na virada do século.

Vale destacar que o afinco necessário à produção de todo esse conhecimento metodológico não o impediu de se envolver diretamente em alguns dos problemas das áreas da Ciência usuárias da Estatística. Um das grandes áreas de sua maior atuação foi sem dúvida a Medicina e áreas afins. Títulos de seus artigos contendo expressões como kidney transplant, bioequivalence studies, radioimmunoassay, perinatal mortality e pharmacokinetic modelling abundam, num atestado eloquente de seu envolvimento aplicado.

Mas a mente de Sir Adrian já tinha mudado de foco. Ele achou que já tinha atingido o ápice, seu grande objetivo como pesquisador de Estatística de viabilizar a análise de dados sob a ótica Bayesiana a todos os seus usuários não-estatísticos. Sua mente precisava de maiores desafios, que necessariamente deveriam estar fora dos limites de um pesquisador em sua área específica, a Estatística.

A partir daí ele se envolveu mais e mais com a administração científica conforme descrevemos nas seções anteriores.

Curriculum Vitae de Sir Adrian

The man who wakes up and finds himself famous hasn't been asleep.

Sir Adrian é co-autor de 3 livros, entre os quais a referência Bayesian Theory, um clássico da fundamentação teórica da Estatística Bayesiana. É o livro-texto de cursos de Pós-graduação em várias  universidades, incluindo a UFRJ, onde é usado na disciplina mais importante do Doutorado em Estatística.

Sir Adrian também co-editou 13 livros, entre os quais os 9 livros que serviram de Anais dos lendários encontros de Valencia. Esses livros, além de seu importante conteúdo científico, são um relato da história da Estatística Bayesiana. Eles contem os textos de todos as conferências convidados mas também as discussões que eles ensejaram durante o encontro, fornecendo um rico levantamento das reflexões sobre os temas sendo propostos no momento.

Ele também publicou 139 artigos científicos em periódicos de Estatística e áreas afins ao longo de 3 décadas de produção científica. 28 desses artigos foram publicados em um dos 4 periódicos de elite da Estatística, em um atestado indiscutível da altíssima relevância de sua contribuição científica para o avanço da Estatística. A sua contribuição mais relevante foi sem duvida o artigo de 1990 intitulado Sampling-based approaches to calculating marginal densities, em co-autoria com Alan Gelfand. Nesse artigo, ele compara o MCMC (vide seção 2 deste documento) com outras técnicas de aproximação e mostra a eficiência dessa técnica. Mais importante que isso, esse artigo mudou a Estatística ao mostrar que a técnica não só era boa como era de uso geral e indiscriminado, conhecimento que não era disseminado na comunidade estatística. A partir daí, resultados antes represados pela ausência de ferramental para obtê-los, puderam ser explicitados e a Estatística Bayesiana explodiu como meio de obtenção de resultados de análises estatísticas.

A Estatística Bayesiana, até então considerada interessante porém inviável, se mostrou uma forma potente e abrangente para ser usada para todos os analistas de dados nos seus mais diversos problemas e análises de dados.

Suas principais área de atuação não se restringiram aos estudos sobre MCMC. Ele teve grande influência em modelos hierárquicos Bayesianos, escolha de modelos, modelagem robusta, estatística não-paramétrica, técnicas de classificação, amostragem Monte Caro e filtro de partículas.

Tudo isso pode ser comprovado na lista completa de artigos, livros e traduções de Sir Adrian. Essa lista foi extraída de Damien et al (2013), um livro editado por ex-orientados de Sir Adrian e feito em homenagem a ele. Todos os capítulos desse livro escritos por pesquisadores influenciados por Sir Adrian, entre os quais um de nós (DG).

Ainda no tema de disseminação, Sir Adrian também teve papel importante como tradutor para o ingês do livro: Theory of Probability, do italiano Bruno De Finetti. Esse livro fornece uma forma alternativa de justificar o uso da abordagem Bayesiana para a Estatística e essa tradução permitiu a disseminação dessa defesa do método para toda a comunidade científica internacional.

Entrevistas de Sir Adrian

Every man is entusiastic at times. One man has enthusiasm for fifty minutes, another for fifth days, but it is a man who has it for fifty years who makes a success of life.

Algumas entrevistas de Sir Adrian  podem ser vistas em:





Considerações finais

Esperamos que esse resumido arrazoado tenha dado a correta dimensão da proeminência científica do Professor Sir Adrian Smith não só para a Estatística como para a Ciência como um todo.

Trata-se de um profissional com uma carreira que varreu todos os campos da Ciência desde a produção científica e sua disseminação para a sociedade, passando por cargos acadêmicos de mais alta importância e contribuição para associações e instituições científicas e chegando até a militância na política com vistas a um melhor aproveitamento dos recursos gerados pela Ciência.

Na nossa opinião, a Universidade Federal do Rio de Janeiro só tem a ganhar, e muito, em ter seu nome associado a uma personalidade de tamanha estatura no seu quadro de Doutores Honoris Causa.

Referências

Paul Damien, Petros Dellaportas, Nicholas G. Polson, and David A. Stephens (eds.) (2013). Bayesian Theory and Applications. Oxford University Press.

A. F. M. Smith (1980) BAYESIAN LINEAR MODELS COURSE AND TALKS ON CURRENT RESEARCH. Notas de Aula do IM/UFRJ. Disponível na Biblioteca de Pós-Graduação do IM/UFRJ

terça-feira, 17 de setembro de 2019

Adrian Smith é Doutor Honoris Causa da UFRJ


Em sessão realizada na última 5a feira, 12 de setembro de 2019, o Conselho Universitário da UFRJ aprovou a concessão do título de Doutor Honoris Causa da UFRJ ao Professor Sir Adrian F. M. Smith. Para chegar até o Conselho Universitário, o pedido feito pelo professor Basílio de Bragança Pereira e por mim passou pela aprovação do Departamento de Métodos Estatísticos, pela Congregação do Instituto de Matemática e pelo Conselho do Centro de Ciências Matemáticas e da Natureza, todos órgãos da UFRJ. Além disso, o pedido foi apoiado pela Congregação da Faculdade de Medicina e pela direção do Instituto do Coração Edson Saad, também órgãos da UFRJ. 

Vale destacar que em todas essas instâncias, a aprovação do pedido se deu de forma unânime. Essa rara combinação só atesta a importância da trajetória do professor Adrian. Esse ponto foi destacado na sessão do Conselho Universitário, onde alguns conselheiros pontuaram a satisfação em formalizar essa conexão com pesquisador de renome mundial de tamanha envergadura.

Títulos de Doutor Honoris Causa são outorgados por instituições acadêmicas. Segundo a Wikipedia,  Doutor Honoris Causa "é uma locução gramatical latina (em português: "por causa de honra") usada em títulos honoríficos, não comercial, concedidos por universidades a pessoas eminentes, que não necessariamente sejam portadoras de uma graduação acadêmica (ou diploma), mas que destacaram-se em determinada área (artes, ciências, filosofia, letras, promoção da paz, de causas humanitárias etc.), por sua virtude, mérito ou serviços que transcendam famílias, pessoas ou instituições. Isto é, atingiu um alto nível de reconhecimento profissional e de feitos significativos, a ponto de ser considerado grau honorário de doutor.

Com efeito, a lista de doutores Honoris Causa da UFRJ inclui expoentes da ciência mundial como Albert Sabin (inventor da vacina contra a poliomielite), Alexander Fleming (inventor da penicilina), Claude Cohen-Tannoudji (prêmio Nobel de Física, registrado na foto acima), Konrad Bloch (prêmio Nobel de Química), e Selman Waksman (prêmio Nobel de Medicina). Mas também tem olhar eclético, contemplando artistas como Augusto Boal, Candido Portinari, Carlos Drummond de Andrade, Gabriel Garcia Marques, Heitor Villa Lobos, Mstislav Rostropovich, Oscar Niemeyer e Ziraldo e políticos e outros homens públicos como Charles de Gaulle, Desmond Tutu, Getulio Vargas, John Kennedy, Lula e Willy Brandt. Como se pode inferir da pequena amostra acima, a lista é extensa e pode ser vista aqui.

Na Estatística, a UFRJ teve apenas a concessão ao Professor Sir David R. Cox, em maio de 2000. A entrega do título foi relaizada em 28 de julho de 2000, tendo o Professor Basílio de Bragança Pereira como proponente e orador. Curiosamente, o Professor Smith ocupou o posto de Professor Titular do Imperial College de Londres que havia sido deixado vago pela aposentadoria do Professor Cox.

Estamos agora aguardando a realização da cerimônia de outorga para os próximos meses e ela será oportunamente divulgada aqui. Trata-se de momento importante para a Estatística da UFRJ e também a nível nacional pelo registro formal de uma conexão com pesquisador de tão alta relevância. 


terça-feira, 30 de julho de 2019

Minimíssil aleatório

Fonte: SporTV

Uma característica marcante da cultura brasileira é sua criatividade, abastecida pela espontaneidade do nosso povo. Ela desponta de diferentes formas e o esporte, por despertar maiores emoções e envolver toda a gama de estratos socioeconômicos, é um terreno fértil para manifestações do gênero. O futebol em particular produz algumas das mais marcantes, pelo seu alto alcance dentro da sociedade brasileira. É bem verdade que a globalização vem produzindo uma diminuição desses tipos de acontecimento mas vez por outra eles seguem ocorrendo. Alguns exemplos podem ser vistos aqui.

São famosas as frases de jogadores de futebol como Dario, carinhosamente conhecido como Dadá Maravilha pelos seus admiradores: "Não existe gol feio; feio é não fazer gol" ou "Não venha com a problemática que eu dou a solucionática" são alguns exemplos, ou de dirigentes como o lendário presidente do  Corinthians Vicente Matheus: "Comigo ou sem migo o Corinthians será campeão", "Minha gestação foi a melhor que o Corinthians já teve" ou "Haja o que hajar, o Corinthians vai ser campeão".

A globalização e a competitividade a nível internacional vem aplacando e domesticando essa fonte, apesar da origem predominantemente humilde da maioria de nossos atletas e futebolistas. Mas alguns poucos remanescentes dessa veia literária teimam em permanecer produtivos entre nós. Um dos melhores exemplos da atualidade é o jogador Marinho, atualmente jogando pelo Santos. O anúncio de sua contratação pelo Santos em seu twitter explorou essa faceta do jogador. Marinho é tão habilidoso em seu ofício quanto em seu domínio da língua portuguesa.

No caso específico do Marinho, tão chamativo quanto o efeito de suas frases é a inocência que as motiva. Nas férias deste último verão, ele deixou que fosse gravada em video uma brincadeira em que ele pedia para ser contratado pelo Flamengo, embora ainda tivesse contrato em vigência com o Grêmio. Isso lhe causou aborrecimentos, especialmente junto a torcedores do clube que defendia na época. Outras vezes, ele reconheceu não saber questões óbvias a respeito do esporte que pratica.

Mas o que isso tudo tem a ver com o StatPop e a Estatística? No fim de semana retrasada, Marinho estava no banco de reservas em um jogo e entrou em campo no meio do 2o tempo. Com poucos minutos em campo, ele marcou um belo gol com um potente chute de fora da área. Esse gol acabou determinando a vitória do seu time, colocando-o com a pontuação de líder da competição. Perguntado após o jogo sobre o bonito gol, ele não teve dúvidas e sacramentou logo no início da entrevista:  "Oxi, aí foi um minimíssil aleatório. Esse é diferente, né?", deixando claras suas simpatia, singeleza e bahianidade. (A foto acima é do momento em que o jogador desferia sua emblemática frase.)

Essa entrevista povoou o noticiário esportivo da semana passada e ficou tão reconhecida quanto o importante gol que garantiu a vitória de seu time. A presença de uma palavra tão cara à Estatística em um contexto onde a Estatística apenas começa a aparecer merece nosso destaque. Não dá para dizer o que uma personagem tão folclórica queria dizer com sua expressão mas talvez ele quisesse apenas registrar a efemeridade do feito alcançado. Afinal, esse particular chute conteve vários aspectos que poucas vezes são encontrados, tais como a surpresa do momento de seu arremate, a força empregada no mesmo e o destino junto a uma das traves. Tudo isso dificultou muito a defesa do goleiro e impediu a intervenção dos adversários na sua tentativa de bloqueá-lo. Mas foi a improvável conjunção de todos esses fatores que deve ter levado Marinho a atribuir a adjetivação aleatório ao seu feito.
   
E a expressão de Marinho parece ter adquirido sobre-vida. ele ontem foi filmado andando em uma motocicleta elétrica. Ele estava nos arredores do centro de treinamento e trajava o uniforme de treino da equipe. O evento em si não tem a menor relevância e só virou notícia devido ao seu personagem. Ele ganhou relevância após o gol e o nome a ele dado pelo seu autor. A maior prova disso foi o nome escolhido como título da reportagem: rolê aleatório!

Num momento em que a Estatística ainda é tão pouco compreendida ou mesmo conhecida pela sociedade em geral, Marinho presta sua contribuição para uma mudança nesse quadro, com o bom humor que o caracteriza. A Estatística agradece e deveria dizer algo do tipo: Obrigado, Marinho! e siga desferindo mais desses seus mísseis que tão bem fazem ao esporte e cultura nacionais. 

terça-feira, 23 de julho de 2019

Relato do IMPS 2019

Fonte: arquivo pessoal


Conforme prometido na última postagem, tratarei de fazer um relato de minhas impressões sobre o recém-encerrado encontro de 2019 da Psychometric Society. Devo começar dizendo que foi uma grata surpresa para mim ver a quantidade mas principalmente a diversidade de temas apresentados e tópicos cobertos. Quando conversei com o atual presidente da Psychometric Society, mencionei esse ponto a ele. Ele me informou que isso não foi um mero acaso mas um esforço consciente da sociedade na direção de temas mais variados que estão se relacionando com a Psicometria ou que possam a ela ser relacionados.

De qualquer modo, a imensa maioria dos participantes era composta de pesquisadores e profissionais vinculados às áreas sociais e humanas, notadamente Psicologia e Educação. Havia estatísticos tambpem mas eram claramente minoria na composição do evento.

Evidentemente, a maioria das apresentações versavam sobre os problemas usuais de psicometria, que se concentram em grande parte em modelos de teoria de resposta ao ítem e de equações estruturais. Entretanto, encontrei vários trabalhos interessantes em outras direções envolvendo temas atuais, como inferência aproximada para modelos incalculáveis e outros usos de técnicas de aprendizado de máquinas e redes neurais (profundas ou não). Tomei contato com vários usos interessantes de modelagem não-paramétrica para promover extensões de modelos usuais em diversas direções.

A palestra de abertura foi proferia por um psicometrista vinculado a um departamento de Psicologia (retratado na foto acima). O tema central da palestra foi a utilização de muitos modelos em inferência Bayesiana e o palestrante fez uma enfática defesa da abordagem conhecida como model averaging em oposição à model choice. Na 1a opção, faz-se inferência considerando todos os modelos contemplados, ponderados por suas respectivas probabilidades (a posteriori). Na 2a opção, utiliza-se algum critério (máxima probabilidade a posteriori, AIC, BIC, DIC, etc) para escolher um único modelo e fazer toda a inferência baseada neste modelo.

Um ponto que me chamou a atenção foi o estilo de algumas das apresentações, claramente com mais ênfase na forma (lúdica) da apresentação do que em seu conteúdo. Pareceu-me ser uma tendência mais associada à Ciência dos Dados, talvez por conta da vastidão de técnicas disponíveis e talvez menos no desenvolvimento propriamente dito dessas técnicas. As palestras mais técnicas que assisti claramente se inseriam em um estilo de apresentação mais convencional, com o qual estou mais acostumado. A palestra de abertura ficou em um formato híbrido, como a foto acima ilustra.

O evento teve cerca de 400 participantes representando 33 países. Houve apresentações para todos os gostos. Afora as conferências, que eram destacadas com no máximo 2 por horário, o grosso da programação consistiu de sessões paralelas de apresentações orais (6 a 8 sessões por horário) e em formato de poster. Assim, havia um cardápio bem variado com muitas pitadas de novidades tanto teóricas quanto de outras disciplinas bem como apresentações específicas de tópicos usuais de psicometria. quem queria ficar dentro do seu nicho, teve o que assistir e quem queria ver novidades também teve. O evento correu no Centro de Extensão da PUC do Chile, em um prédio histórico com um enorme claustro central, devidamente coberto para facilitar a climatização do ambiente. Esse enorme espaço livre foi muito bem aproveitado para os coffee breaks e os almoços, onde a organização forneceu saladas e sanduiches. Isso fomentou a possibilidade de mais interação entre os participantes.Eu mesmo me beneficiei com interessantes e proveitosas trocas de informação. 

Esses encontros ocorrem anualmente, em revezamento de continentes e o próximo já está agendado para os Estados Unidos. Se você tem interesse pelos avanços da área, faço uma forte recomendação para participar.

terça-feira, 16 de julho de 2019

IMPS 2019


A Psicometria é a área da Ciência que cuida da análise de dados provenientes de fenômenos das Ciências Humanas e Sociais. Análises de dados inevitavelmente envolvem a incorporação de incerteza e consequentemente a Estatística é uma componente muito forte de análises psicométricas. essa área tomou um impulso muito grande na 1a metade do século passado. Personagem fundamental desse avanço, Thurstone foi o criador de escalas de inteligência baseadas em análises fatoriais. Outro contribuinte muito importante para o avanço da área foi Frederick Lord, com seu trabalho de caracterização da Teoria de Resposta ao Ítem, já aludida aqui antes. 

Thurtstone fundou a Psychometric Society (sociedade internacional de psicometria) em 1935 e criou a Psychometrika, o periódico que até hoje é o principal meio de divulgação científica da área. Essa sociedade cresceu muito ao longo do tempo e vem realizando encontros anuais há um bom tempo. Ocorrerá ao longo desta semana a edição 2019 do International Meeting of the Psychometric Society (IMPS). Esse evento ocorrerá em Santiago do Chile e ocupará toda a semana.

Eu tenho trabalhos realizados na área, especialmente em Teoria de Resposta ao Ítem (TRI), que foram até apresentados em edições anteriores do IMPS mas por colaboradores. Além disso, fui criador, junto com Caio Azevedo, dos Congressos Brasileiros em TRI. Mas nunca tinha participado de alguma edição do IMPS. Essa lacuna estará sendo preenchida amanhã, quando darei minha conferência no evento.

Essa participação será paradoxal de uma certa forma, pois apresentará um estudo do efeito da poluição na saúde, já tratado aqui. (Curiosamente, a foto que ilustra a postagem sobre poluição foi tomada em um inverno de Santiago.)  Entretanto, o trabalho que irei apresentar é um exemplo de modelagem de dados através de estruturas latentes. Esse é justamente o enfoque principal da Psicometria: extração de fatores latentes para caracterizar traços latentes como inteligência ou nível de ansiedade em estudos psicológicos ou proficiência em estudos educacionais.

Apesar da diferença na área de aplicação da técnica estatística, ele é basicamente um conjunto de procedimentos eminentemente estatísticos. O foco da palestra será evidenciar as similaridades entre as aplicações, que levam ao uso de ferramentas similares. Claro que também explicarei as dissimilaridades, que caracterizam o efeito da poluição na saúde. Várias outras palestras do evento tratam de modelos similares tratando de relação entre variáveis a nível latente. Esse modelos são conhecidos como modelagem de equações estruturais (ou structural equation modeling).

Espero que a palestra seja compreendida assim pela platéia e seja uma contribuição útil para os participantes. Pretendo fazer um relato do evento em uma postagem futura.



terça-feira, 9 de julho de 2019

Novos cursos de Estatística com Ciência de Dados


O tema Ciência de Dados tem sido recorrente aqui no StatPop, sendo a última postagem no tema no início do ano. Desde então aconteceram eventos importantes nesse campo. Acho que estamos em um momento oportuno para voltar a falar sobre o tema. A diferença é que agora vamos nos concentrar em como o Brasil está reagindo a essa novidade na esfera acadêmica. Nesse particular, a única postagem que tenho lembrança foi a de uma breve menção em postagem feita há cerca de um ano.

Desde então juá temos registradas uma série de iniciativas a nível de pós-graduação recém criadas ou já existentes em diversas regiões do país. (A figura acima foi tirada da página inicial de uma dessas inciativas.) A maioria desses cursos me parecem ser a nível de especialização com duração de 1 a 2 anos. Essas inciativas são muito boas e tem refletido o carater interdisciplinar dessa área que vem surgindo, com efetiva participação de estatísticos, especialistas em computação e até matemáticos aplicados.

A pergunta que fica é: e a nível de graduação, como estão reagindo nossas instituições de ensino superior? Parece-me que vários cursos de graduação pelo país vem revisando suas grades curriculares para incluir mais elementos característicos dessa nova área. Os momentos mais impactados pela revisão costumam ser as disciplinas de Estatística Computacional, Modelos de Regressão e Análise Multivariada mas algumas disciplinas eletivas tem sido oferecidas. Esses movimentos tem sido realizados em maior ou menor grau em várias graduações de Estatística espalhadas pelo país, sinalizando uma salutar atualização do currículo oferecido aos alunos de graduação em Estatística.

O resultado será uma formação mais sintonizada com o que o mercado de trabalho está demandando das universidades. Certamente, os alunos que escolheram a carreira de Estatística sairão com uma formação mais atual. Mas com o que isso contribui com a crescente massa de alunos terminando o ensino médio e ansiosos por embarcar nessa nova, promissora e lucrativa carreira que se inicia? Minha impressão é que ajuda muito pouco pois, além de pouco conhecida, a carreira de Estatística não tem sido claramente conectada à Ciência dos Dados. Pelo contrário, parece-me que a Computação tem sido percebida mais próxima a ela que a Estatística.

Recentemente, fomos brindados com a ótima notícia de abertura de uma graduação já para início em 2020 na Universidade de São Paulo, no campus de São Carlos. Essa mudança me parece ir mais além do que foi descrito no parágrafo anterior. Além de uma atualização na grade curricular, essa proposta explicita no nome do curso uma inequívoca vinculação da já conhecida Estatística com a sua prima-irmã recém-chegada ao mundo Ciência dos Dados. Os alunos que ficavam sem resposta adequada no que diz respeito à Estatística. A inciativa da USP procura deixar clara a existência dessa vinculação.

Esse mesmo grupo de São Carlos não parou por ai. Já está em gestação a criação, junto com a Computação, de um curso de graduação em Ciência dos Dados. Nesse curso, volta a ficar oculta no nome a ligação Estatística-Ciência dos Dados mas só no nome. O curso terá uma forte componente estatística e, mais importante, trará os jovens que só se sentiram atraídos pela novidade mas que tem interesse pela base tecnológica ao mundo da Estatística.

Acho que essa duas inciativas descritas acima cumprem o mesmo papel de propiciar aos novos alunos opções que supram de forma adequada a necessidade de formação apropriada para fazer análises de dados (com ou sem maiúsculas no nome). Isso garante a merecida relevância da Estatística no cenário cada vem mais competitivo da formação universitária com vários cursos sendo criados para atrair e dar boa formação aos bons alunos.

Essa iniciativa vai dar certo e atrais mais bons alunos para a Estatística? Ainda é muito cedo para dizer mas tudo indica que sim. De todo modo, sou bastante simpático a esse tipo de movimento mais radical que vise dar a maior visibilidade possível à área em um momento tão delicado para o seu desenvolvimento. Estou na torcida para que dê certo. A Estatística merece!

terça-feira, 25 de junho de 2019

VI COBAL


Ocorreu na semana passada a 6a edição do Congresso Bayesiano da América Latina (COBAL). O evento foi organizado e aconteceu no campus central da PUC do Peru, em Lima. Esta edição contou com 137 participantes que, segundo informado, foi um recorde no número de participantes. O evento contou com 7 conferências, 3 minicursos, 11 sessões convidadas com 3 apresentadores em cada uma delas, 10 sessões de apresentações orais (com 3 a 4 apresentações por sessão) e 2 sessões posters (com 36 apresentações registradas). Contando apenas 1 apresentação por participante já dá um total de cerca de 115 participantes ativos.

A organização do evento seguiu diretrizes já adotadas na 5a edição do COBAL e todas as apresentações foram proferidas em português ou espanhol. Nenhuma apresentação pode ser feita em inglês mas todos os apresentadores dominavam bem ao menos uma das duas línguas. Apesar de um certo estranhamento inicial, todos mais acostumados com a língua semi-oficial da Estatística, o inglês. Aos poucos foi havendo uma adaptação de apresentadores e platéia e considero que esse esquema foi relativamente satisfatório para todos. Tivemos até brasileiros se aventurando no espanhol, língua da grande maioria dos participantes.

Essa restrição às línguas do evento pela organização teve influência direta na escolha dos conferencistas e outros apresentadores. Isso esteve muito longe de ser um problema e a qualidade dos apresentadores escolhidos foi de muito boa qualidade e antenada com a fronteira do conhecimento de Estatística no cenário mundial em diferentes temas. Vale ressaltar que todos esses apresentadores não eram apenas de países de línguas português e espanhol mas todos eram originários da América Latina. Infelizmente, fui o único conferencista afiliado a uma instituição latino-americana; todos os outros estão baseados em instituições de Estados Unidos e Europa. Mas foi muito bom saber que é possível realizar um evento de ótimo nível científico contando apenas com latino-americanos.

Conferência de encerramento do COBAL6 (Fonte: Flávio Gonçalves)

O evento também aproveitou a ausência de uma conferencista para realizar uma assembléia aberta a todos os participantes no espaço liberado na agenda. Essa assembléia teve como objetivo principal a formalização do processo de organização das próximas edições do COBAL. Depois de uma rápida discussão sobre a melhor forma de fazer isso, foi decidido cair uma sessão da ISBA voltada especificamente para a América Latina. Com isso, os COBALs poderiam formalmente passar a ser organizados por esse braço da ISBA, que é associação internacional voltada para a Estatística Bayesiana. Foi falado sobre a importância de estender o alcance da Estatística Bayesiana para todos os países da América Latina mas a formalização dessa sessão ainda será feita. 

As apresentações trataram de temas bastante variados com muita ênfase em análises de grandes massas de dados (big data), sendo boa parte deles provenientes de dados genéticos. Muitas das análises envolveram a identificação e formação de clusters (ou conglomerados) para identificação de padrões. Diferentes estratégias de aproximação para viabilizar a computação e processamento das massas de dados também foram apresentadas. Diferentes métodos para analisar dados sociológicos, com as inerentes dificuldades a certas definições dessa área, também forma apresentados. Outra área contemplada foi amostragem para lidar com diferentes formas de imputação de dados faltantes sob diferentes contextos. 

Vale destacar as ótimas instalações da PUC-Peru em um campus moderno, bonito, bem equipado e funcional. Como exemplo, podemos falar da mesa "infinita" que servia para os usuários do café no subsolo da biblioteca e do Ágora, interessante espaço de convivência (vide foto abaixo) do prédio de Ciências Sociais, onde ocorreu a maioria das atividades do encontro. A existência de vários cafés e restaurantes dentro do campus tornou muito agradável a estadia ao longo de todo o dia no congresso.

Ágora, prédio de Ciências Sociais (arquivo pessoal)

O saldo final do evento foi bastante positivo com um grupo de pesquisadores experientes apresentando visões abrangentes de algumas áreas, tendo por outro lado, um grupo de jovens pesquisadores apresentando contribuições de excelentes nível e densidade. Houve muita discussão de fundamentos e muita discussão de análise de dados, com boa participação de todos. Isso nos traz esperanças de manter (ou quem sabe até aumentar) o bom nível da produção científica em Estatística Bayesiana na América Latina.

terça-feira, 18 de junho de 2019

Estatística e consequências não-intencionais*

Karen Kafadar (Fonte: ASA)

por Karen Kafadar, presidente da American Statistical Association

Muitos anos atrás, Allan Wilks falou sobre as experiências que ele e Richard Becker e John Chambers (co-desenvolvedores de S, o progenitor de S-Plus e R) encontraram entre os usuários. Um de seus comentários permaneceu comigo todos esses anos. Ele ficou surpreso com as maneiras como o S estava sendo usado, formas que eles nunca imaginaram. “Por exemplo, uma pessoa ligou para dizer que S era incrivelmente lento. Tudo o que ele queria era uma matriz de identidade e levava meia hora. Fiquei intrigado; o comando diag (1000) leva uma fração de segundo. Acontece que ele estava criando a matriz com loops for: para (i em 1: 1000) {para (j em 1: 1000) {if (i == j) então A [i, j] = 1 else A [ i, j] = 0}}. Nunca nos ocorreu que as pessoas usariam nosso pacote dessa maneira”.

Recentemente, em reuniões de capítulos, conferências e outros eventos, tive a sorte de conhecer muitos dos nossos membros, muitos dos quais se sentem desconfortáveis ​​com os efeitos das opiniões divergentes sobre os p-valores expressos no suplemento de março de 2019 da The American Statistician (TAS). Os editores convidados - Ronald Wasserstein, Allen Schirm e Nicole Lazar - apresentaram a Declaração da ASA sobre p-valores ​​(2016) ao afirmar o óbvio: “Sejamos claros. Nada na declaração da ASA é novo. ”De fato, os seis princípios são bem conhecidos pelos estatísticos. Os editores convidados continuaram: “Esperávamos que uma declaração da maior associação profissional de estatísticos do mundo abrisse uma nova discussão e chamasse uma atenção renovada e vigorosa para mudar a prática da ciência com relação ao uso da inferência estatística”.

Os autores do suplemento de março de 2019 da TAS ofereceram mudanças. No entanto, como os editores notaram, “as vozes dos 43 artigos desta edição não cantam como uma só. … Para nós, estes são todos os sons de inferência estatística no século 21, os sons de um mundo aprendendo a se aventurar além de p <0,05”.

Um debate saudável sobre abordagens estatísticas pode levar a melhores métodos. Mas, assim como Wilks e seus colegas descobriram, conseqüências não intencionais podem ter surgido: não-estatísticos (o alvo da questão) podem estar confusos sobre o que fazer. Pior, “ao se libertar dos vínculos de significância estatística” como os editores sugerem e vários autores insistem, os pesquisadores podem ler o chamado para “abandonar a significância estatística” como “abandonar completamente os métodos estatísticos”.

Concordamos com a esperança dos editores de que “as estatísticas em ciência e política se tornem mais significativas do que nunca”. Desde que este recente suplemento da TAS apareceu, seus editores convidados estiveram ocupados viajando pelo país e respondendo a telefonemas para discutir e esclarecer os problemas com p-valores com o termo “significância estatística” e com “alternativas aos p-valores”.

Mas podemos precisar de mais. Como exatamente os pesquisadores deveriam implementar esse “novo conceito” de pensamento estatístico? Sem perguntas específicas, perguntas como “Por que se livrar de p-valores é tão difícil?” podem levar alguns de nossos colegas cientistas a ouvir a mensagem como “Abandonar p-valores”… apesar da declaração dos editores convidados: “Nós não estamos recomendando que o cálculo e o uso de valores-p contínuos sejam descontinuados”.

Brad Efron disse uma vez: "Aqueles que ignoram a estatística estão condenados a reinventá-la." Em seu comentário ("Não é culpa do p-valor") após a Declaração ASA de 2016 sobre p-valores, Yoav Benjamini escreveu: Declaração do Conselho sobre os p-valores pode ser lida como desencorajando o uso de p-valores porque eles podem ser mal utilizados, enquanto as outras abordagens oferecidas podem ser mal utilizadas da mesma maneira. ”De fato, p-valores (e todos os métodos estatísticos em geral) podem ser mal utilizados. (Assim podem carros e computadores e telefones celulares e álcool. Até mesmo palavras em inglês são mal utilizadas!) Mas bani-las não impedirá o mau uso; os analistas simplesmente encontrarão outras maneiras de documentar um ponto - talvez melhores maneiras, mas talvez menos confiáveis. E, como escreve Benjamini, os p-valores resistiram ao teste do tempo em parte porque oferecem “uma primeira linha de defesa contra serem enganados pela aleatoriedade, separando o sinal do ruído, porque os modelos requeridos são mais simples do que qualquer outra ferramenta estatística”- especialmente agora que o bootstrap de Efron se tornou uma ferramenta familiar em todos os ramos da ciência para caracterizar a incerteza nas estimativas estatísticas.

Conceitualmente, razões de verossimilhança (LRs) e modelos Bayes hierárquicos e distribuições de probabilidade (nas quais os modelos LR e Bayesiano são baseados) são adições úteis aos p-valores. Mas eles também têm incerteza. Além disso, tente explicar esses conceitos estatísticos para não-estatísticos. (Eu tentei. E todos nós também quando trabalhamos com cientistas não-quantitativos. O bootstrap é muito mais fácil de explicar.) Nosso desafio continua sendo explicar efetivamente esses conceitos para não-estatisticos.

No suplemento de março de 2019 da TAS, Ronald Fricker e seus colegas analisaram 31 artigos publicados em uma edição de 2016 da Basic & Applied Social Psychology (BASP) um ano após seus editores proibirem o uso de estatísticas inferenciais. “Encontramos várias instâncias de autores exagerando as conclusões além do que os dados suportariam se a significância estatística tivesse sido considerada. Os leitores seriam em grande parte incapazes de reconhecer isso porque as informações necessárias para fazê-lo não estavam prontamente disponíveis. ”Eles concluem:“ Em nossa opinião, as práticas que observamos nos artigos publicados na BASP pós-proibição não ajudarão a resolver este problema [inferência adequada]; na verdade, acreditamos que eles vão piorar. ”Fricker et al. também relembram as recomendações da Força Tarefa sobre Inferência Estatística da American Psychological Association (1999), que incluiu Donald Rubin, Frederick Mosteller e John Tukey: “Alguns esperavam que esta força-tarefa votasse para recomendar uma proibição definitiva do uso de testes de significância em revistas de psicologia. Embora isso possa eliminar alguns abusos, o comitê achou que havia contra-exemplos suficientes ... para justificar a tolerância”. 

Onde a mudança para um mundo além de p < 0,05 nos leva? Será que “as estatísticas em ciência e política se tornarão mais significativas do que nunca”, como os autores do TAS propõem? Ou levará a mais confusão, estudos menos interpretáveis ​​e mais associações reivindicadas como importantes, mas talvez não mais do que se esperaria de ter calculado milhares de coeficientes de correlação de Pearson? Se outras revistas citam publicações revisadas por pares em periódicos da ASA como justificativa para revisar suas políticas editoriais para banir valores de p, o núcleo de nossa profissão será ameaçado, e podemos não ver “estatísticas em ciência e política se tornando mais significativas do que nunca".

É reconfortante que “a Nature não está tentando mudar a forma como considera a avaliação estatística dos artigos neste momento”, mas essa linha está enterrada em seu editorial de 20 de março, intitulado “É hora de falar sobre o descarte da significância estatística”. Qual sentença acima será mais memorável? Podemos esperar para ver se outros periódicos seguem o exemplo da BASP e depois responder. Mas então voltamos ao modo "reativo" versus "proativo" (veja a coluna de fevereiro), que, antes de tudo, é como chegamos aqui.

De fato, o ASA tem a responsabilidade profissional de garantir que a boa ciência seja conduzida - e a inferência estatística é uma parte essencial da boa ciência. Dada a confusão na comunidade científica (à qual o suplemento do TAS 2019 revisado por especialistas da ASA pode ter contribuído de forma não intencional), não podemos nos dar ao luxo de relaxar. Afinal de contas, foi isso que nos colocou no caminho do "abuso de p-valores". (Veja a coluna de abril.) 

Em um manuscrito não publicado que ele gentilmente compartilhou comigo enquanto eu preparava essa coluna, Stephen Stigler sugere “Uma nova solução para a 'crise' no teste de significância: Leia Fisher!” Citando o clássico de Fisher, Planejamento de experimentos:
Para afirmar que um fenômeno natural é experimentalmente demonstrável, precisamos, não de um registro isolado, mas de um método confiável de procedimento. Em relação ao teste de significância, podemos dizer que um fenômeno é experimentalmente demonstrável quando sabemos como conduzir um experimento que raramente falha em nos dar um resultado estatisticamente significativo”.
Stigler conclui: “É claro que Fisher não teria considerado um limite diferente, mesmo um tão pequeno quanto 0,005, como uma solução para um problema. Também está claro que Fisher era um fervoroso defensor da ciência reproduzível”. E isso - reprodutibilidade - é o real coração do problema. (Veja o relatório recentemente divulgado pela Academia Nacional de Ciências, Reprodutibilidade e Replicação na Ciência.) Como disse Benjamini: "Não é culpa do p-valor”. 

Tukey escreveu anos atrás sobre os métodos bayesianos: “É relativamente claro que descartar técnicas Bayesianas seria um erro real; tentar usá-los em todos os lugares, no entanto, seria, a meu juízo, um erro consideravelmente maior. ”No contexto atual, talvez ele tenha dito: “É relativamente claro que confiar ou dispensar resultados baseados em um único p-valor seria um verdadeiro erro; descartar inteiramente os p-valores, no entanto, seria, em minha opinião, um erro consideravelmente maior”.

Devemos assumir a responsabilidade pela situação em que nos encontramos hoje (e nas últimas décadas) para assegurar que nossa metodologia estatística bem pesquisada e teoricamente sólida não seja abusada nem descartada categoricamente. Congratulo-me com suas sugestões de como podemos comunicar a importância da inferência estatística e a interpretação adequada dos p-valores para nossos parceiros cientistas e editores de revistas científicas de forma que eles entendam, apreciem e possam usar com confiança e conforto - antes de mudar políticas e abandonar completamente as estatísticas. Por favor, me envie suas ideias!

* artigo publicado em 1 de junho no boletim da American Statistical Association (ASA) .