terça-feira, 13 de novembro de 2018

Super erupção vulcânica apocalíptica que poderia DESTRUIR a civilização está muito mais próxima do que pensávamos

https://www.dailymail.co.uk/sciencetech/article-5125109/Supervolcano-eruptions-regular-expected.html

O título desta postagem poderá atrair a atenção de muitos, assim como atraiu a minha. Trata-se do título de uma reportagem publicada na seção de Ciência do reconhecido jornal britânico Daily Mail, no dia 29 de novembro de 2017. A reportagem apresenta também os sub-títulos 
  • Uma erupção seria capaz de devolver a humanidade a um estado de pré-civilização
  • As gigantescas explosões poderiam liberar mais de 1.000 gigatoneladas de cinzas no ar
  • Super erupções podem ocorrer tão regularmente quanto uma vez a cada 17.000 anos
  • A janela entre super-erupções pode ser tão curta quanto a cada 5.200 anos
Esse título atraiu a atenção da mídia britânica no final do ano passado e a matéria foi repercutida em  vários outros veículos jornalísticos de comunicação, como o The IndependentThe TimesCBC, Pulse e 24hGold. E com certeza, os sub-títulos ajudaram o clima apocalítico ensejado pelo título. Embora não contivessem nenhuma mentira, elas enfatizaram mais os aspectos mais negativos associados a essa possibilidade.

O mesmo tipo de preocupação foi externada no mesmo período, mas de forma independente do artigo do Daily Mail, pela imprensa americana. Nesse caso, a preocupação estava concentrada especificamente no campo de magma situado abaixo da superfície do Parque Nacional de Yellowstone. Exemplos de reportagens sobre isso incluem matérias do New York Post, do IFLScience! e Usa Today.

A reportagem do título foi baseada nos achados científicos reportados no artigo "The global magnitude–frequency relationship for large explosive volcanic eruptions", publicado no volume 482 do periódico científico Earth and Planetary Science Letters, em 15 de janeiro deste ano. O artigo tem autoria de 4 pesquisadores, todos da Universidade de Bristol, no Reino Unido, tendo como 1o autor o professor de Estatística Jonathan Rougier e os outros autores do Departamento de Geociências. O resumo do artigo de Rougier e seus colegas informa (em tradução feita para o português) que

Para vulcões, como para outros perigos naturais, a freqüência de grandes eventos diminui com sua magnitude, conforme capturado pela relação magnitude-frequência. Avaliar essa relação é valioso tanto para os insights que ela fornece sobre o vulcanismo quanto para o desafio prático do gerenciamento de risco. Nós derivamos uma relação global de magnitude e freqüência para explosões de erupções vulcânicas de pelo menos 300Mt de massa irrompida (ou M4.5). Nossa abordagem é essencialmente empírica, baseada nas erupções registradas no banco de dados LaMEVE. Ela difere das abordagens anteriores principalmente em nosso tratamento conservador de arredondamento e sub-notificação de magnitude. Nossa estimativa para o período de retorno de 'super-erupções' (1000Gt ou M8) é 17ka (95% CI: 5.2ka, 48ka), que é substancialmente menor do que estimativas anteriores, indicando que os vulcões representam um risco maior para a civilização humana do que se havia pensado anteriormente.

A última frase do resumo faz referência à estimativa anterior de tempo de retorno de super-vulcões, que era de 45.000 anos a 714.000 anos. Vale notar que apesar de muito mais ampla, ou seja muito mais incerta, essa estimativa anterior ainda assim guarda uma pequena interseção com a estimativa intervalar encontrada por Rougier, que vai de 5.200 anos a 48.000 anos. Foi essa novidade que atraiu a atenção da mídia e possibilitou as interpretações mais catastróficas dos resultados obtidos. O clima de pânico pode ainda ser aumentado pelo fato que as últimas super-erupções aconteceram há cerca de 20.000 anos e a estimativa pontual do tempo de retorno foi de 17.000 anos, tornando ainda mais plausível uma ocorrência para os próximos anos, décadas ou séculos. Em breve, pretendo postar uma reflexão pessoal do Professor Rougier sobre essa cobertura da mídia.

É bem verdade que a humanidade ainda não presenciou uma super-erupção. Mas os conhecimentos científicos nos garantem que tais eventos só acontecem após décadas de avisos emitidos pelo próprio planeta e, no momento, não há nenhum sinal indicando essa proximidade. Rougier tratou de esclarecer que não há motivos para alarmes. Ele procurou classificar sua descoberta com uma importante ferramenta para estabelecer novos parâmetros para (e uma redefinição da urgência de) uma nova forma de estudar a importância e influência que vulcões podem ter na nossa vida. Apenas isso!

terça-feira, 6 de novembro de 2018

Como redigir artigos científicos?

http://ijobs.rutgers.edu

Esse texto foi motivado por um pedido dos alunos do Programa de Pós-Graduação em Estatística da UFRJ para que fosse apresentado uma palestra sobre o tema. Achei o pedido extremamente oportuno e me ofereci para falar um pouco sobre o assunto, baseado na minha experiência. Essa conversa acontecerá amanhã mas resolvi deixar registrado o resultado dessa reflexão aqui no StatPop. A postagem acabou se tornando mais uma digressão sobre princípios que devem reger a redação de artigos do que uma resposta detalhada à pergunta-título dessa postagem. O texto é uma exposição mais voltada para redação de artigos científicos de Estatística. Mas desconfio que muito do que vou descrever aqui vale para várias outras áreas da Ciência, como ilustra a figura acima.

Para começar, vale dizer que a forma primordial de avanço da Ciência é através da publicação de artigos em periódicos para reportar esses avanços. Para garantir que esses textos representem avanços e não retrocessos, todo artigo é submetido a uma bateria de avaliações para verificar se ele está correto cientificamente e se suas contribuições são relevantes. Essas avaliações em geral seguem uma hierarquias, e a maioria dos periódicos científicos tem o seu Editor, que envia o artigo para um Editor Associado, que por sua vez o envia para (em geral) 2 revisores. Os revisores avaliam as contribuições do artigo e remetem sua avaliação para o Editor Associado. Com base nas avaliações dos revisores, o Editor Associado formula sua recomendação para o artigo ao Editor, que finalmente toma a decisão. As decisões mais comuns são aceitar, rejeitar e pedir para o artigo ser revisado. Nesse último caso, o artigo volta para os seus autores modificarem de acordo com o exigido pelo Editor e prepararem uma nova versão até que fique claro (para o Editor) se o artigo merece ser aceito ou rejeitado.

Embora esse processo pareça simples, ele é sujeito a uma série de circunstâncias que podem levar um artigo para um ou outro destino final. E são essas circunstâncias que é importante ter em conta antes de submeter um artigo à publicação em um dado periódico. Para começar, não custa repetir que o artigo deve apresentar resultados que demonstrem claramente um avanço relevante para a Ciência. Assim, é fundamental que os resultados obtidos sejam claramente apresentados e devidamente justificados. 

Além disso, revisores, editores e leitores de artigos em geral estão expostos regularmente a uma série de artigos científicos. Essa demanda diuturna torna difícil que eles possam dedicar a cada artigo o tempo que ele merece. Essa restrição temporal de todos os leitores faz com que seja muito importante que o artigo seja bem apresentado. Se assim for, seus leitores terão interesse em ler com toda a atenção o seu conteúdo e fazer a avaliação mais justa possível.

Grande parte de um artigo deve ser dedicada às suas contribuições mas para que o leitor se disponha a enfrentar essa tarefa, ele precisa ser atraído a ela. O que atrai mais cada leitor é dificil dizer mas grande parte vem do título, seguido do seu resumo e sua introdução, onde é descrita a área onde se insere o artigo, qual a sua contribuição e o que ela tem de diferente do que já foi feito. Essas são as partes do artigo mais facilmente digeridas por um leitor causal. Junto com a seção final de conclusões, onde serão resumidos os principais achados científicos do texto, esse material introdutório serve para dar o tom do que está por vir. Embora aparentemente de menor importância, esses trechos servirão para animar/desanimar o leitor/revisor quanto ao cerne do artigo.

Assim, título, resumo, introdução e conclusão devem enfatizar ao máximo as vantagens dos avanços contidos no artigo, mas nada além nem aquém disso. Uma subvalorização poderá fazer o revisor menos atento ficar menos propenso a entender a total relevância da contribuição científica do artigo. Uma supervalorização poderá fazer o revisor ficar mais atento e querer verificar com mais afinco a veracidade das afirmações contidas nas partes introdutórias. 

Outro ponto importante é saber avaliar o real valor da contribuição científica trazida pelo artigo. Note que esse ponto está relacionado ao parágrafo anterior mas não deve com ele ser confundido. Mesmo se você descreve corretamente que contribuições o seu artigo traz, você pode achar que essa contribuição é menor/maior do que a contribuição que o artigo efetivamente traz. Novamente, uma subvalorização/supervalorização poderá levar a uma escolha infeliz de periódico onde o artigo será publicado. Em um extremo, ter-se-á um artigo publicado em periódico aquém do seu valor e portanto com menor alcance perante a comunidade científica. No extremo oposto, tem-se um artigo enviado a um periódico acima do seu valor e portanto com maior chance de não ser bem recebido e acabar sendo rejeitado.

Esse é um "jogo" que só se aprende corretamente a jogar depois de se adquirir experiência. Essa experiência pode vir à custa de artigos muito bons saindo em periódicos de menor expressão e de artigos não tão bons que acabam sendo rejeitados. Para jogar esse "jogo", é preciso ter vontade de contribuir e não esmorecer perante as dificuldades e dissabores que negativas necessariamente trarão.

Sugestões para saber localizar melhor a prateleira onde se encontra sua contribuição passam primeiro por uma auto-avaliação, mas também passam por avaliações formais ou informais de colegas. Para isso, apresentações em congressos e seminários tem um imenso valor em função dos feed-back recebidos. As auto-avaliações são sempre mais difíceis pois em geral um artigo é fruto de um grande esforço pessoal e tendemos a vê-lo com uma pequena obra-prima. Ném sempre os outros verão nosso trabalho da mesma forma; eles não gastaram semanas ou meses na sua elaboração, nem perderam noites de sono para resolver os problemas que apareceram no meio do caminho.

Um colega me disse muitos anos atrás que se um artigo recebe várias rejeições o problema deve estar no artigo e não nos revisores que o avaliaram. Curiosamente, esse colega teve uma carreira de grande sucessos, possivelmente com poucas rejeições, e ele agora ocupa o cargo de Editor de um dos principais periódicos de Estatística. Uma outra frase que também procuro seguir é que o revisor (quase) sempre tem razão. Se ele reclama de algum trecho do artigo que julgamos estar correto, é porque nós não soubemos explicá-lo bem. As exceções envolvem avaliações que levam em conta fatores outros que os meramente científicos. Não há como evitar esse problema mas uma busca de periódicos devem direcionar nossa escolha para periódicos mais afeitos ao tipo de contribuição que ele traz.

Isso nos leva a uma última recomendação, embora o artigo seja nosso, publica-lo significa literalmente torná-lo público. Às vezes, um pequeno detalhe nos é muito caro (talvez pelas horas consumidas para verificá-lo) para os outros é só isso, um detalhe. Devemos escrever um artigo pensando muito mais em um legado para os outros do que em um desabafo de cunho pessoal. Esse último serve para romances e biografias, não para produções científicas. Assim, o trabalho deve ter uma apresentação impessoal, seguindo uma cronologia logicamente (e não pessoalmente) orientada e mostrando todas as suas virtudes e sua contextualização no cenário atual da Ciência, e não no cenário pessoal de seu(s) autor(es). 

Finalmente, não custa dizer que esse texto está muito longe de exaurir todas as informações necessárias. Nem tampouco se propõe a ser a última referência no assunto. Existe uma enormidade de sites na internet que podem complementar as informações aqui contidas. Eu mesmo tenho várias experiências pessoais (tanto agradáveis quanto desagradáveis) que poderiam enriquecer a compreensão. A experiência adquirida só me mostrou que as exigências fazem parte da nossa atividade de investigação. Editor/revisores querem ter o máximo possível de evidências para tomar sua decisão da forma mais correta possível. Claramente, o erro tipo I aqui é aceitar um artigo errado e tem prevalência sobre o erro tipo II de rejeitar um artigo potencialmente promissor. É com esse rigor que a Ciência se desenvolve. Quanto mais cedo nos acostumarmos a isso, mais suave será nossa passagem pela difícil mas prazerosa carreira acadêmica.

terça-feira, 30 de outubro de 2018

Questionamentos de estudantes de Estatística e Atuária

https://www.facebook.com/sestat.ufrj/

A 7a Semana de Estatística e Atuária da UFRJ foi o tema de nossa postagem da semana passada. Ela foi encerrada com um debate com profissionais do mercado e professores dos cursos de graduação em Estatística e Atuária, ilustrado na foto acima. A organização compilou algumas das perguntas que foram formuladas pelos alunos para esse debate. Acho que oferecem um rico panorama das dúvidas e visões que os alunos tem sobre os cursos de Estatística e Atuária no pais. Nas próximas semanas tentarei respondê-las na medida do possível. Abaixo eu as transcrevo, na ordem que eu as recebi, para que todos os leitores possam ter um referencial de reflexão do onde os alunos percebem que a área está, para onde eles entendem que ela pode ir e que caminhos ela deve percorrer até chegar lá. Ei-las:

1. Uma preocupação: terminar o doutorado, sem experiência de mercado e já na casa dos 30. Será que o mercado será um pouco resistente a esse profissional? 

2. Atualmente, tem-se passado a sensação de que estamos vivendo um “boom” de métodos de previsão e modelagem (ou apenas algoritmos). Entretanto, muito se lê sobre técnicas que não passaram por demonstrações matemáticas de sua funcionalidade. Entretanto, elas cumprem seu papel e respondem as perguntas que são feitas. A dúvida é, até onde vai a necessidade do formalismo em relação ao uso dos métodos? 

3. Uma das corridas atuais em relação à computação é para a eficiência computacional do que está sendo feito. Tenta-se fazer as coisas de forma rápida e automática. Na inferência bayesiana, em muitos cenários nos deparamos com modelos que ficam até dias rodando. Devemos começar a pensar em aproximação, para chegarmos em resultados mais rápidos?

4. Vejo diariamente ofertas de emprego para cientista de dados. Em todos os cantos lemos que é uma profissão expoente e que existem muito mais vagas que profissionais. Entretanto, paralelo a isso, vejo muitos profissionais de áreas correlatas, desempregados. Na medida do possível, o que pode ser feito para melhorar essa relação? A sensação que fica é de que as empresas querem um profissional e no mercado existe outro. Claro, uma saída óbvia, é o empenho do profissional para a adequação, mas as empresas também não deveriam estar mais dispostas a acreditar no potencial de evolução do profissional dentro da empresa? 

5. Estatístico pode ser considerado cientista de dados? Por que? 

6. Por que quem não é formado em estatística pode dar aula de estatística em faculdades particulares? 

7. Os professores já estão aptos a ensinar os alunos as disciplinas de "ciências de dados"? 

8. Enquanto o curso de estatística forma 2 alunos, a computação (de forma generalizada) forma 200 a 300. Seremos engolidos? Como evitar isso? 

9. Será que a solução está na reformulação dos cursos de estatística ou na melhora da comunicação entre academia e mercado? 

10. Quando entramos na graduação, fazemos um curso de análise exploratória de dados e já aprendemos, mesmo sem muita base, como manipular um banco de dados. É válido ter uma matéria de último período de análise exploratória de dados, agora com a formação em rumo de ser concluída? 

11. Vejo muitos alunos saírem da graduação com muita insegurança. Quais medidas podem ser tomadas para amenizar esses problemas? 

12. Se as técnicas utilizadas (em aprendizado de máquina) são as que já conhecemos, por que outros profissionais dominaram essa área? É um problema de não sabermos vender nosso trabalho? 

13. O diploma de graduação em estatística e atuária se faz realmente necessário para a prática das profissões? Vocês acreditam que a busca por conhecimento de maneiras alternativas e a vivência prática no ramo de atuação podem substituir o requisito acadêmico? Quão importante é o currículo acadêmico em comparação com o portifólio de projetos já feitos? 

14. O mercado de trabalho para Ciências Atuariais valoriza (leia-se, provê maiores remunerações) a profissionais que tenham Mestrado stricto sensu ou Doutorado em Matemática, Estatística, Finanças ou áreas correlatas -- ou prioriza e reconhece mais profissionais que possuam MBA, encarando o Mestrado e Doutorado como uma formação exclusiva para viés acadêmico? 

15. A disponibilidade de dados, atualmente, é muito maior que há 20 ou 30 anos. Também, a capacidade de processamento dos computadores aumentou significativamente. Ainda, os softwares utilizados para análise de dados estão cada vez mais difundidos, populares e acessíveis, com uma ampla gama de bibliotecas, pacotes, módulos etc prontos e disponíveis em prateleiras. Os Senhores encaram esse cenário como um potencial risco para o Estatístico, o qual poderá ser suplantado por Engenheiros, Físicos, Economistas etc que possuam um pouco de aptidão com tais ferramentas computacionais? 

16. Comparando o currículo de duas graduações em Ciências Atuariais (UFRJ x UFRGS), nota-se uma imensa diferença no enfoque das formações. A UFRJ preza por uma formação essencialmente matemática, havendo uma disciplina isolada para Direito, uma para Economia, outra para Administração e outra para Contabilidade, totalizando 16 créditos obrigatórios. Já a UFRGS possui uma quantidade bastante inferior de disciplinas de Matemática e Estatística, oferecendo, em contrapartida, 64 créditos obrigatórios dentre disciplinas associadas à Economia, Contabilidade e Direito. Gostaria que os presentes discutissem as diferentes oportunidades que se abrem para tais profissionais no mercado de trabalho, considerando a distinta formação acadêmica, bem como os desafios (ou dificuldades) para os egressos dessas faculdades em função das lacunas de um e outro. 

17. Contabilizando os trabalhos apresentados na SIAC da UFRJ, em 2017 e 2018, não houve nenhum trabalho apresentado na área de Atuária; para Estatística, foram 2 e 5 trabalhos em 2017 e 2018, respectivamente, na Sessão de Estatística. Em contrapartida, nota-se que a palavra-chave "Estatística", ao navegar no caderno de resumos da SIAC, permeia dezenas de trabalhos nas Engenharias, cursos da Saúde, Física, Química, Geotecnologias, Economia etc, dando indícios de um aparente "distanciamento" entre os alunos de Atuária e Estatística contra as demais formações e também de que os profissionais dessas áreas, cada vez mais, utilizam-se de ferramental que seria expertise do Estatístico e Atuário. Como os Senhores avaliam esse cenário? De que forma o IM pode firmar sua posição e aumentar sua integração com os demais institutos da UFRJ? 

18. Nos cursos de Engenharia e Computação, é usual haver incentivo e formação complementar direcionada ao empreendedorismo, incubação de empresas, empresa júnior etc, com uma relação entre academia e mercado de trabalho. Para Ciências Atuariais, aparentemente o aluno encontra-se em uma "ilha de conhecimento acadêmico", sendo que tal inserção dá-se praticamente por iniciativas individuais, quando um aluno busca um estágio. De que forma esse hiato (se é que ele mesmo existe) pode ser superado, no curso de Ciências Atuariais?

19. Na última SESTAT, houve algumas apresentações sobre um novo perfil de profissional: Data Scientist. Esse profissional seria composto pela interseção de 3 "conjuntos" de profissionais: um Matemático/Estatístico, um "Algorítmico-Lógico"/Programador e um profissional que entende de Negócios/Administração. Muito se falou da imensa dificuldade em se encontrar profissionais com tal perfil. Em paralelo, sabe-se que muitos profissionais advindos de outras formações (Engenheiros, Físicos, Economistas, Cientistas da Computação etc) têm ocupado tais posições. Que formação adicional um estudante de Estatística e Atuária precisa buscar para ocupar tais posições? 

20. As empresas do setor elétrico, petroquímico, mineração, papel e celulose e de telecomunicações geralmente possuem convênios e projetos com cursos de Engenharia, possibilitando que alunos de graduação e pós-graduação dessas áreas desenvolvam-se e atuem em estudos fortemente aplicados ao mercado enquanto ainda estão na universidade. Exemplos notáveis são: Petrobras, Vale, Braskem, Votorantim, Odebrecht, Klabin etc. Tal fato também funciona como um excelente "cartão de visitas" para o estudante. No entanto, esse fenômeno aparentemente não é observado entre as Seguradoras, Resseguradoras, Fundos de Pensão, Bancos, Corretoras de Valores etc com as graduações em Ciências Atuariais e em Estatística. Que iniciativas poderiam ser realizadas nesse sentido para criação (ou fortalecimento) dessa relação? 

terça-feira, 23 de outubro de 2018

7a Semana de Estatística e Atuária da UFRJ

https://www.facebook.com/sestat.ufrj/

Começou ontem (22 de outubro de 2018) e irá atá 5a feira (25 de outubro de 2018) a 7a edição da Semana de Estatística e Atuária da UFRJ. Esse evento tem como principal objetivo a discussão e apresentação de novos temas dessas áreas. Ele é um evento organizado totalmente pelos alunos dos cursos de graduação em Estatística e Atuária da UFRJ e é voltado para esse público, muito embora alunos de pós-graduação estejam atuando ativamente na sua organização.

A programação é bastante variada incluindo uma boa quantidade de palestras e de minicursos. As palestras e os minicursos são proferidos tanto por professores quanto por profissionais do mercado ou mesmo alunos de cursos da UFRJ. Os temas incluem Seguro Agrícola no Brasil, Big Data e Data Science no Mundo Atuarial, Novas Formas de Visualização de Dados no R, Modelos de Espaços Latentes para Análise de Redes Sociais e Reconhecimento de Dígitos através de Técnicas de Análise Multivariada. Com isso, tem-se um apanhado bastante abrangente do cenário que o recém-formado irá enfrentar ao concluir o curso.

Fui convidado para uma mesa redonda mas infelizmente outros compromissos me impedirão de participar. Mas acho extremamente meritória a inciativa, já em sua 7a edição, o que mostra que tem havido interesse dos alunos em propor atividades complementares que ajudem na sua formação. A organização foi bastante pro-ativa e conseguiu em curto espaço de tempo um apoio financeiro bastante considerável com empresas privadas. O evento está muito bem organizado e recomendo a todos interessados. A página do evento pode ser acessada aqui e a programação completa do evento pode ser vista aqui

Uma quase coincidência temporal me fez estar na semana passada em um evento similar na Unicamp. Lá, ocorreu a 13a edição do Encontro Científico dos Pós-Graduandos do IMECC (EncPos). Como o nome indica, trata-se de um evento voltado para as áreas de pós-graduação do IMECC (Instituto de Matemática, Estatística e Computação Científica). Mas também lá o evento foi organizado pelos alunos, no caso, de pós-graduação em Estatística, Matemática e Matemática Aplicada.

A característica de pós-graduação tornou o evento um pouco mais formal em suas temáticas e alguns professores acabaram sendo incluidos na organização, especialmente para ajudar na indicação de nomes de palestrantes e professores de minicursos. A abrangência também foi maior e incluiu palestrantes convidados de várias outras partes do país. Esse evento procurou também abordar outros aspectos da atividade acadêmica. Achei particularmente interessante e relevante uma palestra sobre Saude Mental na Pós-graduação, um tema que infelizmente vem ganhando importância na área acadêmica.

Minha participação no evento foi restrita à palestra sobre meu trabalho em estudo do efeito da poluição na saude, tema já tratado aqui.  Mas tive a oportunidade de conversar com os alunos responsáveis pela organização e gostei do que vi e ouvi. Gostei muito do comprometimento e a maturidade que esses jovens e futuros pesquisadores demonstraram.

Enfim, esses eventos demonstram vigor por parte dos alunos dessas universidades em promover a disseminação do conhecimento em prol da comunidade acadêmica e os alunos só tem a ganhar com isso. Parabéns a eles! 

terça-feira, 16 de outubro de 2018

Previsões para o Campeonato Brasileiro de Futebol 2018

https://globoesporte.globo.com/sp/futebol/brasileirao-serie-a/jogo/14-10-2018/palmeiras-gremio.ghtml

Estamos chegando à reta final (o quarto final, para sermos mais precisos) do Campeonato Brasileiro de Futebol 2018. Assim, estamos novamente retomando o projeto de fornecer previsões para resultado de partidas de futebol desse campeonato. Esse projeto está sendo conduzido nesta fase pelo recém-formado estatístico André Vizzoni e os resultados completos estarão sendo fornecidos até o final do campeonato no blog específico para esse fim.

Lá poderá se encontrar as previsões para a próxima rodada (no caso de hoje, a rodada 30), as chances de cada equipe ser campeã, ser classificada para a fase de grupos da Libertadores, para a pré-Libertadores ou para a Copa Sulamericana e também as chances de rebaixamento para série B.

Esse blog está longe de ser o único a fazer essas previsões. A título de comparação, apresento abaixo uma tabela com as probabilidades de um time ser o Campeão Brasileiro de Futebol em 2018 fornecidas por vários sites especializados

Times
Palmeiras
64%
62%
74%
74%
68%
Internacional
18%
21%
15%
15%
20%
Flamengo
12%
13%
8%
9%
9%

Como pode ser visto, as previsões não variaram muito entre os diferentes esquemas mostrando uma coerência entre eles. Interessante notar que nossas previsões ficaram no meio das outras, como uma espécie de média delas.

Finalmente, esclareço que nosso esquema de previsão contempla uma versão estática (mais simples) e uma versão dinâmica. Essa última permite uma adaptação que acomode mudanças com a passagem do tempo. O próprio campeonato vem mostrando isso com vários times se alternando na liderança por um certo número de rodadas. Esse ponto já foi detalhado anteriormente aqui.

A quantificação do tamanho da mudança esperada para cada rodada é de difícil especificação. Uma indicação de mudança maior que a mudança observada levará a uma perda desnecessária da informação passada. Uma indicação de mudança menor que a mudança observada levará a uma preservação excessiva da informação passada. [O caso limite é o modelo estático, onde toda a informação passada é totalmente preservada.] Essa sintonização da quantidade de mudança é muito fina e não é nada trivial. Infelizmente, ainda não conseguimos encontrar esse ponto ótimo no nosso modelo e portanto os resultados ainda estão sendo apresentados apenas para o modelo estático.

terça-feira, 9 de outubro de 2018

Lições do pleito de domingo passado

https://noticias.uol.com.br/politica/eleicoes/2018/noticias/2018/08/28/bolsonaro-e-defensor-das-mulheres-diz-testemunha-ao-stf.htm


Domingo passado (07/10/2018) foi realizado o 1o turno das eleições gerais para vários cargos eletivos no Brasil, a começar pelo cargo de presidente, para um novo mandato de 4 anos. Não há como não pontuar que o grande protagonista dessas eleições foi o candidato à presidência Jair Bolsonaro, representado na foto acima.

Personagem polêmica do cenário político dos últimos anos, Bolsonaro está em seu 7o mandato como deputado federal (totalizando 28 anos no mesmo cargo) embora seja entendido por muitos como novidade na cena política. Efetivamente, a novidade dele é o seu protagonismo, enfatizado pelas posições polêmicas que ele vem assumindo publicamente e que lhe renderam cerca de 50 milhões de votos e um lugar no 2o turno das eleições.

Toda eleição traz lições importantes para compreensão do fenômeno estudado e essa não foi diferente. Muito pelo contrário, essa eleição teve peculiaridades muito pouco vistas e que estão em grande parte associadas à personagem ilustrada acima. Outra característica desta eleição foi o pequeno espaço de tempo dedicado às campanhas eleitorais, de pouco mais de um mês. Acredito que esse curto período foi responsável por uma dinâmica muito amplificada.

Com isso, movimentos que eram esperados para uma janela medida em semanas foram percebidos em janelas medidas em dias. Isso é relevante para entender as magnitudes das mudanças que foram observadas especialmente nas intenções de votos nos dias que antecederam as eleições propriamente ditas. Já havíamos mencionado aqui a importância de entender os resultados das pesquisas eleitorais em um contexto sequenciado e não de forma estanque, com cada pesquisa eleitoral estudada separadamente.

Nesta eleição, pela compressão do tempo, o estudo sequenciado se tornou ainda mais necessário. Torna-se fundamental entender a tendência evidenciada pela progressão observada, sempre em contraponto com a ultima pesquisa realizada. Mas parece-me que anteontem não apenas houve uma progressão das intenções de votos mas houve também um importante processo de aceleração das tendências nos poucos dias próximos às eleições. E isso é muito mais difícil de ser capturado pelas análises estatísticas com tão poucos resultados de pesquisas no período.

Acredito que essas mudanças estiveram muito ligadas à associação ou não dos candidatos à personagem retratada acima. Casos emblemáticos foram retratados por candidatos a eleições majoritárias (governador e senador) nas unidades mais populosas da federação, como São Paulo, Rio de Janeiro e Minas Gerais. Candidatos que estavam longe da liderança nas intenções de votos experimentaram subidas significativas na reta final da disputa ao se associarem (ou serem associados) a Bolsonaro. Enquanto isso, outros candidatos com postura mais independente perderam nessa reta final as posições de liderança que vinham mantendo com estabilidade ao longo de toda a campanha eleitoral.

Eu estou longe de ser especialista em política. Mas parece-me que as caraterísticas acima descritas não foram frequentemente observadas nas últimas eleições nacionais. Isso ajuda a explicar a dificuldade que muitos tiveram de entender o processo em curso. Mesmo considerando a alta volatilidade do eleitorado brasileiro, desconfio que a volatilidade desta eleição ultrapassou os limites usualmente observados por aqui.

As teses levantados nos parágrafos anteriores merecem estudos mais aprofundados. Esses estudos poderiam reforçar a necessidade de incorporar técnicas de séries temporais para permitir a incorporação da evolução das intenções de votos de forma mais rotineiras nas análises eleitorais. Isso já é feito em vários países e chama a atenção que ainda não sejam rotina no Brasil. Talvez a alta volatilidade aludida acima seja uma fonte de desânimo mas não deveria ser um impeditivo.

terça-feira, 25 de setembro de 2018

Stats+Stories

https://statsandstories.net/

Stats+Stories é o nome de um blog/portal recentemente construído com objetivo similar ao do StatPop, isto é, popularizar a Estatística para a sociedade em geral. É uma iniciativa da Universidade de Miami, com apoio da associação de estatística americana (ASA). O formato da iniciativa é o indicado pelo seu nome: histórias sobre Estatística e seu uso, contadas por pessoas que são estatísticas ou tem envolvimento com a Estatística. 

As histórias são introduzidas na forma de uma entrevista conduzida por um professor de Estatística e às vezes por um(a) jornalista. Elas procuram entender e esclarecer o contexto de trabalho do entrevistado e permitir ao entrevistado explicar melhor o seu trabalho. Essa entrevista é gravada em áudio e também transcrita no portal. 

A equipe do Stats+Stories tem professores do Departamento de Estatística da Universidade de Miami e conta com uma diversificada equipe de apoio com ênfase em jornalistas, mas também com pessoal de comunicação/promoção e o pessoal que faz a transcrição dos episódios, que é como eles optaram por caracterizar as entrevistas.

No momento, já existem 66 episódios registrados. Cerca de 60 deles foram postados no início de agosto deste ano e portanto já deveriam estar registradas há algum tempo. Assim, trata-se de uma iniciativa bastante recente. Desde então, a regularidade de cada entrevista tem tido uma média perto de 1 por semana. 

Algumas das entrevistas são de profissionais já mencionados no StatPop. Um exemplo é o Prof Sir David Spiegelhalter, atual presidente da associação de estatística britânica (RSS), responsável por 2 episódios. Tive conhecimento do Stats+Stories bem recentemente através de um anúncio feito pela professora Kerrie Mengersen, atual presidente da International Society for Bayesian Analysis (ISBA).

Kerrie é uma pesquisadora bastante ativa, constituindo um polo de atração de pesquisadores para seu local de trabalho na Austrália. Ela desenvolve tanto pesquisa de cunho teórico sobre fundamentos da Estatística como aplicações de Estatística em diversas áreas da Ciência. Eu já estive lá a convite dela alguns anos atrás e pude presenciar seu produtivo grupo em ação. Kerrie já foi protagonista de 2 episódios.

Achei interessante as entrevistas mas, talvez pelo interesse em atrair o publico leigo, elas focaram mais nos dados e aspectos periféricos do problema e menos na metodologia estatística utilizada. É claro que a caracterização do problema é importante mas se o objetivo é mostrar a importância da Estatística talvez se pudesse tentar entrar no mérito da forma como o problema é resolvido.

Paralelamente, o Stats+Stories lançou em conjunto com a ISBA a competição #BetterBayes, voltada para explicar a metodologia Bayesiana para o público em geral. Trata-se de mais uma idéia buscando divulgar as técnicas Bayesiana e aumentar seu alcance. Essa competição é aberta ao publico em geral e é muito fácil se inscrever: basta propor um titulo de 4-6 páginas e uma chamada de 20-30 palavras.  Recomendo a todos fazerem suas tentativas; eu já fiz a minha. A proposta aprovada receberá a chance de fazer um episódio estendendo a idéia. As inscrições podem ser feitas aqui

terça-feira, 18 de setembro de 2018

How to Lie with Statistics

www.amazon.com/How-Lie-Statistics-Darrell-Huff/dp/0393310728

O título dessa postagem é o título de um livro, cuja capa é reproduzida acima, mencionado na postagem da semana passada. A tradução mais apropriada do título para o português seria Como mentir com Estatística ou talvez Como mentir usando Estatística. Esse livro foi escrito pelo jornalista, escritor e inventor Darrell Huff e teve ilustrações de Irving Geis. 

Apesar de não ter sido escrito por um estatístico, é o livro de Estatística mais vendido no mundo, com mais de meio milhão de cópias vendidas desde sua aparição em 1954. Isso não deixa de ser um pouco frustrante para a comunidade de estatísticos espalhados pelo mundo. Além disso, o título do livro não é dos mais honrosos para a profissão. Juntando tudo isso, é compreensível que um misto de inveja, frustração e ciume tenha tomado conta de parte dos estatísticos da época.

Os que se deram ao trabalho de ler ou ao menos folhear partes do livro encontraram um texto muito bem escrito. Não só em termos da fluência gramatical mas também e principalmente pela clareza de exposição de conceitos técnicos de Estatística. Vale destacar a seriedade e correção da apresentação, sem que pare isso fosse necessária a utilização de uma única fórmula sequer.

É preciso também dizer que os estatísticos não deveriam tem nenhum problema com respeito ao livro. O que o livro trata são alguns dos vários possíveis usos equivocados que se pode fazer da Estatística. E portanto ele serve como um guia de como usar corretamente conceitos básicos de Estatística. Ou seja, ele é um instrumento poderoso em defesa da Estatística!

A linguagem usada é bastante coloquial mas não deixa de ser precisa qualitativamente. As figuras ilustrativas, destacadas em uma análise recente do sucesso do livro, também foram um elemento interessante de facilitação de compreensão pelo leitor. As ilustrações dos conceitos em contextos aplicados reais foram muito bem escolhidas, facilitando ao leitor compreender o ponto sendo discutido.

A figura acima, extraída da página 71 do livro, é uma belo exemplo. A figura compara a produção de aço americana em 2 décadas sucessivas exibindo fornalhas que supostamente representariam graficamente a diferença entre os 2 níveis de produção. Efetivamente, a altura das fornalhas é diretamente proporcional à produção representada (com um aumento de quase 50% da capacidade produtiva). Entretanto, o aumento da fornalha não se deu apenas na altura mas em todas as suas dimensões. Com isso, a impressão visual fornecida pela figura foi de um aumento de cerca de 300% ao invés da impressão que se queria ou se deveria fornecer de apenas 50%

O livro é um desfile de exemplos reais ilustrativos de diferentes formas de se fornecer informação de forma equivocada, mesmo quando os dados numéricos estivessem corretos. O mais surpreendente é que não apenas Huff não é estatístico como sua carreira não teve nenhum contato próximo com a Estatística. Isso mostra que ele foi um exímio analisador dos diferentes usos de Estatística e soube destacar a correção/incorreção deles com maestria.

Já tínhamos destacado aqui a maestria com que o escritor João Ubaldo Ribeiro tratou de assuntos similares, isto é, apresentações de conceitos básicos de Estatística voltadas para o público leigo. A contribuição de Darrell Huff também fez isso mas foi muito além. Ele elaborou um texto completo para poder detalhar a discussão de cada assunto detidamente e fez isso sempre contextualizando em casos reais. Chama a atenção que ambos os autores são especialistas improváveis mas foram porta-vozes de uma explanação que se fez e ainda se faz necessária para que a Estatística possa ser corretamente compreendida por toda a sociedade mundial.

terça-feira, 11 de setembro de 2018

Desmistificando idéias equivocadas sobre Estatística - parte VI

https://www.facebook.com/estadao/photos/a.124486140899790/2755651251116586/?type=3&theater

No início da semana passada, tivemos um belo exemplo de como se pode passar mensagens equivocadas usando Estatística sem falsear um único número sequer. O responsável por esse episódio foi o respeitado jornal de circulação nacional Estadão. A chave para entender o problema pode ser encapsulada na frase "uma imagem vale mais que mil palavras". Essa frase, atribuída ao filósofo chines Confúcio, enfatiza a importância que a linguagem visual tem relação à linguagem escrita. 

Pois o periódico paulista cometeu um deslize em uma de suas ilustrações da matéria sobre uma recente pesquisa eleitoral realizada pelo IBOPE. Ao procurar ilustrar os índices de rejeição dos principais candidatos à próxima eleição presidencial, exibiu a figura acima. Para piorar, a figura foi estampada na capa da edição on-line de 06 de setembro de 2018 da página do jornal no Facebook. Essa figura expressa a taxa de rejeição pela proporção de indivíduos que disseram que não votariam no candidato de nenhuma maneira. [Vale destacar que as proporções não precisam somar 100% pois foi permitido aos entrevistados indicar mais de um candidato rejeitado, se assim quisesse.] 

O primeiro ponto a notar na figura é que os números estão todos corretos. O que está errado, e muito errado, é a localização do ponto inicial do candidato Haddad. Apesar do gráfico não ter explicitado a escala, fica fácil perceber esse erro comparando as distâncias do ponto inicial do candidato Ciro com relação aos candidatos Alckmin e Haddad. Ciro, com 21% de rejeição, está 4% abaixo de Alckmin (com 25%) e está 3% acima de Haddad (com 18%). Apesar da distância numérica para Haddad ser menor que a distância numérica para Alckmin, o ponto inicial de Haddad está muito mais distante de Ciro que o ponto inicial de Alckmin!

Para piorar, a figura mostra um aumento maior da taxa de Haddad com respeito ao aumento da taxa de Bolsonaro. Isso também está errado na figura pois, embora Haddad e Bolsonaro tenham tido os maiores aumentos da taxa de rejeição, o aumento de Bolsonaro foi 7% ao passo que o aumento de Haddad foi de 5%.

Com isso, a figura cria um efeito visual ilusório de um grande aumento da rejeição de Haddad, que rivaliza (ou até predomina) visualmente sobre os efeitos verdadeiramente mais expressivos da figura, que são 
  1. a substancialmente maior taxa de rejeição do candidato Bolsonaro, na comparação com todos os outros candidatos ilustrados, em ambas as pesquisas consideradas. 
  2. o maior aumento de rejeição do candidato Bolsonaro, também na comparação com todos os outros candidatos ilustrados.
Esse problema foi relatado pelo professor Rafael Izbicki através de uma postagem, que também apresentou a sua solução. Após vê-lo mencionado na página do Rafael, a estatística Hayala Cavenague informou ao periódico sobre o problema. Este, por sua vez,  prontamente reconheceu o erro e se comprometeu a corrigi-lo. Efetivamente, a figura foi corrigida no texto da matéria da versão on-line e está reproduzida abaixo. [Mas quem acessar hoje a página do facebook do Estadão ainda encontrará a capa com a figura original.] A nova figura corrige os erros da figura anterior e expressa muito mais claramente o que os dados apresentam. 

https://politica.estadao.com.br/noticias/eleicoes,bolsonaro-perde-para-ciro-marina-e-alckmin-no-segundo-turno-diz-ibope,70002490009

Outra imprecisão corrigida na nova figura foi a colocação do eixo vertical (dos y's) começando de onde deve começar, do valor 0. Isso evidencia visualmente que números em torno de 40% são o dobro de números em torno de 20%. Embora esse fato seja óbvio e conhecido de todos, ele ficado mascarado na figura anterior e sua omissão poderia ensejar uma avaliação ilusória da comparação entre as taxas de rejeição nos 2 períodos pesquisados. A figura correta não deixa nenhuma dúvida quanto à efetiva distância entre as diferentes taxas de rejeição.

Esse assunto me proporcionou a retomada da série Desmistificando idéias equivocadas sobre Estatística que eu havia iniciado no passado já distante do StatPop e que estava adormecida há mais de um ano. Ele também permite que seja mencionado um clássico da Estatística onde esse tipo de problema já havido sido explicado em detalhes e que eu ainda não havia mencionado aqui. Trata-se do livro How to lie with Statistics, escrito por Darrell Huff, cuja interessante história merece uma postagem futura. Esse livro tem mais de meio século e pode ser facilmente comprado na internet a baixo custo. O capítulo 5 desse livro trata exatamente da mudança de escala descrita no paragrafo anterior e dos problemas de interpretação que ela pode introduzir, quando uma escala inadequada é usada, ou evitar, quando uma escala adequada é usada. 

Finalmente, queria agradecer a o Rafael Izbicki e Hayala Cavenague pela contribuição deles em prol da correta utilização da Estatística e a Hedibert Lopes e Filipe Zabala por terem atraído a minha atenção respectivamente para a análise do Rafael sobre a matéria jornalística e para o tratamento desse tipo de situação no livro de Duff.

terça-feira, 4 de setembro de 2018

Museu Nacional

Ricardo Moraes/Reuters

Não há como ter postagem com tema diferente esta semana. O Museu Nacional é um dos principais museus do país e a perda do acervo no incêndio de domingo passado foi significativa, quase total nas mais variadas áreas das Ciências Naturais, passando por fósseis, ossadas, achados arqueológicos, reconstituições pre-históricas e outros objetos históricos de valor inestimável, que estarão perdidos para sempre. Além disso, trata-se de uma instituição pertencente à UFRJ, instituição onde trabalho. Como se isso não bastasse, trata-se de um prédio histórico muito bonito (com se vê na foto abaixo) que abrigou a residência do imperador durante a vigência do império no Brasil.

www.museunacional.ufrj.br

Esse incêndio foi mais um duro golpe na história e na Ciência deste país. E esse golpe assume crueldade ainda maior por atingir uma instituição bicentenária no já combalido Estado do Rio de Janeiro e na igualmente deficitária UFRJ. Como se isso não bastasse, o toque final de ironia trágica foi o fato de ter sido recentemente assinado em junho deste ano um contrato de financiamento com o BNDES para revitalizar o Museu. A divulgação pelo BNDES sobre esse contrato lista em primeiro lugar a recuperação física do prédio histórico e portanto havia bastante clareza da urgência dessa revitalização. A assinatura do contrato foi oficializada em uma das salas do Museu, com um esqueleto de uma baleia jubarte, como mostra a foto abaixo.

www.bndes.gov.br/wps/portal/site/home/imprensa/noticias/conteudo/bndes-destina-r-21-7-milhoes-para-revitalizacao-do-museu-nacional

Essa é a crônica de uma morte anunciada e infelizmente materializada no incêndio de dias atrás. A cuidadosa averiguação das responsabilidades deve aguardar alguns dias até a poeira baixar. Mas parece claro que vários atores contribuíram para esse trágico desfecho. Não podemos deixar de falar das autoridades públicas responsáveis pelo bom funcionamento das instituições. Assim, presidente, governador do estado, prefeito da cidade e outras instituições poderiam ter agido antes para evitar que um verdadeiro tesouro sob sua guarda e atendendo sua população estivesse em estado tão deplorável. Nesse ponto, a fala do prefeito do Rio de Janeiro em frente aos escombros do museu (ver foto abaixo) chegou a ser tristemente anedótica ao falar em recompor as peças do Museu, dando a entender que fosse possível que as obras históricas lá expostas tivessem réplica contemporânea.

extra.globo.com/noticias/rio/em-nota-crivella-fala-em-recompor-acervo-do-museu-nacional-causa-indignacao-23033520.html

Não se pode eximir de responsabilidade as diferentes equipes que ocuparam a Reitoria da UFRJ nos últimos anos. As evidências falam por si e não vem de hoje. Num passado não muito distante, no início desta década, uma parte de um prédio tombado do Campus da Praia Vermelha também foi consumido por um incêndio em uma capela. Poderia se dizer que ambos os casos envolviam edificações antigas, mais propensas a acidentes. Que dizer então do incêndio que destruiu alguns andares do prédio da Reitoria há cerca de 2 anos? [Vale informar que até agora os serviços não voltaram ao seu local original de funcionamento e alguns cursos estão tendo atividades improvisadas em outros locais até hoje.] Além desses episódios, houve uma série de incêndios de menor porte em diferentes locais dos campi da UFRJ nos últimos anos. E as evidências de má conservação em prédios públicos não param com esses casos. É muita coincidência...

Finalmente, cidadãos da cidade do Rio de Janeiro e profissionais da UFRJ temos nossa parcela de responsabilidade. Precisamos pensar mais seriamente sobre a manutenção de bens públicos e cobrar medidas eficazes de nossos dirigentes, sob risco deles perderem votos quando candidatos ou perderem o mandato, quando exercerem seus cargos de forma ineficiente. Se houver cidadãos conscientes em constante vigilância, esses dirigentes irão se esmerar para fornecer um serviço melhor. E assim evitar a tristeza que muitos de nós está sentindo no dia de hoje...

terça-feira, 28 de agosto de 2018

Atividade acadêmica em Estatística no Brasil

http://www.imagens.usp.br/?attachment_id=16652

Para falar desse ponto é importante antes caracterizar a história da Estatística no Brasil e no mundo. Nesse sentido, essa postagem é uma revisão de postagem já feita aqui há cerca de 5 anos, mas atualizada pela minha percepção dos principais acontecimentos ocorridos desde então. A Estatística se materializou como área da ciência há pouco mais de 1 século. Pouquíssimo tempo, se comparado com os vários séculos de existência de sua ciência irmã (ou mãe), a Matemática. As atividades no Brasil apenas refletem esse padrão, com começo de atividades estruturadas há pouco mais de meio século, bem depois da Matemática.

Os primeiros doutores em Estatística começaram a chegar do exterior e o 1o doutorado no país foi aberto na USP logo a seguir, ambos no final do século passado, na década de 70. A partir daí, houve um paulatino crescimento no fluxo de formação de doutores no exterior. Esse fluxo redundou em um avanço concreto apenas a partir deste século, quando vários outros programas de doutoramento em Estatística foram abertos no país.

Esse movimento todo fortaleceu os departamentos de Estatística nas universidades brasileiras e com isso várias outros cursos de graduação em Estatística puderam ser abertos, além daqueles mais tradicionais que já existiam desde o século passado. O ensino foi, via de regra, moldado em cima de uma estrutura teórica sólida, pontuada em maior ou menor grau por aplicações como instrumento de auxílio. Na virada do século houve uma maior preocupação com aspectos aplicados da Estatística e as grades curriculares foram mudados mas muitos profissionais sustentam que essa mudança ainda é epidérmica.

A entrada em cena da Ciência de Dados tornou ainda mais premente uma discussão sobre a necessidade de uma reforma mais profunda. Não está claro como deve ser realizada essa reforma. Entre as opções estão uma aproximação da grade curricular na direção de Ciência de Dados e a abertura de um curso de Ciência de Dados, seja como novo curso de graduação ou como uma especialização. Acredito que muitos departamentos tem feito essa discussão internamente e alguns já avançaram em direção à abertura de cursos de especialização e até mesmo à abertura de vagas para professores especificamente com esse perfil. Mas ainda vejo pouco resultado concreto e ainda menos discussão de carater mais abrangente, a nível nacional, específica sobre o tema.

Paralelamente, o início do século assistiu o início de uma formação mais consistente de doutores, devido à abertura de cursos de doutorado acima mencionada. A pesquisa no país experimentou um crescimento quantitativo considerável, com vários pesquisadores passando a entrar de forma consistente na rotina de produção científica. Toda essa produção não se refletiu em uma maior participação do país no avanço da Estatística no cenário mundial. Muito poucos estatísticos radicados no país tem publicado em periódicos de maior destaque e/ou tem sido convidados para eventos científicos de ponta.

Recentemente, citamos a palestra do Prof. Jordan falando sobre problemas big n, big p. Essa expressão se refere não só a muitas unidades observacionais mas também a muita informação a nível individual. Ela serve como paradigma do movimento da Estatística no século atual, visando a busca de modelos mais complexos para representar melhor a realidade estudada. Temas como escalabilidade, ou seja, capacidade de processamento da informação para valores crescentes de n e p tem despertado particular interesse. Aspectos computacionais adquiriram uma importância nunca antes vista na pesquisa em Estatística.

Em contraste com a tendência acima descrita, muitos trabalhos de pesquisa no país se dedicam a lidar com modelos de small p (tipicamente voltados para dados com small n), e visam estendê-los para modelos de ordem ainda small p+1 ou p+2. Toda a destreza matemática e toda a habilidade teórica que esses trabalhos apresentam fica relativizada perante as baixas relevância e aplicabilidade neles percebidas pela comunidade científica. Quando se almeja entender a realidade com toda sua complexidade, esse ponto de partida e esse tipo de extensão são vistos como insuficientes para essa tarefa. Consequentemente, atraem menos interesse nas prateleiras mais altas da ciência e só encontram espaço nas prateleiras mais baixas. Nesse sentido, é compreensível que apareçam insatisfações com os sistemas de avaliação e classificação dessas prateleiras. Mas acredito que seria mais produtivo no longo prazo alterar o foco de atenção.

As posturas menos assertivas da nossa comunidade na formatação dos cursos oferecidos e na produção científica provavelmente estão relacionadas. Não tenho dúvidas que a formação teórica oferecida aos doutores aqui formados é suficientemente boa para galgar passos mais altos. O que acredito que possa estar faltando é ambição científica. Diga-se de passagem, isso é muito mais difícil de ser ensinado, tornando mais compreensível esse quadro. Dar passos mais qualitativamente relevantes não passa apenas por uma melhor compreensão pelo pesquisador do que ele já faz. Passa principalmente pela compreensão pelo pesquisador do seu papel na estrutura mais ampla da ciência e da academia mundiais.

Acredito que os jovens doutores que temos como professores nos cursos de Estatística podem ser a saída para essa mudança de patamar. Para isso, ele teriam que trocar paradigmas superados e aliar o vigor da sua juventude, a vontade de deixar seu nome marcado na história da Estatística e a ânsia/curiosidade de identificar os atuais problemas da Estatística para poder atacá-los e resolvê-los. 

Para isso, é preciso entender para onde a ciência caminha e se familiarizar com os passos que sendo tomados nessa direção. Consultas regulares ao que está sendo feito em buscas virtuais na internet e presenciais em congressos de ponta são alguns dos caminhos mais usuais. Outras áreas da ciência nacional tem trilhado esse caminho com sucesso. A Estatística ainda tem a vantagem (sobre muitas outras áreas) de necessitar de poucos insumos materiais para concretização de seu trabalho de pesquisa. Não há impedimento para que a Estatística brasileira trilhe a mesma rota de sucesso e realização. Basta querer!

terça-feira, 21 de agosto de 2018

Formação de Bacharéis em Estatística - Brasil x EUA

por Doris Fontes*

Fonte: Doris Fontes

Achei esse artigo interessante da ASA [sobre a formação de bacharéis em Estatística nos Estados Unidos] .

Enquanto aqui, desde 2004 (quando eu comecei a acompanhar o Censo do INEP), temos a seguinte situação, resumidamente:

[O gráfico acima mostra o] nº de programas de Graduação em Estatística aqui e nos EUA, além do programa de mestrado em estatística. Notem que o número de bacharelados em estatística aqui no Brasil cresce a partir de 2007, acredito eu, por causa do REUNI.

Sem contar que lá existem muitos programas de graduação e pós somente em BIOESTATÍSTICA, enquanto que aqui só temos UM programa de mestrado (UEM) e nenhum bacharelado.

Em termos de egressos, temos a seguinte situação (até o último censo divulgado do INEP):

Fonte: Doris Fontes


Um fato relevante nos EUA é a explosão de interessados no programa de AP STATISTICS: saltou de menos de 8 mil em 1997 para pouco mais de 205 mil participantes em 2016.

(The AP Statistics course is equivalent to a one-semester, introductory, non-calculus-based college course in statistics. The course introduces students to the major concepts and tools for collecting, analyzing, and drawing conclusions from data. There are four themes in the AP Statistics course: exploring data, sampling and experimentation, anticipating patterns, and statistical inference. Students use technology, investigations, problem solving, and writing as they build conceptual understanding.  https://apcentral.collegeboard.org/courses/ap-statistics/course)

Fonte: Doris Fontes

Comparando egressos vs vagas oferecidas pelas universidades brasileiras, temos:

Fonte: Doris Fontes

Formandos por tipo de universidade:

Fonte: Doris Fontes

O número de vagas oferecidas também cresceu a partir de 2007 (REUNI), mas o número de egressos não aumentou. Está estagnado ou, pior, menor que em 2004. Poderíamos dizer que, a grosso modo, a taxa de evasão da estatística beira os 75%. 

No Brasil já começa a aparecer programas de graduação e pós em Ciência de Dados, como no Centro Universitário Metodista Izabela Hendrix, em Belo Horizonte (MG). Não sei qual a qualidade desses programas. Alguns cursos de pós chegam a abordar apenas introdução à estatística.

As vagas para profissionais de Analytics/Big Data/Data Science cresce muito no mundo todo. Se você entrar hoje no site do indeed.com e fizer uma busca por "analytics", vai encontrar algo como 140 mil vagas. Lógico que tem muita coisa misturada, mas mostra o potencial de mercado para quem sabe analisar dados. No blog do CONRE-3 de Oportunidades de Trabalho para Estatísticos (https://www.facebook.com/groups/statjobs/), hoje com pouco mais de 11 mil membros, temos divulgado mais de 2 mil vagas de trabalho por ano -- e são vagas parciais, pois muitas empresas publicam apenas na Catho, ou sequer divulgam (preenchimento através de indicações somente). Se formamos menos de 400 num ano, está claro que não temos capacidade para prover profissionais para o mercado interno. Pior ainda, alguns bons estatísticos saem do país.

Talvez possamos pensar juntos sobre formas de melhorar esse índice de evasão, num programa conjunto, mais agressivo, de divulgação da nossa área junto aos alunos do ensino médio. O CONRE-3 tem recursos bem pequenos (muito em função do desinteresse dos estatísticos pelo seu conselho profissional -- às vezes até boicote de formandos e professores), mas, dentro do possível, temos tentado implementar muitos programas de valorização, divulgação e fortalecimento da nossa profissão: eventos ligados ao mercado de trabalho, TENDA ESTATÍSTICA (através de esforço conjunto com a ABE e SBPC) para estudantes de todas as idades, palestras em escolas ou envio de material de divulgação da estatística aos alunos de EM; ajuda aos deptos de estatística com palestras e materiais de apoio; ajuda a eventos variados (como o SINAPE, RBras/SEAGRO, Semests, feira de profissões, etc). Somos auditados anualmente pelo TCU e não temos muita flexibilidade para o uso de nossa verba, então, trabalhamos dentro das nossas possibilidades.

O problema de evasão é grave, triste e precisa ser estudado e combatido. Alegar simplesmente que os alunos que entram são fracos não é razoável. A falta de prestígio da nossa área pode atrair um monte de alunos interessados apenas na baixa concorrência nos vestibulares. Isso não é bom.

Na última reunião que o Julio Trecenti (presidente do CONRE-3) e eu (como vice-presidente) tivemos no conselho federal, no RJ, discutimos a "morte" da nossa carreira no mercado de trabalho para o cientista de dados. Já há deptos de computação interessados em oferecer Bacharelado em Ciência de Dados, assim como há engenharias interessadas em "Engenharia Estatística".

Enfim, pensei em compartilhar um pouco das minhas preocupações.


* - Doris Fontes é atual vice-presidente e ex-presidente do CONRE-3 (Conselho Regional de Estatística, 3a região (SP-PR-MT-MS))

terça-feira, 14 de agosto de 2018

Um relato da visita do Michael Jordan à UFRJ


fonte: Asses. Comunicação COPPE


A visita do Prof. Michael Jordan à UFRJ foi anunciada aqui na postagem da semana passada. Ela foi divulgada por vários institutos e a propaganda deu certo! Após uma rápida visita ao Laboratório de Sistemas Estocásticos (LSE) da UFRJ, o Prof. Jordan se dirigiu à principal atividade da visita: sua palestra. O auditório da COPPE com capacidade para cerca de 300 pessoas estava super-lotado para a palestra, com algumas pessoas sentando nos corredores de acesso e outras ficando em pé no fundo. A platéia foi constituída de profissionais e alunos dos mais diferentes níveis das Ciências Exatas. Aliás, houve uma presença maciça de alunos de graduação, talvez atraídos pela fama que o palestrante adquiriu com seus trabalhos.

A palestra tratou de contextualizar a Ciência dos Dados nos dias de hoje como um guarda-chuva de oportunidades científicas, englobando áreas da Estatística, da Computação e da Matemática e pegando emprestado conhecimentos das Engenharias, Física e Química. Nesse sentido, Jordan considera natural o sentimento de incompreensão que muitos ainda nutrem pelas atividades dessa área.

O ponto que permeou toda a sua apresentação foi a ênfase na interdisciplinariedade da área, devido à sua necessidade de incorporar na análise componentes de Estatística mas também de Computação de forma imprescindível. Segundo ele, o conhecimento de técnicas estatísticas é fundamental para tratar incertezas adequadamente. Por outro lado, o uso de técnicas computacionais é imprescindível para otimizar o seu processamento e análise. Ele ilustrou esse ponto inicialmente falando das exigências da indústria em ter análises mais rápidas (instantâneas, se possível) na presença de grandes massas de dados. Para Jordan, o que caracteriza a grandeza de um conjunto de dados não é apenas a existência de muitas unidades observacionais (big n) mas principalmente a disponibilidade de muita informação sobre cada unidade observada (big p). É essa segunda característica que é responsável pela necessidade de melhores técnicas estatísticas, para possibilitar melhores previsões a nível dos indivíduos (e não apenas a nível de agregados populacionais como média e variância) de acordo com suas características. 

fonte: Asses. Comunicação COPPE

A partir daí, ele procurou exemplificar essa interdisciplinariedade com um tópico de sua pesquisa: tratamento da confidencialidade. A confidencialidade em uma análise de dados é garantida por algum procedimento de mascaramento ou embaralhamento dos dados para evitar a identificação de indivíduos. Isso é particularmente relevante em contextos sensitivos, como estudos sobre uso de drogas. Jordan entende que o mascaramento  é uma componente computacional que deve ser acrescida a uma análise estatística dos dados. O procedimento necessário para obter a solução teria portanto a componente estatística de minimização do risco do estimador, acoplada à otimização do embaralhamento. Ele enfatizou bastante a importância do tratamento do problema a nível do individuo com cada um podendo indicar a taxa de embaralhamento que deseja (indo de completo mascaramento até a ausência completa de mascaramento).

A seguir, ele apresentou um resumo do seu trabalho de melhoramento de algoritmos de obtenção de máximo de funções, que ele já tinha apresentado no encontro mundial do ISBA e já tinha sido relatado aqui. A palestra foi finalizada com um chamado de todos para a interdisciplinariedade, para melhor aproveitar as oportunidades desse janela que se abre no mundo da Ciência. A seguir, houve uma rodada de perguntas pela platéia, que focou mais em aspectos gerais de Ciência de Dados do que em assuntos tratados na palestra. O video da palestra pode ser visto aqui e o arquivo usado por ele na apresentação pode ser visto aqui.

fonte: Asses. Comunicação COPPE

A seguir, Michael seguiu para uma visita ao projeto MagLev, de transporte via Levitação Magnética, da COPPE. Lá ele foi recebido pelo coordenador do projeto que levou o grupo que acompanhava o visitante para um passeio no protótipo desenvolvido (como ilustrado na foto acima) e ouviu com atenção uma breve explanação do projeto. Finalmente, após pausa para almoço, ele concedeu uma entrevista a um jornal de grande circulação nacional. 

Embora a palestra não tenha trazido grandes novidades, a visita teve a importância de atrair pesquisadores maduros mas principalmente uma quantidade expressiva de jovens estudantes. Esse tipo de evento tem esse poder catalisador com efeitos potencialmente muito positivos. Nos momentos que antecederam o início da palestra, podia se sentir no ar do auditório a expectativa pela chegada do pesquisador ao recinto. Assim, acho que o evento foi um sucesso e pode ter, quem sabe, atraído e ajudado a definir as carreiras de alguns jovens promissores.