terça-feira, 22 de janeiro de 2019

Aprendizagem de máquina leva matemáticos a um problema insolúvel*

Alfred Eisenstaedt/ LIFE Picture Coll./Getty

por Davide Castelvecchi

Uma equipe de pesquisadores esbarrou em uma questão que é matematicamente irrespondível porque está ligada a paradoxos lógicos descobertos pelo matemático austríaco Kurt Gödel, nos anos 1930, que não podem ser resolvidos usando a matemática padrão.

Os matemáticos, que estavam trabalhando em um problema de aprendizagem de máquina, mostram que a questão da "capacidade de aprendizado" - se um algoritmo pode extrair um padrão de dados limitados - está ligada a um paradoxo conhecido como a hipótese do contínuo. Gödel mostrou que a afirmação não pode ser comprovada como verdadeira ou falsa usando linguagem matemática padrão. O último resultado apareceu no dia 7 de janeiro no Nature Machine Intelligence[1].

"Para nós, foi uma surpresa", diz Amir Yehudayoff, do Instituto de Tecnologia Technion-Israel, em Haifa, co-autor do artigo. Ele diz que, embora haja um número de questões matemáticas técnicas que são conhecidas como "indecidíveis", ele não esperava que esse fenômeno aparecesse em um problema relativamente simples no aprendizado de máquina.

John Tucker, um cientista da computação na Universidade de Swansea, no Reino Unido, diz que o artigo é "um resultado pesado nos limites do nosso conhecimento", com implicações fundamentais para a matemática e o aprendizado de máquina.

Nem todos os conjuntos são iguais

Os pesquisadores geralmente definem a capacidade de aprendizado em termos de se um algoritmo pode generalizar seu conhecimento. O algoritmo recebe a resposta para uma pergunta "sim ou não" - como "Essa imagem mostra um gato?" - para um número limitado de objetos e, em seguida, precisa adivinhar a resposta para novos objetos.

Yehudayoff e seus colaboradores chegaram a seu resultado enquanto investigavam a conexão entre capacidade de aprendizado e "compressão", que envolve encontrar uma maneira de resumir as características salientes de um grande conjunto de dados em um conjunto menor de dados. Os autores descobriram que a capacidade da informação de ser comprimida eficientemente se resume a uma questão na teoria de conjuntos - coleções matemáticas de objetos, como os conjuntos nos diagramas de Venn. Em particular, refere-se aos diferentes tamanhos de conjuntos contendo infinitamente muitos objetos.

Georg Cantor, o fundador da teoria dos conjuntos, demonstrou na década de 1870 que nem todos os conjuntos infinitos são criados iguais: em particular, o conjunto de números inteiros é "menor" que o conjunto de todos os números reais, também conhecido como continuum. (Os números reais incluem os números irracionais, bem como os racionais e inteiros.) Cantor também sugeriu que não pode haver conjuntos de tamanho intermediário - isto é, maiores que os inteiros, mas menores que o contínuo. Mas ele não foi capaz de provar essa hipótese contínua, nem muitos matemáticos e lógicos que o seguiram.

Seus esforços foram em vão. Um resultado de 1940 de Gödel (que foi completado na década de 1960 pelo matemático americano Paul Cohen) mostrou que a hipótese do contínuo não pode ser provada nem verdadeira nem falsa a partir dos axiomas padrões - as afirmações tomadas como verdadeiras - da teoria dos conjuntos, que são comumente tomados como base para toda a matemática.

O trabalho de Gödel e Cohen sobre a hipótese do continuum implica que podem existir universos matemáticos paralelos que são compatíveis com a matemática padrão - um em que a hipótese do contínuo é adicionada aos axiomas padrão e, portanto, declarada como verdadeira e outra na qual é declarada falso.

Limbo da capacidade de aprendizado

No último artigo, Yehudayoff e seus colaboradores definem a capacidade de aprendizado como a habilidade de fazer previsões sobre um grande conjunto de dados por amostragem de um pequeno número de pontos de dados. O link com o problema do Cantor é que existem infinitas maneiras de escolher o conjunto menor, mas o tamanho desse infinito é desconhecido.

Os autores mostram que, se a hipótese do contínuo é verdadeira, uma amostra pequena é suficiente para fazer a extrapolação. Mas se for falso, nenhuma amostra finita pode ser suficiente. Dessa forma, eles mostram que o problema da capacidade de aprender é equivalente à hipótese do contínuo. Portanto, o problema da capacidade de aprendizado também está em um estado de limbo que só pode ser resolvido escolhendo o universo axiomático.

O resultado também ajuda a dar uma compreensão mais ampla da capacidade de aprendizado, diz Yehudayoff. “Essa conexão entre compressão e generalização é realmente fundamental se você quiser entender o aprendizado.”

Pesquisadores descobriram uma série de problemas "indecidíveis", diz Peter O'Hearn, cientista da computação da University College London. Em particular, seguindo o trabalho de Gödel, Alan Turing - que foi um dos fundadores da teoria dos algoritmos - encontrou uma classe de questões que nenhum programa de computador pode ter a garantia de responder em qualquer número finito de passos.

Mas a indecidibilidade nos resultados mais recentes é "de um tipo raro", e muito mais surpreendente, O’Hearn acrescenta: aponta para o que Gödel descobriu ser uma incompletude intrínseca em qualquer linguagem matemática. As descobertas provavelmente serão importantes para a teoria do aprendizado de máquina, acrescenta ele, embora “não tenha certeza se terá muito impacto na prática”.

Referência
[1]. Ben-David, S., Hrubeš, P., Moran, S., Shpilka, A. & Yehudayoff, A. (2019). Nature Machine Inteligence 1, 44–48 (2019).

=============================
Artigo publicado na Nature, vol 565, pag 277, em 08 de janeiro de 2019.

terça-feira, 15 de janeiro de 2019

Estatística do Ano 2018*

https://www.statslife.org.uk/news/4026-statistics-of-the-year-2018-winners-announced

O anúncio das Estatísticas do Ano de 2018 teve um tema distintamente ambiental, uma vez que as estatísticas relativas a resíduos de plástico e o uso de energia solar surgiram como as vencedoras das categorias Internacional e do Reino Unido deste ano, respectivamente. 

As inscrições elogiadas cobrem uma infinidade de outras questões, desde a redução da "pobreza absoluta" global até o número de Jaffa cakes [NT: um tipo de biscoito tradicional do Reino Unido] presentes em seu tubo de Natal - ilustrando o fenômeno da "encolhimento".

A estatística internacional vencedora de 2018 é 90,5%: a proporção de resíduos plásticos que nunca foram reciclados. Estimados em 6,3 bilhões de toneladas métricas, acredita-se que cerca de 12% de todos os resíduos plásticos tenham sido incinerados, com cerca de 79% acumulados em aterros sanitários ou no ambiente natural (provenientes do artigo Production, use, and fate of all plastic ever made de R Geyer, JR Jambeck e K Lavender Law). 

"É muito preocupante que uma proporção tão grande de resíduos de plástico nunca tenha sido reciclada", diz o presidente da RSS, Sir David Spiegelhalter, que presidiu o painel de jurados do Stats of the Year. Esta estatística ajuda a mostrar a escala do desafio que todos enfrentamos. Foi justamente chamada de "Estatística Internacional do Ano" do RSS para 2018."

O vencedor da estatística do Reino Unido de 2018 é de 28,7%: a porcentagem máxima de toda a eletricidade produzida no Reino Unido devido à energia solar em 30 de junho deste ano. Este número surpreendente reflete o fato de que a energia solar era, embora apenas brevemente, a principal fonte de eletricidade do país - à frente do gás (proveniente da Electric Insights).

A ex-estatística nacional, Dame Jil Matheson, que também estava no painel de julgamento da SOTY [NT: abreviatura de Statistics of the Year], chamou a estatística de "uma figura muito bem-vinda". "2018 foi um ano marcante para a eletricidade gerada por energia solar no Reino Unido - assim como para energia renovável em geral", acrescentou ela.

"As estatísticas dessa lista captam alguns dos sinais dos tempos de 2018", diz o diretor executivo da RSS, Hetan Shah. "Ficamos encantados com a qualidade e quantidade das indicações deste ano - com mais de 200 recebidas". Hetan explicou o significado das inscrições vencedoras em um pequeno vídeo.

Agora, em seu segundo ano, as Estatísticas do Ano pretendem mostrar as histórias às vezes surpreendentes que os números podem nos dizer sobre o mundo. Além de David Spiegelhalter e Jil Matheson, outros jurados do painel incluem o editor de assuntos domésticos da BBC, Mark Easton, e a editora de dados do Guardian, Mona Chalabi.

Várias estatísticas surpreendentes foram selecionadas como "altamente elogiadas"; aquelas sob a categoria Internacional são as seguintes:

9,5%: a redução do ponto percentual na "pobreza absoluta" mundial nos últimos dez anos - o que significa que a proporção de pessoas que vivem nessa condição caiu para menos de metade desde 2008. (originada do Banco Mundial em 2018 e 2008).

64.946: o número de casos de sarampo na Europa de novembro de 2017 a outubro de 2018 (proveniente da Organização Mundial da Saúde).

40%: a porcentagem de homens russos que não vivem até os 65 anos de idade - a idade proposta para a aposentadoria dos homens (proveniente do Times, Independent, Guardian e da Organização Mundial da Saúde).

US$ 1,3 bilhão: o valor bateu o valor do Snapchat em um dia de um tweet Kylie Jenner (fornecido pela Reuters, CNBC, Business Insider e The Guardian).

As estatísticas do Reino Unido "altamente elogiadas" para 2018 são:

6,4%: o percentual de diretores executivos do sexo feminino dentro das empresas do FTSE 250 (proveniente do The Female FTSE Board Report 2018 da Cranfield).

85,9%: a proporção de trens britânicos que funcionaram no horário - a mais baixa por mais de uma década (proveniente do Desempenho de Trens de Passageiros e Fretes 2018-19 Q2 Release Estatístico, Escritório de Rodovias e Ferrovias).

82%: a porcentagem de todas as lojas de varejo da Grã-Bretanha que ainda estão em lojas físicas, em vez de on-line (provenientes de vendas de lojas físicas e vendas on-line com varejo on-line: agosto de 2018, Office for National Statistics).

16,7%: a redução percentual no número de Jaffa cakes no tubo de Natal da McVities [NT: tradicional fabricante britânica de biscoitos], ilustrando assim o conceito de shrinkflation [NT: neologismo inglês para representar o fenômeno de manter o preço de um produto mas diminuir o seu volume].

=====================
* - artigo publicado em 17 de dezembro de 2018 pela StatsLife, o boletim da RSS.

terça-feira, 18 de dezembro de 2018

Retrospectiva 2018

http://www.capes.gov.br/sala-de-imprensa/noticias/9274-a-flor-da-pele-a-emocao-de-receber-o-premio-capes-de-tese-2018

Fim de ano chegando com as inúmeras festas de confraternização acontecendo. É época de balanços sobre o passado, o presente e o futuro. O StatPop não foge a essa regra e revê os temas que tiveram maior participação e maior impacto ao longo do ano. É bom deixar claro que se trata de uma avaliação essencialmente subjetiva sobre o que foi mais relevante.

Revendo as postagens do ano, tivemos um tema claramente vencedor que foi a Ciência dos Dados. Vários assuntos a ela relacionados foram tratados e talvez o ponto alto para nós tenha sido a visita do Prof. Michael Jordan à UFRJ. Jordan é um dos pesquisadores mais influente se não o mais influente dessa área. A sua visita serviu para traçar um panorama desse setor, que não para de crescer no mundo todo, mas que ainda engatinha no Brasil. Ele procurou caracterizá-lo como uma janela de oportunidades para a interação entre Estatística, Computação e Matemática. Esperemos que assim seja por aqui mas os primeiros sinais apresentam desenvolvimentos separados dessas áreas, tornando-os necessariamente mais frágeis. Vamos torcer e também trabalhar, na medida do possível, para que esse quadro seja realinhado na direção correta.

Outro tema que abalou a sociedade brasileira e foi repercutido aqui no StatPop foram as eleições presidenciais de outubro. Houve uma forte polarização da sociedade, provocando inúmeras discussões acaloradas até mesmo dentro do seio familiar com consequências ainda não definidas. Passado o período do pleito, os ânimos serenaram um pouco e houve um movimento em direção ao normal mas as sequelas ainda estão presentes. Tanta inflexão emocional teve seu peso em termos das análises das pesquisas de opinião. As rápidas mudanças de humor, potencializadas pela influência sem precedentes das mídias sociais, foram difíceis de serem captadas. Isso provocou uma série de informações desencontradas entre o que as pesquisas prévias de opinião e o resultado das urnas, especialmente no 1o turno das eleições. Acho que existem importantes lições a serem tiradas desse evento, tanto para a forma de divulgação das pesquisas como para a sua compreensão pelo grande público.

Finalmente, o último tema que merece ser destacado é a avaliação da Ciência brasileira. Fiquei surpreso com a quantidade de postagens que foi dedicada ao tema pelo StatPop neste ano. Acredito que isso possa ser um reflexo do momento que passei neste ano. O ano começou com as homenagens que recebi durante o EBEB. Teve alguns outros envolvimentos ao longo do  ano. Ao seu término, houve alguns envolvimentos em premiações a teses de jovens recém-graduados. Participei de uma comissão avaliadora de um grande prêmio nacional de teses e tive o prazer de uma sobrinha ser contemplada em outra premiação nacional de teses. Para completar o ano, ainda participei como patrono da formatura de uma turma de graduação.

terça-feira, 11 de dezembro de 2018

O futuro da Ciência brasileira

http://www.capes.gov.br/sala-de-imprensa/noticias/7771-vencedor-do-grande-premio-capes-de-tese-fala-sobre-a-conquista

Nesta 5a feira, dia 13 de dezembro, terá lugar na CAPES a cerimônia de premiação dos agraciados no Premio CAPES de Teses de 2018. Os premiados de cada área já foram anunciados em 01 de outubro e irão à cerimônia para receberem a justa homenagem pelo feito atingido. Esse Premio foi instituído há alguns anos e visa dar visibilidade à nata da inovação científica em termos de geração dos futuros candidatos a lideres de grupos de pesquisa pelo Brasil afora.

Todos os premiados a cada ano são escolhidos dentre as teses defendidas no ano anterior para cada uma das 49 áreas da Ciência, sendo a divisão estabelecida pela CAPES. Assim, é de se esperar que a lista dos vencedores contenha apenas trabalhos de excelente nível. Além disso, esse reconhecimento tem um benefício indireto de dar visibilidade à produção científica realizada em todo o país, tarefa em geral silenciosa e pouco afeita aos holofotes da mídia. A iniciativa parece estar dando certo pois o número de inscrições para esse prêmio vem subindo progressivamente, tornando o concurso ainda mais competitivo. Além do importante reconhecimento recebido, que sempre faz bem ao agraciado, haverá premiação financeira com apoios a apresentação de trabalhos em congresso e uma bolsa para estágio pos-doutoral no exterior.

Dentre as instituições de onde estudaram os 49 vencedores do prêmio deste ano há uma supremacia bastante destacada da USP com 13 vencedores, seguida de longe pela UFRGS com 5 vencedores, UFMG com 4 vencedores e PUC-RJ, UFPE e UFRJ com 3 vencedores. Além dos vencedores das áreas, existe a possibilidade de menções honrosas em cada uma das áreas. Tive a alegria de ser o orientador de uma tese que recebeu menção honrosa da área de Matemática/Probabilidade e Estatística na edição de 2014 do Prêmio.

Mas os 49 vencedores não irão à cerimônia apenas para receberem seu prêmio. A CAPES instituiu também o Grande Prêmio CAPES de Teses, onde grandes áreas pré-estabelecidas terão suas áreas agregadas em 3 grandes grupos: Ciências Exatas/Engenharias, Ciências da Saude e Ciências Humanas. Assim, esses 49 vencedores também concorrerão a esses 3 Grandes Prêmios. Cada um dos 3 premiados será agraciado com a distinção extra de ser considerado o melhor entre os melhores e além disso terá benefícios financeiros palpáveis:15 mil dólares mais um estágio pos-doutoral. Os 3 prêmios receberam o nome de personalidades científicas importantes dessas 3 grandes áreas e os seus vencedores só serão divulgados durante a cerimônia.

O prêmio da área de Ciências Exatas/Engenharias congregou 11 áreas e recebeu o nome de Luis Alberto Coimbra, para homenagear o fundador da COPPE, da UFRJ. Coimbra foi um pioneiro da Engenharia brasileira, que infelizmente faleceu em maio deste ano aos 94 anos. Assim, achei bastante apropriado que ele emprestasse seu nome a essa distinção.  A distribuição dos 11 concorrentes, os vencedores das áreas de Ciências Exatas/Engenharias foi distribuída entre USP com 4 premiados (sendo 2 do campus de São Paulo e 2 do campus de São Carlos), 2 da UFMG e 1 de IMPA, INPE, Mackenzie, PUC-RJ e UNESP. Chama a atenção que a grande maioria (7 das 11 teses) ter se concentrado em teses defendidas no estado de São Paulo. 

Eu tive o prazer de fazer parte da Comissão de seleção do premiado. O prazer foi em parte proporcionado pela alta qualificação dos outros membros da Comissão, o que facilitou a tarefa de escolha. A outra parte do prazer foi ter tido a oportunidade de conhecer de forma um pouco mais detalhada o trabalho desenvolvido pelos concorrentes. Isso nos deixou bastante à vontade por termos constatado que qualquer um dos 11 candidatos poderia ser o vencedor sem grande margem de erro. 

Todos os trabalhos traziam uma alta quantidade de novos conhecimentos de qualidade que foram gerados e que encontraram/encontrarão uma vitrine de destaque no cenário científico internacional. Também chamou nossa atenção a multidisciplinariedade dos trabalhos, com vários deles envolvendo o uso de ferramentas e técnicas não só de sua área de atuação como também de outras áreas vizinhas. Finalmente foi interessante ver várias teses gerando contribuições com resultados concretos ou em vias de serem concretizados com retornos imediatos para a sociedade. Exemplos envolveram geração e identificação de propriedades de novos equipamentos, novos materiais, novos combustíveis, novas vacinas e novos sistemas de coleta de dados e de informação. Como se pode ver, trata-se de uma gama bastante abrangente de contextos.

No final, os membros das comissões selecionadoras tiveram um dia muito agradável em Brasília, onde se pode ver um pouco do que o futuro guarda para a Ciência brasileira e a perspectiva é muito boa. Estamos conscientes que o que foi visto lá está longe de ser representativo do universo de teses produzidas no país; tivemos acesso ao topo do topo. Mas foi muito bom e promissor ver tantas teses de tão boa qualidade. Precisamos agora torcer e propiciar o ambiente de trabalho apropriado para que todo esse potencial possa encontrar seguimento e se materialize em pesquisadores com sólidas carreiras e, quem sabe, liderando grupos de pesquisa e emulando em seus colegas a ambição por alçar vôos cada vez mais altos em busca da geração de conhecimento de ponta.  

A lista completa dos vencedores de 2018 pode ser vista aqui.

terça-feira, 4 de dezembro de 2018

Guia do Estudante 2018

https://guiadoestudante.abril.com.br/

Foi divulgada mais uma edição das avaliações dos cursos pelo Guia do Estudante, da Editora Abril. Na área de Estatística, foram avaliados 35 cursos de graduação entre instituições públicas e privadas. O resultado de uma certa maneira reproduz o resultado da edição de 2015, que já haviamos divulgado aqui. Lá, falamos sobre essa avaliação, fazendo as devidas ressalvas. Naquele ano, cursos de apenas 5 instituições obtiveram a pontuação máxima de 5 estrelas: 3 universidades paulistas, 1 nordestina e a UFRJ. Nesta edição, houve um pequeno aumento para 6 das instituições com pontuação máxima, sendo 4 paulistas, 1 mineira e a UFRJ. 

Chama muito a nossa atenção a expressiva participação do Estado de SP na formação de alta qualidade em Estatística. Também chamou a minha atenção que 2 dessas instituições fossem na cidade de São Carlos. (As outras 2 foram as tradicionais USP e Unicamp.) Juntando com outras informações que recebo tanto da área de Estatística como de outras áreas, parece-me que essa pequena cidade está tendo destaque crescente na área acadêmica. Se ela ainda não conta com o prestígio emprestado por uma USP, na cidade de São Paulo, ou uma Unicamp, na cidade de Campinas, não deveria ser surpresa para ninguém se em breve ela comece a ocupar rotineiramente as mesmas prateleiras de destaque que essas líderes ocupam no cenário paulista.

A avaliação dos cursos de graduação em Estatística deste ano listou 35 instituições e a elas foram atribuídas as pontuações de 5 estrelas (máxima), 4 estrelas, 3 estrelas e nenhuma estrela. Não sei dizer o que fez com que instituições fossem listadas nessa última categoria. Pode ter sido por uma baixa avaliação mas mais provavelmente se deveu a  alguns requisitos não terem sido atendidos. Entre esses, podem ser citados a pouca idade do curso, a inexistência de informação junto ao mercado de trabalho ou indisponibilidade de dados por parte das instituições. A grande maioria dos cursos (30 dos 35), entretanto, foi classificada em 5, 4 ou 3 estrelas.

É interessante comparar a Estatística com algumas de suas áreas vizinhas. A Matemática exibe centenas de cursos avaliados, incluindo Bacharelados e Licenciaturas. Dentre essas centenas de cursos, apenas 21 foram algum de seus cursos contemplados com 5 estrelas, sendo 8 paulistas, 3 mineiras, 3 fluminenses, 3 gauchas, 2 paranaenses, 1 baiana e uma brasiliense. Novamente, a presença paulista se destaca embora em proporção mais similar ao tamanho da população do estado que a proporção de cursos com nota máxima de Estatística.

Já a área de Atuária teve apenas 14 cursos avaliados, sendo que nenhum obteve pontuação máxima de 5 estrelas, 7 obtiveram 4 estrelas, 3 obtiveram 3 estrelas e 4 não obtiveram estrelas. Juntando com a área de Estatística, USP, UFRJ e UFMG foram as únicas instituições a terem cursos de Atuária e de Estatística com a pontuação máxima em ambas as áreas.

A lista completa da Estatística pode ser obtida aqui e está reproduzida abaixo

5* - USP/SP, USP/SC, UNICAMP, UFRJ, UFMG, UFSCAR

4* - UFU, UFC, UFSM, UFJF, UFRGS, ENCE, UFPE, UFPA, UFPR, UFPB, UFRN, UNB

3* - UFF, UFOP, UNESP/PP, UFMT, UFCG, UFG, UEM, UFBA, UFAM, UERJ, UEPB, UFES

0* - UFPI, UFRondonia, FMU/SP, UFS, CUC/SP

terça-feira, 27 de novembro de 2018

1a Conferência de Estatística e Ciência dos Dados

http://www.csds.ime.ufba.br/

Aconteceu há 2 semanas atrás a 1a Conferência de Estatística e Ciência dos Dados, organizada em Salvador pela Universidade Federal da Bahia. A conferência procurou congregar profissionais e pesquisadores da diferentes áreas que abrigam o guarda chuva de Ciência de Dados, especialmente Estatística, Computação e Matemática. O evento contou com um pouco menos de uma centena de participantes de várias partes do país e também do exterior, notadamente de países vizinhos da América Latina.

Vários trabalhos foram apresentados e houve uma razoável e saudável interação e troca de idéias entre profissionais das áreas listadas acima. O evento teve conferências, várias mesas redondas e minicursos em temas ligados à Ciência de Dados. Vários trabalhos também foram apresentados, com destaque para apresentações de iniciativas de utilização de grandes massas de dados na resolução de problemas concretos reais. Uma iniciativa que chamou minha atenção foi o laboratório montado na Universidade Federal de Viçosa para tratamento de grandes bancos de dados para oferecimento de soluções a diversas instituições. Esse laboratório tem vários trabalhos em andamento, em colaboração com instituições públicas, como ilustrado aqui. A propósito, me pareceu interessante o prefeito de um município mineiro ter participado do evento com apresentação de trabalho, resultante dessa colaboração. Veja no programa do evento a sessão convidada sobre Data Science for Smart Cities (Ciência dos Dados para Cidades Inteligentes). 

Apesar do evento ter durado 3 dias, minha participação ficou confinada, por restrições na minha agenda, ao último dia de atividades. Fui convidado para apresentar a conferência de encerramento e participar de uma mesa redonda sobre Ciência de Dados no Brasil. Minha participação na mesa redonda se restringiu a apresentar um pouco da minha visão sobre a situação da área no Brasil. Assim, falei um pouco sobre minha preocupação com a inexistência de trabalhos de pesquisa aqui no Brasil. Já falei aqui do que tenho visto de inovações na área em eventos fora do país e que não vejo reproduzido aqui. O que mais tenho visto por aqui são aplicações de técnicas já conhecidas para solução de problemas. Isso não está ruim pois demonstra que os usuários de Estatística e de análise de dados estão sintonizados para os avanços realizados no mundo. Mas é pouco para o output que se espera de universidades brasileiras.

Outro ponto que também defendi foi a criação de mais cursos voltados especificamente para Ciência de Dados. Atualmente já existem algumas especializações no pais com esse fim a nível de pós-graduação. No entanto, só tenho conhecimento de um único curso de graduação nesse tema. E mesmo esse curso, forma tecnólogos em uma graduação de apenas 3 anos. Acredito que existe um interesse muito grande pela área por parte dos alunos terminando o ensino médio e esse interesse tem sido frustrado e/ou atendido de forma incompleta por algumas graduações (notadamente de Estatística e Computação) com ênfases na área.

Acho que graduações formais explicitando essa área de formação poderiam atrais alunos com esse interesse. Essas graduações podem ser estruturadas com relativa facilidade se houver uma concertação de interesses entre os Departamentos de Estatística, de Computação e de Matemática existente em diferentes universidades do país. Várias dessas universidades tem atividades de pesquisa nessas áreas. Essas investigações poderiam dar o suporte científico (para além do suporte tecnológico) necessário a um curso formador de profissionais plenamente capacitados em Ciência de Dados. Isso significa formar profissionais que entendam como os importantes avanços dessas áreas podem ser concatenados para fornecer uma visão abrangente das análises de grandes massas de dados. E, principalmente, dar a esses alunos a base para que entendam e sejam capazes de analisar criticamente os vários avanços que vem regulamente sendo propostos na área.

Alguns entendem que o caminho que descrevi no parágrafo anterior apontam para o fim da Estatística.  Outros entendem que o que descrevi poderia ser atendido com poucas mudanças na grade curricular da formação de um estatístico. Acho que deve-se ser capaz de propor soluções cada vez mais requeridas pelo mercado de trabalho. A descrição que fiz no parágrafo anterior é relativamente próxima da formação de um estatística e até de outras áreas de Computação e Matemática. Isso deveria ser um fator facilitador e não complicador. Por exemplo, muitas universidades já tem implementadas formações duplas, onde com um pouco de atividades didáticas adicionais, os alunos podem sair da universidade com 2 diplomas. Assim, o aluno de graduação de uma das áreas já existentes (Estatística, por exemplo) poderia sair com dupla formação em Ciência de Dados e sua área atual. Quem seguir esse caminho, fatalmente sairá na frente e certamente poderá atrair alunos interessados e de bom nível. 

terça-feira, 20 de novembro de 2018

Super erupção vulcânica apocalíptica que poderia DESTRUIR a civilização está muito mais próxima do que pensávamos - parte II

https://www.hakaimagazine.com/sites/default/files/facebook-sakurajima.jpg

A foto acima é do vulcão Sakurajima, no Japão, um dos vulcões mais ativos do mundo. Ela foi escolhida por abrir as apresentações que o Professor Jonathan Rougier faz sobre o seu trabalho, que foi o assunto da postagem da semana passada. O professor Rougier teve a gentileza de nos responder para dar sua visão sobre o seu trabalho, sobre a repercussão que ele teve na mídia e sobre qual a avaliação que ele fez de todo esse processo. Ele não só fez isso como nos enviou o material que ele usa nas palestras que ele faz sobre o assunto. O arquivo das apresentações pode ser visualizado aqui. A íntegra da avaliação que o professor Rougier fez do processo segue (traduzida) abaixo:

O que aconteceu com o artigo foi que meus coautores ficaram entusiasmados com o resultado, quando finalmente emergiu de forma inequívoca - levou muito tempo para descobrir como lidar com as limitações das observações de uma maneira simples e transparente. Então falei com a assessoria de imprensa, e eles disseram, mais ou menos, que "todo mundo gosta de uma história de vulcão, e todo mundo gosta de uma história de fim de civilização, então você definitivamente deveria fazer um comunicado à imprensa". Eles me ajudaram a escrever um, que era uma mistura de narrativa e citações. Veja aqui.

Isso tornou mais fácil para os meios de comunicação produzir uma reportagem.

O comunicado de imprensa permitiu-me expressar um conjunto mais amplo de pontos de vista do que estava no jornal, centrado na fragilidade do nosso mandato como civilização, aqui na superfície da Terra, e na nossa necessidade de resolver problemas mais importantes (incluindo o problema de grandes, mas não super-erupções). Vários dos meios de comunicação captaram isso. Na minha palestra sobre este documento, eu digo que nos últimos 30 anos a economia global se desenvolveu sob o ímpeto de crescimento e lucro, e nenhuma atenção foi dada à resiliência, e a população mundial aumentou de 4,5 bilhões para 7,5 bilhões. O resultado é que nós humanos nunca fomos mais vulneráveis. Eu acho que Peter Hess do site Inverse realmente entendeu a mensagem, daí "surpreendentemente frio" - o que fez todos os meus co-autores rirem!

[Nota da tradução: Peter Hess publicou uma postagem no site da Inverse sobre o assunto, tendo como título "Vulcanologista que mudou a data da próxima super-erupção está surpreendentemente frio".]

Seguimos um modelo bastante padrão para divulgar o comunicado à imprensa e o jornal, e a Elsevier, editora do artigo, foram úteis. O comunicado de imprensa foi divulgado na manhã de segunda-feira, e as matérias foram embargadas até o meio-dia de quarta-feira, quando a Elsevier disponibilizou o artigo na Science Direct. Nesse intervalo de tempo, lidei com consultas por e-mail, cerca de sete no total, incluindo várias trocas com Peter Hess. Eu monitorei o Google News para 'super-erupção' e as histórias começaram a sair imediatamente: as manchetes do End Times foram as primeiras!

[Nota da tradução: End Times Headlines é um site que relaciona vários aspectos da sociedade, inclusive Ciência, com assuntos religiosos e publicou uma postagem sobre esse trabalho.]

Uma coisa interessante é que todos, incluindo o nosso escritório de imprensa, queriam uma imagem de um vulcão com uma super-erupção. Eu tive que explicar que provavelmente nenhum ser vivente havia testemunhado uma super-erupção e vivido, e nós estabelecemos em uma foto do espaço da caldeira de Toba - Toba foi uma das maiores erupções explosivas jamais registradas. Eu incluo o artigo do Sunday Times em meus slides porque, ao tentar transmitir a magnitude de uma super-erupção, o artista inteiramente re-imaginou a estrutura da Terra.

No geral, fiquei muito feliz com a cobertura da imprensa, que, em grande parte, acompanhou de perto o comunicado de imprensa, e que, portanto, nos permitiu expressar e promover um conjunto mais amplo de pontos de vista do que o próprio documento. Eu não fiz uma contagem final, mas a história foi repercutida por centenas de meios de comunicação. Um efeito colateral divertido foi que eu recebi e-mails de todo o mundo, dizendo "Eu vi você em nosso jornal, eu não sabia que você estava trabalhando em vulcões". Outra foi que fui contactado por uma escola e pedi para dar uma palestra no dia de estudos, o que eu fiz. Acho que já falei nove vezes, com mais uma vez por vir, para todo tipo de público, incluindo uma feira de ciências.

Quando eu dou a palestra, como você pode ver nos slides, eu incluo uma descrição do comunicado de imprensa e interesse da mídia, porque é divertido e gráfico. Mas termino com uma reflexão sobre aonde nosso trabalho está indo agora. Nossa intenção é fornecer mapas de risco regionais para informar a mitigação de riscos; por exemplo, onde colocar observatórios vulcânicos. Começamos isso em 2011, mas levamos alguns anos para chegarmos a um acordo com os dados e, é claro, também estamos fazendo outras coisas! Estamos quase lá, embora eu pense que vamos produzir um artigo sobre as taxas regionais de vulcanismo primeiro.

terça-feira, 13 de novembro de 2018

Super erupção vulcânica apocalíptica que poderia DESTRUIR a civilização está muito mais próxima do que pensávamos

https://www.dailymail.co.uk/sciencetech/article-5125109/Supervolcano-eruptions-regular-expected.html

O título desta postagem poderá atrair a atenção de muitos, assim como atraiu a minha. Trata-se do título de uma reportagem publicada na seção de Ciência do reconhecido jornal britânico Daily Mail, no dia 29 de novembro de 2017. A reportagem apresenta também os sub-títulos 
  • Uma erupção seria capaz de devolver a humanidade a um estado de pré-civilização
  • As gigantescas explosões poderiam liberar mais de 1.000 gigatoneladas de cinzas no ar
  • Super erupções podem ocorrer tão regularmente quanto uma vez a cada 17.000 anos
  • A janela entre super-erupções pode ser tão curta quanto a cada 5.200 anos
Esse título atraiu a atenção da mídia britânica no final do ano passado e a matéria foi repercutida em  vários outros veículos jornalísticos de comunicação, como o The IndependentThe TimesCBC, Pulse e 24hGold. E com certeza, os sub-títulos ajudaram o clima apocalítico ensejado pelo título. Embora não contivessem nenhuma mentira, elas enfatizaram mais os aspectos mais negativos associados a essa possibilidade.

O mesmo tipo de preocupação foi externada no mesmo período, mas de forma independente do artigo do Daily Mail, pela imprensa americana. Nesse caso, a preocupação estava concentrada especificamente no campo de magma situado abaixo da superfície do Parque Nacional de Yellowstone. Exemplos de reportagens sobre isso incluem matérias do New York Post, do IFLScience! e Usa Today.

A reportagem do título foi baseada nos achados científicos reportados no artigo "The global magnitude–frequency relationship for large explosive volcanic eruptions", publicado no volume 482 do periódico científico Earth and Planetary Science Letters, em 15 de janeiro deste ano. O artigo tem autoria de 4 pesquisadores, todos da Universidade de Bristol, no Reino Unido, tendo como 1o autor o professor de Estatística Jonathan Rougier e os outros autores do Departamento de Geociências. O resumo do artigo de Rougier e seus colegas informa (em tradução feita para o português) que

Para vulcões, como para outros perigos naturais, a freqüência de grandes eventos diminui com sua magnitude, conforme capturado pela relação magnitude-frequência. Avaliar essa relação é valioso tanto para os insights que ela fornece sobre o vulcanismo quanto para o desafio prático do gerenciamento de risco. Nós derivamos uma relação global de magnitude e freqüência para explosões de erupções vulcânicas de pelo menos 300Mt de massa irrompida (ou M4.5). Nossa abordagem é essencialmente empírica, baseada nas erupções registradas no banco de dados LaMEVE. Ela difere das abordagens anteriores principalmente em nosso tratamento conservador de arredondamento e sub-notificação de magnitude. Nossa estimativa para o período de retorno de 'super-erupções' (1000Gt ou M8) é 17ka (95% CI: 5.2ka, 48ka), que é substancialmente menor do que estimativas anteriores, indicando que os vulcões representam um risco maior para a civilização humana do que se havia pensado anteriormente.

A última frase do resumo faz referência à estimativa anterior de tempo de retorno de super-vulcões, que era de 45.000 anos a 714.000 anos. Vale notar que apesar de muito mais ampla, ou seja muito mais incerta, essa estimativa anterior ainda assim guarda uma pequena interseção com a estimativa intervalar encontrada por Rougier, que vai de 5.200 anos a 48.000 anos. Foi essa novidade que atraiu a atenção da mídia e possibilitou as interpretações mais catastróficas dos resultados obtidos. O clima de pânico pode ainda ser aumentado pelo fato que as últimas super-erupções aconteceram há cerca de 20.000 anos e a estimativa pontual do tempo de retorno foi de 17.000 anos, tornando ainda mais plausível uma ocorrência para os próximos anos, décadas ou séculos. Em breve, pretendo postar uma reflexão pessoal do Professor Rougier sobre essa cobertura da mídia.

É bem verdade que a humanidade ainda não presenciou uma super-erupção. Mas os conhecimentos científicos nos garantem que tais eventos só acontecem após décadas de avisos emitidos pelo próprio planeta e, no momento, não há nenhum sinal indicando essa proximidade. Rougier tratou de esclarecer que não há motivos para alarmes. Ele procurou classificar sua descoberta com uma importante ferramenta para estabelecer novos parâmetros para (e uma redefinição da urgência de) uma nova forma de estudar a importância e influência que vulcões podem ter na nossa vida. Apenas isso!

terça-feira, 6 de novembro de 2018

Como redigir artigos científicos?

http://ijobs.rutgers.edu

Esse texto foi motivado por um pedido dos alunos do Programa de Pós-Graduação em Estatística da UFRJ para que fosse apresentado uma palestra sobre o tema. Achei o pedido extremamente oportuno e me ofereci para falar um pouco sobre o assunto, baseado na minha experiência. Essa conversa acontecerá amanhã mas resolvi deixar registrado o resultado dessa reflexão aqui no StatPop. A postagem acabou se tornando mais uma digressão sobre princípios que devem reger a redação de artigos do que uma resposta detalhada à pergunta-título dessa postagem. O texto é uma exposição mais voltada para redação de artigos científicos de Estatística. Mas desconfio que muito do que vou descrever aqui vale para várias outras áreas da Ciência, como ilustra a figura acima.

Para começar, vale dizer que a forma primordial de avanço da Ciência é através da publicação de artigos em periódicos para reportar esses avanços. Para garantir que esses textos representem avanços e não retrocessos, todo artigo é submetido a uma bateria de avaliações para verificar se ele está correto cientificamente e se suas contribuições são relevantes. Essas avaliações em geral seguem uma hierarquias, e a maioria dos periódicos científicos tem o seu Editor, que envia o artigo para um Editor Associado, que por sua vez o envia para (em geral) 2 revisores. Os revisores avaliam as contribuições do artigo e remetem sua avaliação para o Editor Associado. Com base nas avaliações dos revisores, o Editor Associado formula sua recomendação para o artigo ao Editor, que finalmente toma a decisão. As decisões mais comuns são aceitar, rejeitar e pedir para o artigo ser revisado. Nesse último caso, o artigo volta para os seus autores modificarem de acordo com o exigido pelo Editor e prepararem uma nova versão até que fique claro (para o Editor) se o artigo merece ser aceito ou rejeitado.

Embora esse processo pareça simples, ele é sujeito a uma série de circunstâncias que podem levar um artigo para um ou outro destino final. E são essas circunstâncias que é importante ter em conta antes de submeter um artigo à publicação em um dado periódico. Para começar, não custa repetir que o artigo deve apresentar resultados que demonstrem claramente um avanço relevante para a Ciência. Assim, é fundamental que os resultados obtidos sejam claramente apresentados e devidamente justificados. 

Além disso, revisores, editores e leitores de artigos em geral estão expostos regularmente a uma série de artigos científicos. Essa demanda diuturna torna difícil que eles possam dedicar a cada artigo o tempo que ele merece. Essa restrição temporal de todos os leitores faz com que seja muito importante que o artigo seja bem apresentado. Se assim for, seus leitores terão interesse em ler com toda a atenção o seu conteúdo e fazer a avaliação mais justa possível.

Grande parte de um artigo deve ser dedicada às suas contribuições mas para que o leitor se disponha a enfrentar essa tarefa, ele precisa ser atraído a ela. O que atrai mais cada leitor é dificil dizer mas grande parte vem do título, seguido do seu resumo e sua introdução, onde é descrita a área onde se insere o artigo, qual a sua contribuição e o que ela tem de diferente do que já foi feito. Essas são as partes do artigo mais facilmente digeridas por um leitor causal. Junto com a seção final de conclusões, onde serão resumidos os principais achados científicos do texto, esse material introdutório serve para dar o tom do que está por vir. Embora aparentemente de menor importância, esses trechos servirão para animar/desanimar o leitor/revisor quanto ao cerne do artigo.

Assim, título, resumo, introdução e conclusão devem enfatizar ao máximo as vantagens dos avanços contidos no artigo, mas nada além nem aquém disso. Uma subvalorização poderá fazer o revisor menos atento ficar menos propenso a entender a total relevância da contribuição científica do artigo. Uma supervalorização poderá fazer o revisor ficar mais atento e querer verificar com mais afinco a veracidade das afirmações contidas nas partes introdutórias. 

Outro ponto importante é saber avaliar o real valor da contribuição científica trazida pelo artigo. Note que esse ponto está relacionado ao parágrafo anterior mas não deve com ele ser confundido. Mesmo se você descreve corretamente que contribuições o seu artigo traz, você pode achar que essa contribuição é menor/maior do que a contribuição que o artigo efetivamente traz. Novamente, uma subvalorização/supervalorização poderá levar a uma escolha infeliz de periódico onde o artigo será publicado. Em um extremo, ter-se-á um artigo publicado em periódico aquém do seu valor e portanto com menor alcance perante a comunidade científica. No extremo oposto, tem-se um artigo enviado a um periódico acima do seu valor e portanto com maior chance de não ser bem recebido e acabar sendo rejeitado.

Esse é um "jogo" que só se aprende corretamente a jogar depois de se adquirir experiência. Essa experiência pode vir à custa de artigos muito bons saindo em periódicos de menor expressão e de artigos não tão bons que acabam sendo rejeitados. Para jogar esse "jogo", é preciso ter vontade de contribuir e não esmorecer perante as dificuldades e dissabores que negativas necessariamente trarão.

Sugestões para saber localizar melhor a prateleira onde se encontra sua contribuição passam primeiro por uma auto-avaliação, mas também passam por avaliações formais ou informais de colegas. Para isso, apresentações em congressos e seminários tem um imenso valor em função dos feed-back recebidos. As auto-avaliações são sempre mais difíceis pois em geral um artigo é fruto de um grande esforço pessoal e tendemos a vê-lo com uma pequena obra-prima. Ném sempre os outros verão nosso trabalho da mesma forma; eles não gastaram semanas ou meses na sua elaboração, nem perderam noites de sono para resolver os problemas que apareceram no meio do caminho.

Um colega me disse muitos anos atrás que se um artigo recebe várias rejeições o problema deve estar no artigo e não nos revisores que o avaliaram. Curiosamente, esse colega teve uma carreira de grande sucessos, possivelmente com poucas rejeições, e ele agora ocupa o cargo de Editor de um dos principais periódicos de Estatística. Uma outra frase que também procuro seguir é que o revisor (quase) sempre tem razão. Se ele reclama de algum trecho do artigo que julgamos estar correto, é porque nós não soubemos explicá-lo bem. As exceções envolvem avaliações que levam em conta fatores outros que os meramente científicos. Não há como evitar esse problema mas uma busca de periódicos devem direcionar nossa escolha para periódicos mais afeitos ao tipo de contribuição que ele traz.

Isso nos leva a uma última recomendação, embora o artigo seja nosso, publica-lo significa literalmente torná-lo público. Às vezes, um pequeno detalhe nos é muito caro (talvez pelas horas consumidas para verificá-lo) para os outros é só isso, um detalhe. Devemos escrever um artigo pensando muito mais em um legado para os outros do que em um desabafo de cunho pessoal. Esse último serve para romances e biografias, não para produções científicas. Assim, o trabalho deve ter uma apresentação impessoal, seguindo uma cronologia logicamente (e não pessoalmente) orientada e mostrando todas as suas virtudes e sua contextualização no cenário atual da Ciência, e não no cenário pessoal de seu(s) autor(es). 

Finalmente, não custa dizer que esse texto está muito longe de exaurir todas as informações necessárias. Nem tampouco se propõe a ser a última referência no assunto. Existe uma enormidade de sites na internet que podem complementar as informações aqui contidas. Eu mesmo tenho várias experiências pessoais (tanto agradáveis quanto desagradáveis) que poderiam enriquecer a compreensão. A experiência adquirida só me mostrou que as exigências fazem parte da nossa atividade de investigação. Editor/revisores querem ter o máximo possível de evidências para tomar sua decisão da forma mais correta possível. Claramente, o erro tipo I aqui é aceitar um artigo errado e tem prevalência sobre o erro tipo II de rejeitar um artigo potencialmente promissor. É com esse rigor que a Ciência se desenvolve. Quanto mais cedo nos acostumarmos a isso, mais suave será nossa passagem pela difícil mas prazerosa carreira acadêmica.

terça-feira, 30 de outubro de 2018

Questionamentos de estudantes de Estatística e Atuária

https://www.facebook.com/sestat.ufrj/

A 7a Semana de Estatística e Atuária da UFRJ foi o tema de nossa postagem da semana passada. Ela foi encerrada com um debate com profissionais do mercado e professores dos cursos de graduação em Estatística e Atuária, ilustrado na foto acima. A organização compilou algumas das perguntas que foram formuladas pelos alunos para esse debate. Acho que oferecem um rico panorama das dúvidas e visões que os alunos tem sobre os cursos de Estatística e Atuária no pais. Nas próximas semanas tentarei respondê-las na medida do possível. Abaixo eu as transcrevo, na ordem que eu as recebi, para que todos os leitores possam ter um referencial de reflexão do onde os alunos percebem que a área está, para onde eles entendem que ela pode ir e que caminhos ela deve percorrer até chegar lá. Ei-las:

1. Uma preocupação: terminar o doutorado, sem experiência de mercado e já na casa dos 30. Será que o mercado será um pouco resistente a esse profissional? 

2. Atualmente, tem-se passado a sensação de que estamos vivendo um “boom” de métodos de previsão e modelagem (ou apenas algoritmos). Entretanto, muito se lê sobre técnicas que não passaram por demonstrações matemáticas de sua funcionalidade. Entretanto, elas cumprem seu papel e respondem as perguntas que são feitas. A dúvida é, até onde vai a necessidade do formalismo em relação ao uso dos métodos? 

3. Uma das corridas atuais em relação à computação é para a eficiência computacional do que está sendo feito. Tenta-se fazer as coisas de forma rápida e automática. Na inferência bayesiana, em muitos cenários nos deparamos com modelos que ficam até dias rodando. Devemos começar a pensar em aproximação, para chegarmos em resultados mais rápidos?

4. Vejo diariamente ofertas de emprego para cientista de dados. Em todos os cantos lemos que é uma profissão expoente e que existem muito mais vagas que profissionais. Entretanto, paralelo a isso, vejo muitos profissionais de áreas correlatas, desempregados. Na medida do possível, o que pode ser feito para melhorar essa relação? A sensação que fica é de que as empresas querem um profissional e no mercado existe outro. Claro, uma saída óbvia, é o empenho do profissional para a adequação, mas as empresas também não deveriam estar mais dispostas a acreditar no potencial de evolução do profissional dentro da empresa? 

5. Estatístico pode ser considerado cientista de dados? Por que? 

6. Por que quem não é formado em estatística pode dar aula de estatística em faculdades particulares? 

7. Os professores já estão aptos a ensinar os alunos as disciplinas de "ciências de dados"? 

8. Enquanto o curso de estatística forma 2 alunos, a computação (de forma generalizada) forma 200 a 300. Seremos engolidos? Como evitar isso? 

9. Será que a solução está na reformulação dos cursos de estatística ou na melhora da comunicação entre academia e mercado? 

10. Quando entramos na graduação, fazemos um curso de análise exploratória de dados e já aprendemos, mesmo sem muita base, como manipular um banco de dados. É válido ter uma matéria de último período de análise exploratória de dados, agora com a formação em rumo de ser concluída? 

11. Vejo muitos alunos saírem da graduação com muita insegurança. Quais medidas podem ser tomadas para amenizar esses problemas? 

12. Se as técnicas utilizadas (em aprendizado de máquina) são as que já conhecemos, por que outros profissionais dominaram essa área? É um problema de não sabermos vender nosso trabalho? 

13. O diploma de graduação em estatística e atuária se faz realmente necessário para a prática das profissões? Vocês acreditam que a busca por conhecimento de maneiras alternativas e a vivência prática no ramo de atuação podem substituir o requisito acadêmico? Quão importante é o currículo acadêmico em comparação com o portifólio de projetos já feitos? 

14. O mercado de trabalho para Ciências Atuariais valoriza (leia-se, provê maiores remunerações) a profissionais que tenham Mestrado stricto sensu ou Doutorado em Matemática, Estatística, Finanças ou áreas correlatas -- ou prioriza e reconhece mais profissionais que possuam MBA, encarando o Mestrado e Doutorado como uma formação exclusiva para viés acadêmico? 

15. A disponibilidade de dados, atualmente, é muito maior que há 20 ou 30 anos. Também, a capacidade de processamento dos computadores aumentou significativamente. Ainda, os softwares utilizados para análise de dados estão cada vez mais difundidos, populares e acessíveis, com uma ampla gama de bibliotecas, pacotes, módulos etc prontos e disponíveis em prateleiras. Os Senhores encaram esse cenário como um potencial risco para o Estatístico, o qual poderá ser suplantado por Engenheiros, Físicos, Economistas etc que possuam um pouco de aptidão com tais ferramentas computacionais? 

16. Comparando o currículo de duas graduações em Ciências Atuariais (UFRJ x UFRGS), nota-se uma imensa diferença no enfoque das formações. A UFRJ preza por uma formação essencialmente matemática, havendo uma disciplina isolada para Direito, uma para Economia, outra para Administração e outra para Contabilidade, totalizando 16 créditos obrigatórios. Já a UFRGS possui uma quantidade bastante inferior de disciplinas de Matemática e Estatística, oferecendo, em contrapartida, 64 créditos obrigatórios dentre disciplinas associadas à Economia, Contabilidade e Direito. Gostaria que os presentes discutissem as diferentes oportunidades que se abrem para tais profissionais no mercado de trabalho, considerando a distinta formação acadêmica, bem como os desafios (ou dificuldades) para os egressos dessas faculdades em função das lacunas de um e outro. 

17. Contabilizando os trabalhos apresentados na SIAC da UFRJ, em 2017 e 2018, não houve nenhum trabalho apresentado na área de Atuária; para Estatística, foram 2 e 5 trabalhos em 2017 e 2018, respectivamente, na Sessão de Estatística. Em contrapartida, nota-se que a palavra-chave "Estatística", ao navegar no caderno de resumos da SIAC, permeia dezenas de trabalhos nas Engenharias, cursos da Saúde, Física, Química, Geotecnologias, Economia etc, dando indícios de um aparente "distanciamento" entre os alunos de Atuária e Estatística contra as demais formações e também de que os profissionais dessas áreas, cada vez mais, utilizam-se de ferramental que seria expertise do Estatístico e Atuário. Como os Senhores avaliam esse cenário? De que forma o IM pode firmar sua posição e aumentar sua integração com os demais institutos da UFRJ? 

18. Nos cursos de Engenharia e Computação, é usual haver incentivo e formação complementar direcionada ao empreendedorismo, incubação de empresas, empresa júnior etc, com uma relação entre academia e mercado de trabalho. Para Ciências Atuariais, aparentemente o aluno encontra-se em uma "ilha de conhecimento acadêmico", sendo que tal inserção dá-se praticamente por iniciativas individuais, quando um aluno busca um estágio. De que forma esse hiato (se é que ele mesmo existe) pode ser superado, no curso de Ciências Atuariais?

19. Na última SESTAT, houve algumas apresentações sobre um novo perfil de profissional: Data Scientist. Esse profissional seria composto pela interseção de 3 "conjuntos" de profissionais: um Matemático/Estatístico, um "Algorítmico-Lógico"/Programador e um profissional que entende de Negócios/Administração. Muito se falou da imensa dificuldade em se encontrar profissionais com tal perfil. Em paralelo, sabe-se que muitos profissionais advindos de outras formações (Engenheiros, Físicos, Economistas, Cientistas da Computação etc) têm ocupado tais posições. Que formação adicional um estudante de Estatística e Atuária precisa buscar para ocupar tais posições? 

20. As empresas do setor elétrico, petroquímico, mineração, papel e celulose e de telecomunicações geralmente possuem convênios e projetos com cursos de Engenharia, possibilitando que alunos de graduação e pós-graduação dessas áreas desenvolvam-se e atuem em estudos fortemente aplicados ao mercado enquanto ainda estão na universidade. Exemplos notáveis são: Petrobras, Vale, Braskem, Votorantim, Odebrecht, Klabin etc. Tal fato também funciona como um excelente "cartão de visitas" para o estudante. No entanto, esse fenômeno aparentemente não é observado entre as Seguradoras, Resseguradoras, Fundos de Pensão, Bancos, Corretoras de Valores etc com as graduações em Ciências Atuariais e em Estatística. Que iniciativas poderiam ser realizadas nesse sentido para criação (ou fortalecimento) dessa relação? 

terça-feira, 23 de outubro de 2018

7a Semana de Estatística e Atuária da UFRJ

https://www.facebook.com/sestat.ufrj/

Começou ontem (22 de outubro de 2018) e irá atá 5a feira (25 de outubro de 2018) a 7a edição da Semana de Estatística e Atuária da UFRJ. Esse evento tem como principal objetivo a discussão e apresentação de novos temas dessas áreas. Ele é um evento organizado totalmente pelos alunos dos cursos de graduação em Estatística e Atuária da UFRJ e é voltado para esse público, muito embora alunos de pós-graduação estejam atuando ativamente na sua organização.

A programação é bastante variada incluindo uma boa quantidade de palestras e de minicursos. As palestras e os minicursos são proferidos tanto por professores quanto por profissionais do mercado ou mesmo alunos de cursos da UFRJ. Os temas incluem Seguro Agrícola no Brasil, Big Data e Data Science no Mundo Atuarial, Novas Formas de Visualização de Dados no R, Modelos de Espaços Latentes para Análise de Redes Sociais e Reconhecimento de Dígitos através de Técnicas de Análise Multivariada. Com isso, tem-se um apanhado bastante abrangente do cenário que o recém-formado irá enfrentar ao concluir o curso.

Fui convidado para uma mesa redonda mas infelizmente outros compromissos me impedirão de participar. Mas acho extremamente meritória a inciativa, já em sua 7a edição, o que mostra que tem havido interesse dos alunos em propor atividades complementares que ajudem na sua formação. A organização foi bastante pro-ativa e conseguiu em curto espaço de tempo um apoio financeiro bastante considerável com empresas privadas. O evento está muito bem organizado e recomendo a todos interessados. A página do evento pode ser acessada aqui e a programação completa do evento pode ser vista aqui

Uma quase coincidência temporal me fez estar na semana passada em um evento similar na Unicamp. Lá, ocorreu a 13a edição do Encontro Científico dos Pós-Graduandos do IMECC (EncPos). Como o nome indica, trata-se de um evento voltado para as áreas de pós-graduação do IMECC (Instituto de Matemática, Estatística e Computação Científica). Mas também lá o evento foi organizado pelos alunos, no caso, de pós-graduação em Estatística, Matemática e Matemática Aplicada.

A característica de pós-graduação tornou o evento um pouco mais formal em suas temáticas e alguns professores acabaram sendo incluidos na organização, especialmente para ajudar na indicação de nomes de palestrantes e professores de minicursos. A abrangência também foi maior e incluiu palestrantes convidados de várias outras partes do país. Esse evento procurou também abordar outros aspectos da atividade acadêmica. Achei particularmente interessante e relevante uma palestra sobre Saude Mental na Pós-graduação, um tema que infelizmente vem ganhando importância na área acadêmica.

Minha participação no evento foi restrita à palestra sobre meu trabalho em estudo do efeito da poluição na saude, tema já tratado aqui.  Mas tive a oportunidade de conversar com os alunos responsáveis pela organização e gostei do que vi e ouvi. Gostei muito do comprometimento e a maturidade que esses jovens e futuros pesquisadores demonstraram.

Enfim, esses eventos demonstram vigor por parte dos alunos dessas universidades em promover a disseminação do conhecimento em prol da comunidade acadêmica e os alunos só tem a ganhar com isso. Parabéns a eles! 

terça-feira, 16 de outubro de 2018

Previsões para o Campeonato Brasileiro de Futebol 2018

https://globoesporte.globo.com/sp/futebol/brasileirao-serie-a/jogo/14-10-2018/palmeiras-gremio.ghtml

Estamos chegando à reta final (o quarto final, para sermos mais precisos) do Campeonato Brasileiro de Futebol 2018. Assim, estamos novamente retomando o projeto de fornecer previsões para resultado de partidas de futebol desse campeonato. Esse projeto está sendo conduzido nesta fase pelo recém-formado estatístico André Vizzoni e os resultados completos estarão sendo fornecidos até o final do campeonato no blog específico para esse fim.

Lá poderá se encontrar as previsões para a próxima rodada (no caso de hoje, a rodada 30), as chances de cada equipe ser campeã, ser classificada para a fase de grupos da Libertadores, para a pré-Libertadores ou para a Copa Sulamericana e também as chances de rebaixamento para série B.

Esse blog está longe de ser o único a fazer essas previsões. A título de comparação, apresento abaixo uma tabela com as probabilidades de um time ser o Campeão Brasileiro de Futebol em 2018 fornecidas por vários sites especializados

Times
Palmeiras
64%
62%
74%
74%
68%
Internacional
18%
21%
15%
15%
20%
Flamengo
12%
13%
8%
9%
9%

Como pode ser visto, as previsões não variaram muito entre os diferentes esquemas mostrando uma coerência entre eles. Interessante notar que nossas previsões ficaram no meio das outras, como uma espécie de média delas.

Finalmente, esclareço que nosso esquema de previsão contempla uma versão estática (mais simples) e uma versão dinâmica. Essa última permite uma adaptação que acomode mudanças com a passagem do tempo. O próprio campeonato vem mostrando isso com vários times se alternando na liderança por um certo número de rodadas. Esse ponto já foi detalhado anteriormente aqui.

A quantificação do tamanho da mudança esperada para cada rodada é de difícil especificação. Uma indicação de mudança maior que a mudança observada levará a uma perda desnecessária da informação passada. Uma indicação de mudança menor que a mudança observada levará a uma preservação excessiva da informação passada. [O caso limite é o modelo estático, onde toda a informação passada é totalmente preservada.] Essa sintonização da quantidade de mudança é muito fina e não é nada trivial. Infelizmente, ainda não conseguimos encontrar esse ponto ótimo no nosso modelo e portanto os resultados ainda estão sendo apresentados apenas para o modelo estático.

terça-feira, 9 de outubro de 2018

Lições do pleito de domingo passado

https://noticias.uol.com.br/politica/eleicoes/2018/noticias/2018/08/28/bolsonaro-e-defensor-das-mulheres-diz-testemunha-ao-stf.htm


Domingo passado (07/10/2018) foi realizado o 1o turno das eleições gerais para vários cargos eletivos no Brasil, a começar pelo cargo de presidente, para um novo mandato de 4 anos. Não há como não pontuar que o grande protagonista dessas eleições foi o candidato à presidência Jair Bolsonaro, representado na foto acima.

Personagem polêmica do cenário político dos últimos anos, Bolsonaro está em seu 7o mandato como deputado federal (totalizando 28 anos no mesmo cargo) embora seja entendido por muitos como novidade na cena política. Efetivamente, a novidade dele é o seu protagonismo, enfatizado pelas posições polêmicas que ele vem assumindo publicamente e que lhe renderam cerca de 50 milhões de votos e um lugar no 2o turno das eleições.

Toda eleição traz lições importantes para compreensão do fenômeno estudado e essa não foi diferente. Muito pelo contrário, essa eleição teve peculiaridades muito pouco vistas e que estão em grande parte associadas à personagem ilustrada acima. Outra característica desta eleição foi o pequeno espaço de tempo dedicado às campanhas eleitorais, de pouco mais de um mês. Acredito que esse curto período foi responsável por uma dinâmica muito amplificada.

Com isso, movimentos que eram esperados para uma janela medida em semanas foram percebidos em janelas medidas em dias. Isso é relevante para entender as magnitudes das mudanças que foram observadas especialmente nas intenções de votos nos dias que antecederam as eleições propriamente ditas. Já havíamos mencionado aqui a importância de entender os resultados das pesquisas eleitorais em um contexto sequenciado e não de forma estanque, com cada pesquisa eleitoral estudada separadamente.

Nesta eleição, pela compressão do tempo, o estudo sequenciado se tornou ainda mais necessário. Torna-se fundamental entender a tendência evidenciada pela progressão observada, sempre em contraponto com a ultima pesquisa realizada. Mas parece-me que anteontem não apenas houve uma progressão das intenções de votos mas houve também um importante processo de aceleração das tendências nos poucos dias próximos às eleições. E isso é muito mais difícil de ser capturado pelas análises estatísticas com tão poucos resultados de pesquisas no período.

Acredito que essas mudanças estiveram muito ligadas à associação ou não dos candidatos à personagem retratada acima. Casos emblemáticos foram retratados por candidatos a eleições majoritárias (governador e senador) nas unidades mais populosas da federação, como São Paulo, Rio de Janeiro e Minas Gerais. Candidatos que estavam longe da liderança nas intenções de votos experimentaram subidas significativas na reta final da disputa ao se associarem (ou serem associados) a Bolsonaro. Enquanto isso, outros candidatos com postura mais independente perderam nessa reta final as posições de liderança que vinham mantendo com estabilidade ao longo de toda a campanha eleitoral.

Eu estou longe de ser especialista em política. Mas parece-me que as caraterísticas acima descritas não foram frequentemente observadas nas últimas eleições nacionais. Isso ajuda a explicar a dificuldade que muitos tiveram de entender o processo em curso. Mesmo considerando a alta volatilidade do eleitorado brasileiro, desconfio que a volatilidade desta eleição ultrapassou os limites usualmente observados por aqui.

As teses levantados nos parágrafos anteriores merecem estudos mais aprofundados. Esses estudos poderiam reforçar a necessidade de incorporar técnicas de séries temporais para permitir a incorporação da evolução das intenções de votos de forma mais rotineiras nas análises eleitorais. Isso já é feito em vários países e chama a atenção que ainda não sejam rotina no Brasil. Talvez a alta volatilidade aludida acima seja uma fonte de desânimo mas não deveria ser um impeditivo.

terça-feira, 25 de setembro de 2018

Stats+Stories

https://statsandstories.net/

Stats+Stories é o nome de um blog/portal recentemente construído com objetivo similar ao do StatPop, isto é, popularizar a Estatística para a sociedade em geral. É uma iniciativa da Universidade de Miami, com apoio da associação de estatística americana (ASA). O formato da iniciativa é o indicado pelo seu nome: histórias sobre Estatística e seu uso, contadas por pessoas que são estatísticas ou tem envolvimento com a Estatística. 

As histórias são introduzidas na forma de uma entrevista conduzida por um professor de Estatística e às vezes por um(a) jornalista. Elas procuram entender e esclarecer o contexto de trabalho do entrevistado e permitir ao entrevistado explicar melhor o seu trabalho. Essa entrevista é gravada em áudio e também transcrita no portal. 

A equipe do Stats+Stories tem professores do Departamento de Estatística da Universidade de Miami e conta com uma diversificada equipe de apoio com ênfase em jornalistas, mas também com pessoal de comunicação/promoção e o pessoal que faz a transcrição dos episódios, que é como eles optaram por caracterizar as entrevistas.

No momento, já existem 66 episódios registrados. Cerca de 60 deles foram postados no início de agosto deste ano e portanto já deveriam estar registradas há algum tempo. Assim, trata-se de uma iniciativa bastante recente. Desde então, a regularidade de cada entrevista tem tido uma média perto de 1 por semana. 

Algumas das entrevistas são de profissionais já mencionados no StatPop. Um exemplo é o Prof Sir David Spiegelhalter, atual presidente da associação de estatística britânica (RSS), responsável por 2 episódios. Tive conhecimento do Stats+Stories bem recentemente através de um anúncio feito pela professora Kerrie Mengersen, atual presidente da International Society for Bayesian Analysis (ISBA).

Kerrie é uma pesquisadora bastante ativa, constituindo um polo de atração de pesquisadores para seu local de trabalho na Austrália. Ela desenvolve tanto pesquisa de cunho teórico sobre fundamentos da Estatística como aplicações de Estatística em diversas áreas da Ciência. Eu já estive lá a convite dela alguns anos atrás e pude presenciar seu produtivo grupo em ação. Kerrie já foi protagonista de 2 episódios.

Achei interessante as entrevistas mas, talvez pelo interesse em atrair o publico leigo, elas focaram mais nos dados e aspectos periféricos do problema e menos na metodologia estatística utilizada. É claro que a caracterização do problema é importante mas se o objetivo é mostrar a importância da Estatística talvez se pudesse tentar entrar no mérito da forma como o problema é resolvido.

Paralelamente, o Stats+Stories lançou em conjunto com a ISBA a competição #BetterBayes, voltada para explicar a metodologia Bayesiana para o público em geral. Trata-se de mais uma idéia buscando divulgar as técnicas Bayesiana e aumentar seu alcance. Essa competição é aberta ao publico em geral e é muito fácil se inscrever: basta propor um titulo de 4-6 páginas e uma chamada de 20-30 palavras.  Recomendo a todos fazerem suas tentativas; eu já fiz a minha. A proposta aprovada receberá a chance de fazer um episódio estendendo a idéia. As inscrições podem ser feitas aqui