terça-feira, 18 de setembro de 2018

How to Lie with Statistics

www.amazon.com/How-Lie-Statistics-Darrell-Huff/dp/0393310728

O título dessa postagem é o título de um livro, cuja capa é reproduzida acima, mencionado na postagem da semana passada. A tradução mais apropriada do título para o português seria Como mentir com Estatística ou talvez Como mentir usando Estatística. Esse livro foi escrito pelo jornalista, escritor e inventor Darrell Huff e teve ilustrações de Irving Geis. 

Apesar de não ter sido escrito por um estatístico, é o livro de Estatística mais vendido no mundo, com mais de meio milhão de cópias vendidas desde sua aparição em 1954. Isso não deixa de ser um pouco frustrante para a comunidade de estatísticos espalhados pelo mundo. Além disso, o título do livro não é dos mais honrosos para a profissão. Juntando tudo isso, é compreensível que um misto de inveja, frustração e ciume tenha tomado conta de parte dos estatísticos da época.

Os que se deram ao trabalho de ler ou ao menos folhear partes do livro encontraram um texto muito bem escrito. Não só em termos da fluência gramatical mas também e principalmente pela clareza de exposição de conceitos técnicos de Estatística. Vale destacar a seriedade e correção da apresentação, sem que pare isso fosse necessária a utilização de uma única fórmula sequer.

É preciso também dizer que os estatísticos não deveriam tem nenhum problema com respeito ao livro. O que o livro trata são alguns dos vários possíveis usos equivocados que se pode fazer da Estatística. E portanto ele serve como um guia de como usar corretamente conceitos básicos de Estatística. Ou seja, ele é um instrumento poderoso em defesa da Estatística!

A linguagem usada é bastante coloquial mas não deixa de ser precisa qualitativamente. As figuras ilustrativas, destacadas em uma análise recente do sucesso do livro, também foram um elemento interessante de facilitação de compreensão pelo leitor. As ilustrações dos conceitos em contextos aplicados reais foram muito bem escolhidas, facilitando ao leitor compreender o ponto sendo discutido.

A figura acima, extraída da página 71 do livro, é uma belo exemplo. A figura compara a produção de aço americana em 2 décadas sucessivas exibindo fornalhas que supostamente representariam graficamente a diferença entre os 2 níveis de produção. Efetivamente, a altura das fornalhas é diretamente proporcional à produção representada (com um aumento de quase 50% da capacidade produtiva). Entretanto, o aumento da fornalha não se deu apenas na altura mas em todas as suas dimensões. Com isso, a impressão visual fornecida pela figura foi de um aumento de cerca de 300% ao invés da impressão que se queria ou se deveria fornecer de apenas 50%

O livro é um desfile de exemplos reais ilustrativos de diferentes formas de se fornecer informação de forma equivocada, mesmo quando os dados numéricos estivessem corretos. O mais surpreendente é que não apenas Huff não é estatístico como sua carreira não teve nenhum contato próximo com a Estatística. Isso mostra que ele foi um exímio analisador dos diferentes usos de Estatística e soube destacar a correção/incorreção deles com maestria.

Já tínhamos destacado aqui a maestria com que o escritor João Ubaldo Ribeiro tratou de assuntos similares, isto é, apresentações de conceitos básicos de Estatística voltadas para o público leigo. A contribuição de Darrell Huff também fez isso mas foi muito além. Ele elaborou um texto completo para poder detalhar a discussão de cada assunto detidamente e fez isso sempre contextualizando em casos reais. Chama a atenção que ambos os autores são especialistas improváveis mas foram porta-vozes de uma explanação que se fez e ainda se faz necessária para que a Estatística possa ser corretamente compreendida por toda a sociedade mundial.

terça-feira, 11 de setembro de 2018

Desmistificando idéias equivocadas sobre Estatística - parte VI

https://www.facebook.com/estadao/photos/a.124486140899790/2755651251116586/?type=3&theater

No início da semana passada, tivemos um belo exemplo de como se pode passar mensagens equivocadas usando Estatística sem falsear um único número sequer. O responsável por esse episódio foi o respeitado jornal de circulação nacional Estadão. A chave para entender o problema pode ser encapsulada na frase "uma imagem vale mais que mil palavras". Essa frase, atribuída ao filósofo chines Confúcio, enfatiza a importância que a linguagem visual tem relação à linguagem escrita. 

Pois o periódico paulista cometeu um deslize em uma de suas ilustrações da matéria sobre uma recente pesquisa eleitoral realizada pelo IBOPE. Ao procurar ilustrar os índices de rejeição dos principais candidatos à próxima eleição presidencial, exibiu a figura acima. Para piorar, a figura foi estampada na capa da edição on-line de 06 de setembro de 2018 da página do jornal no Facebook. Essa figura expressa a taxa de rejeição pela proporção de indivíduos que disseram que não votariam no candidato de nenhuma maneira. [Vale destacar que as proporções não precisam somar 100% pois foi permitido aos entrevistados indicar mais de um candidato rejeitado, se assim quisesse.] 

O primeiro ponto a notar na figura é que os números estão todos corretos. O que está errado, e muito errado, é a localização do ponto inicial do candidato Haddad. Apesar do gráfico não ter explicitado a escala, fica fácil perceber esse erro comparando as distâncias do ponto inicial do candidato Ciro com relação aos candidatos Alckmin e Haddad. Ciro, com 21% de rejeição, está 4% abaixo de Alckmin (com 25%) e está 3% acima de Haddad (com 18%). Apesar da distância numérica para Haddad ser menor que a distância numérica para Alckmin, o ponto inicial de Haddad está muito mais distante de Ciro que o ponto inicial de Alckmin!

Para piorar, a figura mostra um aumento maior da taxa de Haddad com respeito ao aumento da taxa de Bolsonaro. Isso também está errado na figura pois, embora Haddad e Bolsonaro tenham tido os maiores aumentos da taxa de rejeição, o aumento de Bolsonaro foi 7% ao passo que o aumento de Haddad foi de 5%.

Com isso, a figura cria um efeito visual ilusório de um grande aumento da rejeição de Haddad, que rivaliza (ou até predomina) visualmente sobre os efeitos verdadeiramente mais expressivos da figura, que são 
  1. a substancialmente maior taxa de rejeição do candidato Bolsonaro, na comparação com todos os outros candidatos ilustrados, em ambas as pesquisas consideradas. 
  2. o maior aumento de rejeição do candidato Bolsonaro, também na comparação com todos os outros candidatos ilustrados.
Esse problema foi relatado pelo professor Rafael Izbicki através de uma postagem, que também apresentou a sua solução. Após vê-lo mencionado na página do Rafael, a estatística Hayala Cavenague informou ao periódico sobre o problema. Este, por sua vez,  prontamente reconheceu o erro e se comprometeu a corrigi-lo. Efetivamente, a figura foi corrigida no texto da matéria da versão on-line e está reproduzida abaixo. [Mas quem acessar hoje a página do facebook do Estadão ainda encontrará a capa com a figura original.] A nova figura corrige os erros da figura anterior e expressa muito mais claramente o que os dados apresentam. 

https://politica.estadao.com.br/noticias/eleicoes,bolsonaro-perde-para-ciro-marina-e-alckmin-no-segundo-turno-diz-ibope,70002490009

Outra imprecisão corrigida na nova figura foi a colocação do eixo vertical (dos y's) começando de onde deve começar, do valor 0. Isso evidencia visualmente que números em torno de 40% são o dobro de números em torno de 20%. Embora esse fato seja óbvio e conhecido de todos, ele ficado mascarado na figura anterior e sua omissão poderia ensejar uma avaliação ilusória da comparação entre as taxas de rejeição nos 2 períodos pesquisados. A figura correta não deixa nenhuma dúvida quanto à efetiva distância entre as diferentes taxas de rejeição.

Esse assunto me proporcionou a retomada da série Desmistificando idéias equivocadas sobre Estatística que eu havia iniciado no passado já distante do StatPop e que estava adormecida há mais de um ano. Ele também permite que seja mencionado um clássico da Estatística onde esse tipo de problema já havido sido explicado em detalhes e que eu ainda não havia mencionado aqui. Trata-se do livro How to lie with Statistics, escrito por Darrell Huff, cuja interessante história merece uma postagem futura. Esse livro tem mais de meio século e pode ser facilmente comprado na internet a baixo custo. O capítulo 5 desse livro trata exatamente da mudança de escala descrita no paragrafo anterior e dos problemas de interpretação que ela pode introduzir, quando uma escala inadequada é usada, ou evitar, quando uma escala adequada é usada. 

Finalmente, queria agradecer a o Rafael Izbicki e Hayala Cavenague pela contribuição deles em prol da correta utilização da Estatística e a Hedibert Lopes e Filipe Zabala por terem atraído a minha atenção respectivamente para a análise do Rafael sobre a matéria jornalística e para o tratamento desse tipo de situação no livro de Duff.

terça-feira, 4 de setembro de 2018

Museu Nacional

Ricardo Moraes/Reuters

Não há como ter postagem com tema diferente esta semana. O Museu Nacional é um dos principais museus do país e a perda do acervo no incêndio de domingo passado foi significativa, quase total nas mais variadas áreas das Ciências Naturais, passando por fósseis, ossadas, achados arqueológicos, reconstituições pre-históricas e outros objetos históricos de valor inestimável, que estarão perdidos para sempre. Além disso, trata-se de uma instituição pertencente à UFRJ, instituição onde trabalho. Como se isso não bastasse, trata-se de um prédio histórico muito bonito (com se vê na foto abaixo) que abrigou a residência do imperador durante a vigência do império no Brasil.

www.museunacional.ufrj.br

Esse incêndio foi mais um duro golpe na história e na Ciência deste país. E esse golpe assume crueldade ainda maior por atingir uma instituição bicentenária no já combalido Estado do Rio de Janeiro e na igualmente deficitária UFRJ. Como se isso não bastasse, o toque final de ironia trágica foi o fato de ter sido recentemente assinado em junho deste ano um contrato de financiamento com o BNDES para revitalizar o Museu. A divulgação pelo BNDES sobre esse contrato lista em primeiro lugar a recuperação física do prédio histórico e portanto havia bastante clareza da urgência dessa revitalização. A assinatura do contrato foi oficializada em uma das salas do Museu, com um esqueleto de uma baleia jubarte, como mostra a foto abaixo.

www.bndes.gov.br/wps/portal/site/home/imprensa/noticias/conteudo/bndes-destina-r-21-7-milhoes-para-revitalizacao-do-museu-nacional

Essa é a crônica de uma morte anunciada e infelizmente materializada no incêndio de dias atrás. A cuidadosa averiguação das responsabilidades deve aguardar alguns dias até a poeira baixar. Mas parece claro que vários atores contribuíram para esse trágico desfecho. Não podemos deixar de falar das autoridades públicas responsáveis pelo bom funcionamento das instituições. Assim, presidente, governador do estado, prefeito da cidade e outras instituições poderiam ter agido antes para evitar que um verdadeiro tesouro sob sua guarda e atendendo sua população estivesse em estado tão deplorável. Nesse ponto, a fala do prefeito do Rio de Janeiro em frente aos escombros do museu (ver foto abaixo) chegou a ser tristemente anedótica ao falar em recompor as peças do Museu, dando a entender que fosse possível que as obras históricas lá expostas tivessem réplica contemporânea.

extra.globo.com/noticias/rio/em-nota-crivella-fala-em-recompor-acervo-do-museu-nacional-causa-indignacao-23033520.html

Não se pode eximir de responsabilidade as diferentes equipes que ocuparam a Reitoria da UFRJ nos últimos anos. As evidências falam por si e não vem de hoje. Num passado não muito distante, no início desta década, uma parte de um prédio tombado do Campus da Praia Vermelha também foi consumido por um incêndio em uma capela. Poderia se dizer que ambos os casos envolviam edificações antigas, mais propensas a acidentes. Que dizer então do incêndio que destruiu alguns andares do prédio da Reitoria há cerca de 2 anos? [Vale informar que até agora os serviços não voltaram ao seu local original de funcionamento e alguns cursos estão tendo atividades improvisadas em outros locais até hoje.] Além desses episódios, houve uma série de incêndios de menor porte em diferentes locais dos campi da UFRJ nos últimos anos. E as evidências de má conservação em prédios públicos não param com esses casos. É muita coincidência...

Finalmente, cidadãos da cidade do Rio de Janeiro e profissionais da UFRJ temos nossa parcela de responsabilidade. Precisamos pensar mais seriamente sobre a manutenção de bens públicos e cobrar medidas eficazes de nossos dirigentes, sob risco deles perderem votos quando candidatos ou perderem o mandato, quando exercerem seus cargos de forma ineficiente. Se houver cidadãos conscientes em constante vigilância, esses dirigentes irão se esmerar para fornecer um serviço melhor. E assim evitar a tristeza que muitos de nós está sentindo no dia de hoje...

terça-feira, 28 de agosto de 2018

Atividade acadêmica em Estatística no Brasil

http://www.imagens.usp.br/?attachment_id=16652

Para falar desse ponto é importante antes caracterizar a história da Estatística no Brasil e no mundo. Nesse sentido, essa postagem é uma revisão de postagem já feita aqui há cerca de 5 anos, mas atualizada pela minha percepção dos principais acontecimentos ocorridos desde então. A Estatística se materializou como área da ciência há pouco mais de 1 século. Pouquíssimo tempo, se comparado com os vários séculos de existência de sua ciência irmã (ou mãe), a Matemática. As atividades no Brasil apenas refletem esse padrão, com começo de atividades estruturadas há pouco mais de meio século, bem depois da Matemática.

Os primeiros doutores em Estatística começaram a chegar do exterior e o 1o doutorado no país foi aberto na USP logo a seguir, ambos no final do século passado, na década de 70. A partir daí, houve um paulatino crescimento no fluxo de formação de doutores no exterior. Esse fluxo redundou em um avanço concreto apenas a partir deste século, quando vários outros programas de doutoramento em Estatística foram abertos no país.

Esse movimento todo fortaleceu os departamentos de Estatística nas universidades brasileiras e com isso várias outros cursos de graduação em Estatística puderam ser abertos, além daqueles mais tradicionais que já existiam desde o século passado. O ensino foi, via de regra, moldado em cima de uma estrutura teórica sólida, pontuada em maior ou menor grau por aplicações como instrumento de auxílio. Na virada do século houve uma maior preocupação com aspectos aplicados da Estatística e as grades curriculares foram mudados mas muitos profissionais sustentam que essa mudança ainda é epidérmica.

A entrada em cena da Ciência de Dados tornou ainda mais premente uma discussão sobre a necessidade de uma reforma mais profunda. Não está claro como deve ser realizada essa reforma. Entre as opções estão uma aproximação da grade curricular na direção de Ciência de Dados e a abertura de um curso de Ciência de Dados, seja como novo curso de graduação ou como uma especialização. Acredito que muitos departamentos tem feito essa discussão internamente e alguns já avançaram em direção à abertura de cursos de especialização e até mesmo à abertura de vagas para professores especificamente com esse perfil. Mas ainda vejo pouco resultado concreto e ainda menos discussão de carater mais abrangente, a nível nacional, específica sobre o tema.

Paralelamente, o início do século assistiu o início de uma formação mais consistente de doutores, devido à abertura de cursos de doutorado acima mencionada. A pesquisa no país experimentou um crescimento quantitativo considerável, com vários pesquisadores passando a entrar de forma consistente na rotina de produção científica. Toda essa produção não se refletiu em uma maior participação do país no avanço da Estatística no cenário mundial. Muito poucos estatísticos radicados no país tem publicado em periódicos de maior destaque e/ou tem sido convidados para eventos científicos de ponta.

Recentemente, citamos a palestra do Prof. Jordan falando sobre problemas big n, big p. Essa expressão se refere não só a muitas unidades observacionais mas também a muita informação a nível individual. Ela serve como paradigma do movimento da Estatística no século atual, visando a busca de modelos mais complexos para representar melhor a realidade estudada. Temas como escalabilidade, ou seja, capacidade de processamento da informação para valores crescentes de n e p tem despertado particular interesse. Aspectos computacionais adquiriram uma importância nunca antes vista na pesquisa em Estatística.

Em contraste com a tendência acima descrita, muitos trabalhos de pesquisa no país se dedicam a lidar com modelos de small p (tipicamente voltados para dados com small n), e visam estendê-los para modelos de ordem ainda small p+1 ou p+2. Toda a destreza matemática e toda a habilidade teórica que esses trabalhos apresentam fica relativizada perante as baixas relevância e aplicabilidade neles percebidas pela comunidade científica. Quando se almeja entender a realidade com toda sua complexidade, esse ponto de partida e esse tipo de extensão são vistos como insuficientes para essa tarefa. Consequentemente, atraem menos interesse nas prateleiras mais altas da ciência e só encontram espaço nas prateleiras mais baixas. Nesse sentido, é compreensível que apareçam insatisfações com os sistemas de avaliação e classificação dessas prateleiras. Mas acredito que seria mais produtivo no longo prazo alterar o foco de atenção.

As posturas menos assertivas da nossa comunidade na formatação dos cursos oferecidos e na produção científica provavelmente estão relacionadas. Não tenho dúvidas que a formação teórica oferecida aos doutores aqui formados é suficientemente boa para galgar passos mais altos. O que acredito que possa estar faltando é ambição científica. Diga-se de passagem, isso é muito mais difícil de ser ensinado, tornando mais compreensível esse quadro. Dar passos mais qualitativamente relevantes não passa apenas por uma melhor compreensão pelo pesquisador do que ele já faz. Passa principalmente pela compreensão pelo pesquisador do seu papel na estrutura mais ampla da ciência e da academia mundiais.

Acredito que os jovens doutores que temos como professores nos cursos de Estatística podem ser a saída para essa mudança de patamar. Para isso, ele teriam que trocar paradigmas superados e aliar o vigor da sua juventude, a vontade de deixar seu nome marcado na história da Estatística e a ânsia/curiosidade de identificar os atuais problemas da Estatística para poder atacá-los e resolvê-los. 

Para isso, é preciso entender para onde a ciência caminha e se familiarizar com os passos que sendo tomados nessa direção. Consultas regulares ao que está sendo feito em buscas virtuais na internet e presenciais em congressos de ponta são alguns dos caminhos mais usuais. Outras áreas da ciência nacional tem trilhado esse caminho com sucesso. A Estatística ainda tem a vantagem (sobre muitas outras áreas) de necessitar de poucos insumos materiais para concretização de seu trabalho de pesquisa. Não há impedimento para que a Estatística brasileira trilhe a mesma rota de sucesso e realização. Basta querer!

terça-feira, 21 de agosto de 2018

Formação de Bacharéis em Estatística - Brasil x EUA

por Doris Fontes*

Fonte: Doris Fontes

Achei esse artigo interessante da ASA [sobre a formação de bacharéis em Estatística nos Estados Unidos] .

Enquanto aqui, desde 2004 (quando eu comecei a acompanhar o Censo do INEP), temos a seguinte situação, resumidamente:

[O gráfico acima mostra o] nº de programas de Graduação em Estatística aqui e nos EUA, além do programa de mestrado em estatística. Notem que o número de bacharelados em estatística aqui no Brasil cresce a partir de 2007, acredito eu, por causa do REUNI.

Sem contar que lá existem muitos programas de graduação e pós somente em BIOESTATÍSTICA, enquanto que aqui só temos UM programa de mestrado (UEM) e nenhum bacharelado.

Em termos de egressos, temos a seguinte situação (até o último censo divulgado do INEP):

Fonte: Doris Fontes


Um fato relevante nos EUA é a explosão de interessados no programa de AP STATISTICS: saltou de menos de 8 mil em 1997 para pouco mais de 205 mil participantes em 2016.

(The AP Statistics course is equivalent to a one-semester, introductory, non-calculus-based college course in statistics. The course introduces students to the major concepts and tools for collecting, analyzing, and drawing conclusions from data. There are four themes in the AP Statistics course: exploring data, sampling and experimentation, anticipating patterns, and statistical inference. Students use technology, investigations, problem solving, and writing as they build conceptual understanding.  https://apcentral.collegeboard.org/courses/ap-statistics/course)

Fonte: Doris Fontes

Comparando egressos vs vagas oferecidas pelas universidades brasileiras, temos:

Fonte: Doris Fontes

Formandos por tipo de universidade:

Fonte: Doris Fontes

O número de vagas oferecidas também cresceu a partir de 2007 (REUNI), mas o número de egressos não aumentou. Está estagnado ou, pior, menor que em 2004. Poderíamos dizer que, a grosso modo, a taxa de evasão da estatística beira os 75%. 

No Brasil já começa a aparecer programas de graduação e pós em Ciência de Dados, como no Centro Universitário Metodista Izabela Hendrix, em Belo Horizonte (MG). Não sei qual a qualidade desses programas. Alguns cursos de pós chegam a abordar apenas introdução à estatística.

As vagas para profissionais de Analytics/Big Data/Data Science cresce muito no mundo todo. Se você entrar hoje no site do indeed.com e fizer uma busca por "analytics", vai encontrar algo como 140 mil vagas. Lógico que tem muita coisa misturada, mas mostra o potencial de mercado para quem sabe analisar dados. No blog do CONRE-3 de Oportunidades de Trabalho para Estatísticos (https://www.facebook.com/groups/statjobs/), hoje com pouco mais de 11 mil membros, temos divulgado mais de 2 mil vagas de trabalho por ano -- e são vagas parciais, pois muitas empresas publicam apenas na Catho, ou sequer divulgam (preenchimento através de indicações somente). Se formamos menos de 400 num ano, está claro que não temos capacidade para prover profissionais para o mercado interno. Pior ainda, alguns bons estatísticos saem do país.

Talvez possamos pensar juntos sobre formas de melhorar esse índice de evasão, num programa conjunto, mais agressivo, de divulgação da nossa área junto aos alunos do ensino médio. O CONRE-3 tem recursos bem pequenos (muito em função do desinteresse dos estatísticos pelo seu conselho profissional -- às vezes até boicote de formandos e professores), mas, dentro do possível, temos tentado implementar muitos programas de valorização, divulgação e fortalecimento da nossa profissão: eventos ligados ao mercado de trabalho, TENDA ESTATÍSTICA (através de esforço conjunto com a ABE e SBPC) para estudantes de todas as idades, palestras em escolas ou envio de material de divulgação da estatística aos alunos de EM; ajuda aos deptos de estatística com palestras e materiais de apoio; ajuda a eventos variados (como o SINAPE, RBras/SEAGRO, Semests, feira de profissões, etc). Somos auditados anualmente pelo TCU e não temos muita flexibilidade para o uso de nossa verba, então, trabalhamos dentro das nossas possibilidades.

O problema de evasão é grave, triste e precisa ser estudado e combatido. Alegar simplesmente que os alunos que entram são fracos não é razoável. A falta de prestígio da nossa área pode atrair um monte de alunos interessados apenas na baixa concorrência nos vestibulares. Isso não é bom.

Na última reunião que o Julio Trecenti (presidente do CONRE-3) e eu (como vice-presidente) tivemos no conselho federal, no RJ, discutimos a "morte" da nossa carreira no mercado de trabalho para o cientista de dados. Já há deptos de computação interessados em oferecer Bacharelado em Ciência de Dados, assim como há engenharias interessadas em "Engenharia Estatística".

Enfim, pensei em compartilhar um pouco das minhas preocupações.


* - Doris Fontes é atual vice-presidente e ex-presidente do CONRE-3 (Conselho Regional de Estatística, 3a região (SP-PR-MT-MS))

terça-feira, 14 de agosto de 2018

Um relato da visita do Michael Jordan à UFRJ


fonte: Asses. Comunicação COPPE


A visita do Prof. Michael Jordan à UFRJ foi anunciada aqui na postagem da semana passada. Ela foi divulgada por vários institutos e a propaganda deu certo! Após uma rápida visita ao Laboratório de Sistemas Estocásticos (LSE) da UFRJ, o Prof. Jordan se dirigiu à principal atividade da visita: sua palestra. O auditório da COPPE com capacidade para cerca de 300 pessoas estava super-lotado para a palestra, com algumas pessoas sentando nos corredores de acesso e outras ficando em pé no fundo. A platéia foi constituída de profissionais e alunos dos mais diferentes níveis das Ciências Exatas. Aliás, houve uma presença maciça de alunos de graduação, talvez atraídos pela fama que o palestrante adquiriu com seus trabalhos.

A palestra tratou de contextualizar a Ciência dos Dados nos dias de hoje como um guarda-chuva de oportunidades científicas, englobando áreas da Estatística, da Computação e da Matemática e pegando emprestado conhecimentos das Engenharias, Física e Química. Nesse sentido, Jordan considera natural o sentimento de incompreensão que muitos ainda nutrem pelas atividades dessa área.

O ponto que permeou toda a sua apresentação foi a ênfase na interdisciplinariedade da área, devido à sua necessidade de incorporar na análise componentes de Estatística mas também de Computação de forma imprescindível. Segundo ele, o conhecimento de técnicas estatísticas é fundamental para tratar incertezas adequadamente. Por outro lado, o uso de técnicas computacionais é imprescindível para otimizar o seu processamento e análise. Ele ilustrou esse ponto inicialmente falando das exigências da indústria em ter análises mais rápidas (instantâneas, se possível) na presença de grandes massas de dados. Para Jordan, o que caracteriza a grandeza de um conjunto de dados não é apenas a existência de muitas unidades observacionais (big n) mas principalmente a disponibilidade de muita informação sobre cada unidade observada (big p). É essa segunda característica que é responsável pela necessidade de melhores técnicas estatísticas, para possibilitar melhores previsões a nível dos indivíduos (e não apenas a nível de agregados populacionais como média e variância) de acordo com suas características. 

fonte: Asses. Comunicação COPPE

A partir daí, ele procurou exemplificar essa interdisciplinariedade com um tópico de sua pesquisa: tratamento da confidencialidade. A confidencialidade em uma análise de dados é garantida por algum procedimento de mascaramento ou embaralhamento dos dados para evitar a identificação de indivíduos. Isso é particularmente relevante em contextos sensitivos, como estudos sobre uso de drogas. Jordan entende que o mascaramento  é uma componente computacional que deve ser acrescida a uma análise estatística dos dados. O procedimento necessário para obter a solução teria portanto a componente estatística de minimização do risco do estimador, acoplada à otimização do embaralhamento. Ele enfatizou bastante a importância do tratamento do problema a nível do individuo com cada um podendo indicar a taxa de embaralhamento que deseja (indo de completo mascaramento até a ausência completa de mascaramento).

A seguir, ele apresentou um resumo do seu trabalho de melhoramento de algoritmos de obtenção de máximo de funções, que ele já tinha apresentado no encontro mundial do ISBA e já tinha sido relatado aqui. A palestra foi finalizada com um chamado de todos para a interdisciplinariedade, para melhor aproveitar as oportunidades desse janela que se abre no mundo da Ciência. A seguir, houve uma rodada de perguntas pela platéia, que focou mais em aspectos gerais de Ciência de Dados do que em assuntos tratados na palestra. O video da palestra pode ser visto aqui e o arquivo usado por ele na apresentação pode ser visto aqui.

fonte: Asses. Comunicação COPPE

A seguir, Michael seguiu para uma visita ao projeto MagLev, de transporte via Levitação Magnética, da COPPE. Lá ele foi recebido pelo coordenador do projeto que levou o grupo que acompanhava o visitante para um passeio no protótipo desenvolvido (como ilustrado na foto acima) e ouviu com atenção uma breve explanação do projeto. Finalmente, após pausa para almoço, ele concedeu uma entrevista a um jornal de grande circulação nacional. 

Embora a palestra não tenha trazido grandes novidades, a visita teve a importância de atrair pesquisadores maduros mas principalmente uma quantidade expressiva de jovens estudantes. Esse tipo de evento tem esse poder catalisador com efeitos potencialmente muito positivos. Nos momentos que antecederam o início da palestra, podia se sentir no ar do auditório a expectativa pela chegada do pesquisador ao recinto. Assim, acho que o evento foi um sucesso e pode ter, quem sabe, atraído e ajudado a definir as carreiras de alguns jovens promissores.

terça-feira, 7 de agosto de 2018

Palestra na UFRJ de um exponente mundial de Ciência dos Dados

Fonte: Peg Skorpinski

A postagem da semana passada tratou de uma breve descrição do encontro mundial do ISBA, com ênfase especial na inserção de Ciência dos Dados no evento. Essa área na interface entre Computação, Estatística e Matemática vem se destacando no cenário internacional e, como já disse aqui, veio para ficar por um bom tempo. Ela vem inclusive tomando o lugar da Estatística nos meios de divulgação; qualquer análise de dados que tenha um mínimo de sofisticação é agora apresentada como aplicação de Ciência de Dados.

Um dos maiores exponentes no encontro do ISBA, destacado na postagem foi o Prof. Michael Jordan. Hoje (07/08/2018), temos o prazer de receber a visita dele na UFRJ, iniciando com uma palestra as 11hs. A palestra também será transmitida ao vivo pela internet para os interessados que não puderem estar presentes.

Michael é um dos mais influentes e produtivos pesquisadores dessa área. Ele trabalha na Universidade da Califórnia em Berkeley e pertence aos departamentos de Estatística e de Computação dessa importante universidade. Creio que boa parte de prestígio que ele adquiriu na comunidade científica internacional vem desse traquejo que ele desenvolveu para lidar e estar em permanente comunicação com as 2 áreas, sem contar o seu excelente domínio e uso de variadas áreas da Matemática. Um estudo publicado em 2016 pela prestigiosa revista Science mostra um algoritmo de classificação que o coloca como o pesquisador mais influente da atualidade em Ciência da Computação. A lista completa dos 50 primeiros colocados pode ser vista aqui. Não tenho dúvida que um estudo similar dentro da Estatística o colocaria seguramente entre as primeiras posições.

A visita dele à UFRJ aproveita a vinda dele para o Congresso Internacional de Matemáticos (ICM2018), onde ele será um dos palestrantes de destaque. Essa visita faz parte de um esforço de aproximação entre as áreas de Estatística, Computação e Engenharia da UFRJ. O titulo da palestra é Sobre raciocínio computacional, sobre raciocínio inferencial e Ciência dos Dados, bem indicativo da necessidade de interação entre essas disciplinas. Nessa palestra, o Prof. Jordan falará da importância dessa interação entre as 2 disciplinas, de modo que um lado possa se beneficiar do conhecimento adquirido pelo outro lado e vice-versa.

Convidamos todos que estejam na área do Rio de Janeiro para assistir essa aula de como produzir ciência de altíssima qualidade e em interação com diversas áreas. Já assisti algumas palestras dele e sempre me impressiona a sua eloquência, sua erudição e sua capacidade de transitar por diferentes segmentos da Ciência com maestria. Mais detalhes sobre a palestra podem ser obtidos no cartaz abaixo, extraido da página da Coppe no Facebook.


terça-feira, 31 de julho de 2018

Um relato sobre o Encontro mundial da ISBA 2018

Fonte: arquivo pessoal

O recesso de férias do StatPop será encerrado a partir do seu ponto de início: o encontro mundial do ISBA, em Edimburgo, no final de junho. A escolha do local do evento teve particular simbologia. Thomas Bayes teve uma estreita ligação com a Universidade de Edimburgo, se tornando inclusive nome de rua da universidade e "herói" do novo centro de tecnologia de dados (como atesta a foto acima) que está sendo construído pela Universidade ao lado do local do encontro.

Os encontros mundiais da ISBA tem uma estrutura que vem sendo moldada ao longo de suas sucessivas edições. Ele tem seu 1o dia centrado em torno de conferências plenárias, proferidas por grandes personalidades, para fazer uma análise crítica de suas áreas de pesquisa. Essas palestras atraíram grande atenção dos participantes, como esperado, e trouxeram reflexões relevantes. Além dessas palestras, houve palestras plenárias dadas por personalidade atuantes na fronteira do conhecimento e que também despertaram muito interesse. O encontro foi completado com sessões de comunicações centradas em cima de temas específicos de pesquisa e sessões de apresentação de posters.

Participei com alguma intensidade dessa edição desses encontros, indo não apenas às sessões mais ligadas às minhas áreas de pesquisa mas também a outras de interesse mais geral. Uma área que despertou o interesse meu e de muitos outros participantes foi a área de Big Data/Machine Learning e todas as outras denominações sob o guardachuva de Ciência dos Dados ou Data Science. A atenção que essa área vem recebendo gerou uma série de sessões de apresentações e atraiu grande parte do público. [Um exemplo desse interesse foi a presença de pouquíssimas pessoas na apresentação do Prof. Richard Smith, um dos pesquisadores mais importantes da Estatística atual, enquanto que uma sessão de Big Data, que corria em paralelo, estava lotada.]

Assisti algumas das sessões dedicadas a esse tema e saí com uma perspectiva um pouco diferente da que eu tinha antes desse evento. Olhando de forma um pouco descuidada, corremos o risco de perceber apenas a sua superfície. Essa visão já norteou uma postagem no StatPop. Essa superfície dá conta da ponta aplicada dessa área, centrada na solução de problemas de alta complexidade e/ou dimensionalidade. Nesse caso, diferentes técnicas de computação tem sido experimentadas com graus variados de sucesso.

No entanto, existe uma outra face talvez menos glamourosa mas igualmente importante de consolidação das técnicas utilizadas. E nessa situação não há outra saída possível que não a fundamentação teórica. E não faltam grupos importantes de pesquisa intensamente dedicados a essa tarefa. Essa vertente caminha na direção oposta àquela mais aplicada. Ela trabalha no nível mais conceitual e depende fundamentalmente de ferramentas teóricas, usando muita Matemática. 

Assisti várias apresentações ligadas ao tema mas gostaria de destacar a conferência de Michael Jordan, um dos maiores expoentes mundiais de Data Science, e que dará uma palestra na UFRJ na próxima semana (detalhes aqui). A conferência do Prof. Jordan foi centrada no problema de obtenção do máximo de funções. Essa assunto já foi bastante estudado na literatura ao longo dos últimos séculos. Mas agora, lidando-se com funções tendo número muito alto de argumentos e com possível existência de muitos máximos locais e de plateaus ou regiões de baixa variação, tem se reacendido o interesse em refinamento dessas técnicas de otimização. A conferência passeou por uma combinação de ferramentas sofisticadas de diferentes áreas da Matemática, visando otimizar os procedimentos de otimização em cenários de alta dimensão. Resulta que a geometria do problema desempenha um papel fundamental e as técnicas recentes tem procurado explorar esse ponto.

Muitos dos avanços em Big Data/Data Science estão associados ao uso de técnicas aproximadoras para poder operacionalizar a análise numérica/estatística em cenário complexo. Como exemplo, pode ser citada a busca por core sets, subconjuntos de dados que capturem a essência da informação trazida pela massa de dados disponível. Um ponto presente em várias apresentações foram estudos procurando caracterizar a qualidade matemática das aproximações utilizadas. Novamente, não precisa ser ressaltada a importância da Matemática nesses estudos.

Enfim, um novo mundo se descortina para a Estatística olhando para a Computação pelo lado aplicado mas também para a Matemática pelo lado teórico. Esse movimento me remete à entrevista que fiz com Sir David Spiegelhalter durante o 22o SINAPE. Nessa entrevista, David falava justamente da importância da Matemática para o futuro da Estatística e para os futuros estatísticos. [Infelizmente, não recuperei registro dessa entrevista a tempo desta postagem.] Ele não se referia à Ciência dos Dados mas até mesmo os pesquisadores dessa área parecem concordar com ele.

terça-feira, 19 de junho de 2018

Encontro mundial da ISBA

https://bayesian.org/isba2018/

Semana que vem terá lugar mais uma edição dos encontros mundiais da International Society of Bayesian Analysis (ISBA) na Universidade de Edimburgo, Escócia. Essa é a grande festa da comunidade Bayesiana, acontecendo a cada 2 anos. Esses eventos herdaram a mística dos lendários encontros de Valencia. Esses últimos encontros foram a base do desenvolvimento Bayesiano em tempos passados, especialmente nas primeiras edições quando a comunidade Bayesiana era contada em dezenas de pesquisadores.

Muito aconteceu de lá para cá e hoje os eventos Bayesianos atraem centenas de pesquisadores e outros interessados no uso dessa ferramenta para análise de dados reais. A disponibilização de um verdadeiro arsenal de métodos para lidar com os mais diversos e complexos problemas atraiu toda sorte de interessados em análises de dados. Em tempos de grandes massas de dados ou Big Data, técnicas Bayesianos de tornaram rotineiras para esse tipo de análise.

O evento consistirá de uma série de conferências convidadas pelo Comitê Científico do evento, do qual fiz parte. A escolha desses convidados foi realizada após intenso debate sobre as diferentes propostas surgidas. O evento será aberto por 4 conferencistas de base, supostamente apresentando um apanhado abrangente de uma área da Estatística Bayesiana. Haverá também 4 conferencistas plenários, que supostamente representam expoentes do estado da arte de alguma área da Estatística Bayesiana. Além desses, haverá alguns outros (2 ou 3) conferencistas associados a temáticas específicas dentro da comunidade do ISBA. Uma delas, representando a nova geração de pesquisadores, esteve recentemente no Brasil como conferencista do XIV EBEB.

O enchimento do evento é garantido por uma série de sessões contendo mini-apresentações sobre um tema específico. Essas sessões são divididas entre sessões convidadas, escolhidas pelo Comitê Científico de acordo com a relevância do tema e das suas palestras, e sessões de contribuições, contendo apresentações avulsas que foram aceitas pela sua qualidade e foram agregadas em sessões de acordo com o tema. Uma das sessões convidadas que merece destaque é aquela contendo os trabalhos finalistas de um concurso de teses de doutorado Bayesianas. Ai podem estar as mais jovens promessas da estatística Bayesiana.

Finalmente, o evento manteve uma importante componente dos encontros de Valencia, que são as sessões poster realizadas após o jantar e regadas a um serviço de bar que mantem as discussões científicas animadas até após a meia-noite. Assim como em Valencia, haverá sessões poster em todos os dias do evento menos o último quando a noite é dedicada à festa de encerramento. E cada uma dessas sessões terá ao menos uma centena de posters, apresentando trabalhos de pesquisadores e alunos de doutorado mundo afora.

Os temas ligados a Big Data, Machine Learning, Data Science e Deep Learning estarão obviamente representados no evento com várias sessões convidadas e de contribuições e dezenas de posteres, bem como algumas das conferências. Pode-se notar em muitas apresentações a preocupação de explicitar a relevância da apresentação no contexto de grandes massas de dados.

Acho que isso é uma tendência que veio para ficar por um bom tempo na Estatística. Eu irei ao evento (onde apresentarei na sessão convidada de análise de processos pontuais) e procurarei acompanhar os principais avanços dentro das escolhas que pude fazer em um vasto e congestionado programa científico com várias sessões ocorrendo em paralelo. Pretendo me organizar para fazer um relato aqui do que vi e presenciei. Mas isso será feito somente após um merecido recesso de Copa do Mundo.

terça-feira, 12 de junho de 2018

Os números explicam o mundo*

https://brasil.elpais.com/brasil/2018/05/23/ciencia/1527088298_574101.html


por Kiko Llaneras

Não é possível contar a história sem dados. Não há conhecimento sem contabilidade. Charles Darwin desenvolveu a teoria da evolução das espécies sabendo que os continentes se moviam, mas também teve que ir a uma ilha remota e registrar que ali os animais eram diferentes. Todas as ciências são quantitativas, incluindo a história. Ninguém questiona isso se voltarmos muito no tempo – porque sabemos que a teoria do Big Bang foi feita por físicos e se fundamenta em equações –, mas é verdade em geral: conhecer o passado requer números.

Podemos pensar na pré-história, por exemplo, que hoje vive uma revolução graças à genética. Foram desenvolvidas técnicas que nos permitem reconstruir com precisão os movimentos das populações humanas há milhares de anos. E isso está sacudindo os pilares da disciplina. Foram encerrados debates abertos há décadas, como a discussão que dividia especialistas sobre como a agricultura chegou à Europa. Em uma entrevista à revista Letras Libres, Karin Bojs, autora de Min Europeiska Familj (“minha família europeia”), explicou que o dogma do último meio século foi de que houve uma reeducação dos caçadores-coletores. Acreditava-se que eles descobriram a agricultura. Agora, a análise de DNA desmantelou essa hipótese: a agricultura foi trazida por outras pessoas. Na Espanha, foi introduzida por um grupo que chegou há 7.000 anos.

A ciência avança assim, tecendo teorias e evidências. Quando as provas materiais se esgotam, surgem discussões e as hipóteses se multiplicam (porque não há provas para falseá-las). Então aparecem novas pistas – os estudos genéticos neste caso – que reforçam algumas explicações e enfraquecem outras, fazendo nosso conhecimento dar um salto adiante... até surgir a próxima incógnita.

Se a pesquisa histórica é quantitativa, por que ainda evoca palavras antes de números? Parte da culpa pode ser a divulgação que está por trás. A história ainda é apresentada como uma disciplina de “humanas”. Mas isso também está mudando. Um exemplo é um livro The Infographic History of the World (Harper Collins) de Valentina D’Efilippo e James Ball. É um compêndio de dados e gráficos sobre temas que vão do Big Bang ao nascimento da Internet, passando pela era dos impérios e pela revolução industrial. É um livro bonito e detalhado, que acerta especialmente na seleção de temas. Há infográficos sobre divórcios e missões espaciais, mas os melhores são os mais antigos, dezenas de ilustrações de dados sobre o sistema solar, o bipedismo, os impérios ultramarinos e horas de sono antes da luz elétrica.

O livro é cheio de curiosidades. Explica, por exemplo, que o diafragma foi fundamental em nossa evolução. Alterou nosso tórax e, graças a isso, conseguimos nos separar do chão e ficar mais parecidos com um cachorro do que com um lagarto. E as bactérias? Estão aqui desde o princípio e dominam a Terra: para cada quilo de seres humanos existem 4.000 quilos de bactérias.

La Historia Infográfica del Mundo também tem um ponto nostálgico, porque lembra os livros que muitos devoramos quando crianças. Aqueles volumes cheios de ilustrações minuciosas sobre romanos, pirâmides e dinossauros. Livros que, num mundo sem Internet, eram explorados lentamente, quase com respeito, como um baú descoberto no sótão.

O mundo em dados

É impossível falar de dados na história sem mencionar o projeto de Max Roser, Our World in Data. Esse pesquisador de Oxford criou um site para “explorar a história da civilização humana” por meio de pesquisas e visualizações. É um lugar para se perder entre dados muito importantes: quanto vivemos agora; qual era a taxa de homicídios em 1780; como a riqueza evoluiu na Idade Média; ou como a saúde na África melhorou ao longo da última década.

Max Roser pertence a um grupo de divulgadores que defendem que o mundo progrediu. Fazem isso fornecendo dados que nem sempre recebem a atenção que merecem: você sabia que a taxa mundial de pobreza extrema caiu de 29% para 10% desde 2000? Outro membro do grupo é Hans Rosling, especialista em saúde global que ficou famoso por uma palestra no TED em que apresentava estatísticas com entusiasmo contagiante. Rosling morreu no ano passado, mas acaba de ser publicado um livro seu cheio de números (Factfulness).

Ainda mais conhecido é Steven Pinker, cientista e escritor de sucesso, autor entre outras obras de Os Anjos Bons da Nossa Natureza (Companhia das Letras). Nesse livro, Pinker conta a história da violência e fornece dezenas de gráficos para defender que, apesar da crença popular, as sociedades modernas são menos violentas. Agora Pinker publicou outro livro, Enlightenment Now, em que defende o progresso do mundo em termos históricos. Para isso usa uma torrente de gráficos e estatísticas sobre saúde, educação, desigualdade, violência, felicidade, qualidade de vida, meio ambiente e igualdade de direitos. O principal valor dessa nova divulgação está nisso. Porque se pode concordar mais ou menos com a tese de Pinker, que não deixa de ser um ativista de sua causa, mas é difícil negar que os debates são melhores quando os argumentos são acompanhados de provas.

* - texto publicado na edição brasileira do jornal El Pais do dia 24 de maio de 2018, e indicado para leitura pela versão digital do Jornal da Ciência do dia 11 de junho de 2018.

segunda-feira, 4 de junho de 2018

O valor de mercado de um jogador de futebol

http://www.pluriconsultoria.com.br/wp-content/uploads/2018/03/Palestra-UTP-090317.pdf

Estamos às vésperas de mais uma Copa do Mundo (de futebol), trazendo novamente para a vitrine um de meus assuntos prediletos. Dessa vez, queria tratar de um assunto que se torna cada vez mais relevante no mundo tão globalizado e multimilionário do futebol. Estamos presenciando uma relevância cada vez maior dos esportes na vida da sociedade e essa exposição está intimamente assocada ao custo de contratação de um jogador de futebol. Essa tendência vem se acentuando progressivamente a ponto de um jogador de apenas 17 anos (idade insuficiente para antever a real capacidade de performance de um jogador) ser vendido pela bagatela de 45 milhões de euros (aproximadamente 220 milhões de reais). Essa negociação está longe de ser uma excentricidade e negócio com promessas ainda mais jovens, de idade entre 10 e 15 anos estarem sendo realizadas.

A prematuridade de um jogador de 17 anos fica mais acentuada quando se leva em conta a sua capacidade de atuar em sua plenitude. O gráfico acima, extraído de uma apresentação da empresa de consultoria esportiva Pluri, sustenta que isso só é atingido em torno de 26-27 anos de idade, entrando em declínio a seguir até o momento de atingir sua aposentadoria esportiva. Esse gráfico está referenciado ao ano passado. É interessante comparar com o mesmo gráfico de alguns poucos anos atrás, reproduzido abaixo.

h
http://www.pluriconsultoria.com.br/wp-content/uploads/2018/03/Palestra-UTP-090317.pdf

O aspecto que chama mais a nossa atenção nesse último gráfico na comparação com o gráfico anterior foi o deslocamento do pico do valor de mercado. Ao longo de 6 anos, o pico do valor de mercado caiu de 26 para 24 anos. Isso reflete algumas mudanças importantes no futebol nos últimos anos. As exigências físicas aos jogadores são cada vez mais intensas no futebol dos dias de hoje fazendo com que o vigor das idades mais novas seja privilegiado financeiramente no contraste com a experiência. Além disso, os contratos feitos hoje em dia são bem diferentes dos feitos alguns anos atrás.

Paralelamente, acaba de ser divulgado um estudo do Football Observatory do CIES, um centro internacional de estudos do esporte, também sobre valor de mercado de jogadores. Esse estudo divulgou os valores de mercado dos 100 jogadores mais valiosos segundo o algoritmo desse observatório. Eu tomei esse levantamento e verifiquei quais foram selecionados para ir à Copa do Mundo pelos seus países. Para não fazer a conta para todos os 32 países participantes, me ative apenas aos países que já venceram uma edição da Copa do Mundo. Como Itália não participará dessa edição da Copa, foram computados apenas os resultados de Alemanha, Argentina, Brasil, França, Espanha, Inglaterra e Uruguai.

Os selecionados desses países aparecem nessa lista de 100 jogadores nas seguintes posições:
Alemanha (8 selecionados): 25, 37, 52, 55, 58, 83, 94, 98
Argentina (5 selecionados): 4, 9, 22, 27, 44
Brasil (9 selecionados): 2, 12, 15, 16, 21, 57, 67, 72, 88
Espanha (5 selecionados): 26, 36, 42, 51, 56
França (9 selecionados): 3, 8, 14, 45, 46, 63, 76, 86, 93
Inglaterra (8 selecionados): 1, 6, 29, 34, 41, 47, 50, 62
Uruguai (1 selecionado): 18

Quase todos os países acima tiveram jogadores na lista dos 100 mais que não foram selecionados para a Copa do Mundo. Chamaram mais a atenção os nomes de Sané da Alemanha (13o na lista) e Icardi da Argentina (32o na lista) por conta das altas posições na lista. O 1o e o 6o jogadores dessa lista pertencem ao mesmo time inglês, Tottenham, que não ganha título importante há algum tempo. Isso também denota uma certa preferência ou influência do futebol inglês, que não chega a ser despropositada por ser este o campeonato mais rico do mundo. Assim, não é recomendável tomar essa lista como padrão ouro da qualidade de um jogador.

A lista apresenta uma preponderância de Alemanha, Brasil e França em termos do número de jogadores no topo do futebol mundial. Análise mais detalhada da lista apresenta uma clara preferência aos jogadores mais jovens, em consonância com os resultados mostrados nos gráficos acima. Assim, ter mais jogadores ou ter jogadores melhor classificados na lista é mais uma indicação de juventude ou promessas do que de materialização imediata de performance. Portanto, esses indicadores não são necessariamente indicadores do resultado desta edição da Copa do Mundo. Talvez reflitam melhor um indicador para a próxima edição da Copa, caso os jogadores mantenham sua performance. Por isso mesmo, a Espanha não pode ser desconsiderada apesar do baixo número de jogadores na lista, por conta da presença de vários expoentes já mais experientes como Iniesta. Eles ainda podem fazer a diferença em um torneio de tiro curto, com apenas 7 jogos.

O futebol está mudando para um esporte onde ainda predomina a habilidade mas a componente física está cada vez mais presente. As 2 fontes acima atuaram de forma independente em suas análises e chegaram ao mesmo tipo de resultado. Por outro lado, o futebol se mantem como uma fonte substantiva de recursos para investidores o que faz com que o jogo esteja cada vez mais profissionalizado, sem espaço para amadores.

terça-feira, 29 de maio de 2018

Estatísticas do ano de 2017

https://twitter.com/kimkardashian/status/825580660337283073?lang=en

A postagem da semana passada foi mais uma postagem do StatPop que falou sobre qualidades da Royal Statistical Society (RSS), a associação que congrega os estatísticos do Reino Unido. Atualmente essa sociedade é presidida por Sir David Spiegelhalter, que também já foi elogiado aqui no StatPop em função de recente visita que ele fez ao Brasil. David foi elevado ao posto de presidente da RSS e aceitou essa tarefa pela sua atuação na divulgação de Estatística para a sociedade britânica.

E foi dele a inciativa de criar a eleição das estatísticas do ano no Reino Unido e no mundo. Essa eleição tem o objetivo explícito de ajudar a divulgar a Estatística através do aumento de sua compreensão pela sociedade em geral. A primeira edição dessa indicação ocorreu em 2017 e foi decidida por um painel com 7 membros, que incluiu o próprio presidente da RSS e um jornalista da BBC, enfatizando o carater de divulgação dessa inciativa.

As estatísticas vencedoras dessa edição foram
  • estatística britânica do ano:  0,1%, representando a percentagem do Reino Unido com área densamente construída. Área densamente construída tem mais de 80% de cobertura do solo de forma não natural. Essa estatística foi escolhida pela surpresa que ela causa. O Reino Unido um país com área diminuta (um pouco menor que a de um estado brasileiro, Rio Grande do Sul) mas densamente povoado (6 vezes menos povoado que o Rio Grande do Sul). Assim surpreende que a taxa de ocupação densa do território seja tão baixa.  
  • estatística internacional do ano: 69, representando o número médio de americanos mortos por cortadores de grama por ano. A relevância dessa estatística está na comparação com a média de 2 americanos mortos por terroristas imigrantes islâmicos. Novamente, o aspecto que distingue a estatística escolhida foi a surpresa que ela causa quando comparada a estatísticas de temas tão sensitivos atualmente, como terrorismo.
Essa estatística foi viralizada no início do ano passado por Kim Kardashian, uma personalidade do mundo da mídia internacional. No tweet dela (reproduzido acima), foram listadas várias outras médias anuais de mortes de americanos como 31 mortes por raios ou 737 mortes ao cair da cama. A iniciativa dela era uma crítica ao banimento da entrada de imigrantes de alguns países muçulmanos pelo presidente Trump. 

Outras estatísticas também receberam menções honrosas mas sem dúvida a estatística que mais atraiu atenção foi sem dúvida a estatística internacional. Não pela estatística em si mas pela comparação com uma estatística tão relevante nos dias de hoje. Uma das críticas mais divulgadas foi veiculada via twitter pelo escritor e estatístico Nassim Nicholas Taleb. Ele tweetou: "as 2 variáveis NÃO são comparáveis estatisticamente. Seu cortador de grama não está tentando te matar."

Considero plausíveis tanto os argumentos a favor quanto os argumentos contra a comparação. Eles foram sistematizados em textos publicados na edição de fevereiro da 2018 da revista Significance. Mortes causadas por máquinas tem uma natureza diferente da natureza de indivíduos. Além disso, a comparação toma implicitamente como base toda a população americana. É sempre útil fazer comparações de riscos após padronizar pela população efetivamente em risco. Somente pessoas que manipulam esses equipamentos ou seus familiares próximos estão em risco de morte por cortadores de grama. Da mesma forma, só pessoas em grandes centros urbanos estão em risco de morte por atentados terroristas. Essa padronização está longe de ser trivial mas facilitaria um pouco mais que essa comparação fosse aceita.

A nota da RSS divulgando o resultado da indicação dessa estatísticas pode ser lida aqui

terça-feira, 22 de maio de 2018

Acordo firmado entre associações internacionais de Estatística

https://www.isi-web.org/images/2018/Memo-of-Understanding-ISBA-ISI_FINAL-signed.pdf

Já falamos aqui sobre associações internacionais de Estatística mas nunca nos dedicamos a falar o que elas são e para que elas servem. Associações nacionais e internacionais de profissionais são geralmente grupos estruturados de pessoas que se reunem para discussão, promoção e avanço dessa área profissional. Existem associações para a maioria das áreas profissionais. Muitas delas tem um viés mais acadêmico outras, em profissões mais aplicadas, tem um viés mais voltado para a prática profissional. Exemplos dessa segunda tendência são as associações das várias especialidades da Medicina. 

De todo modo, ambas procuram contrabalançar suas atividades considerando tanto a questão do avanço científico quanto a questão do avanço no mercado de trabalho. A Estatística não foge a essa regra de tem também suas associações a nível nacional e a nível internacional. A associação mais tradicional da Estatística é a Royal Statistical Society (RSS), a associação de estatística do Reino Unido. A RSS já existe há quase 2 séculos e faz um trabalho muito interessante em várias direções; tanto que já foi mencionada aqui algumas vezes. Outra associação nacional que merece destaque é a nossa Associação Brasileira de Estatística (ABE), onde estou terminando meu segundo mandato como membro do Conselho Diretor. Menciono essas 2 associações nacionais também por serem aquelas às quais sou filiado.

Essas associações organizam encontros científicos e aplicados para troca de idéias e para apresentação de avanços ou achados interessantes. Elas tem também grupos de discussão sobre temas específicos e sub-grupos dedicados à realização destas mesmas tarefas a nível de alguma particularidade da profissão. Claro que pelo nível de desenvolvimento e pela antiguidade da sociedade inglesa em comparação com a nossa, a RSS oferece um cardápio muito mais variado de opções para o estatístico interessado em informações sobre a sua área. Mas como a maior parte do cardápio é servido pelas associações nacionais a nível local, os interessados em Estatística do Brasil tem muito a ganhar com a ABE. 

O mesmo comportamento é reproduzido a nível mundial pelas associações internacionais de Estatística. Obviamente, associações a nível mundial tem um escopo maior de preocupações podendo cuidar de situações mais gerais, como o aquecimento global ou a troca de informações entre países. Assim como a nível nacional, eu sou membro associado a duas associações internacionais: a International Statistical Institute (ISI) e a International Society of Bayesian Analysis (ISBA).  Novamente temos aqui uma disparidade com a primeira (ISI) tendo uma larga tradição de mais de um século de existência e a segundo sendo a novata no mundo das associações internacionais de Estatística, tendo sido fundada apenas em 1992. Além disso, temos uma importante diferença nos objetivos pois a primeira cuida de todas as áreas da Estatística e a segunda se concentra na parte Bayesiana da Estatística.

Entre as principais atividades dessas associações está a organização de congressos. Ambas realizam vários congressos temáticos mas o principal deles é o encontro mundial da sociedade. Ambas as sociedades organizam seus encontros mundiais a cada 2 anos, geralmente no meio do ano para aproveitar o período de férias no hemisfério norte. O próximo encontro mundial do ISI será ano que vem na Malásia e o próximo encontro mundial da ISBA será no mês que vem na Escócia.  

Não é difícil imaginar que exista uma certa superposição de interesses entre as associações internacionais e portanto é razoável supor que exista interação entre elas. Nessa direção, acaba de ser firmado um acordo de intenções entre o ISI e a ISBA procurando fomentar e institucionalizar a cooperação entre essas sociedades. Esse acordo foca inicialmente em interação na realização dos seus congressos com participação ativa de uma nos congressos da outra e vice-versa. Mas ele também prevê outras formas de atividade conjunta, especialmente quando o interesse da Estatística estiver em jogo questões de alcance mundial.

Nesse sentido, acho muito positiva a colaboração proposta. Acredito que esse acordo tem potencial para produzir resultados que dificilmente seriam obtidos pelas duas associações separadamente. Claro que será preciso desenvolver pontes para que essa colaboração se materialize mas torço para isso se concretize. A integra desse acordo pode ser visualizada aqui.  

terça-feira, 15 de maio de 2018

80% do que se aprende nas aulas de matemática não serve para nada*

https://brasil.elpais.com/

por Ana Torres Menárguez (El País)

Conrad Wolfram (Oxford, 1970) avalia que nós temos um problema com a matemática. Ninguém está satisfeito: os estudantes acham que é uma matéria difícil e desinteressante, os professores se sentem frustrados com os resultados de seus alunos e os governos sabem que ela é importante para a economia, mas não sabem como atualizar os currículos escolares. “Vivemos em um mundo cada vez mais matemático, mas o seu ensino está estancado”, avalia Wolfram, físico e matemático formado pela Universidade de Cambridge e fundador da Computer Based Math, uma empresa focada na revisão do ensino da matemática que lançou há dois anos o seu programa piloto numa parceria com o Governo da Estônia.

Em 2010, Wolfram chamou a atenção de educadores e especialistas em educação de várias partes do mundo com sua palestra na TED intitulada Como ensinar a matemática do mundo real às crianças, que teve mais de 1,5 milhão de reproduções e na qual analisa os motivos pelos quais os estudantes perderam o interesse pela disciplina que está por trás das “mais emocionantes criações da humanidade”, desde os foguetes até as bolsas de valores.

Um excesso de horas dedicadas a aprender a calcular grandes equações e fazer contas em geral. Essa é a grande falha, segundo Wolfram, que aposta na introdução da computação nas salas de aula, deixando que as máquinas façam os cálculos.

Pergunta. Se as crianças não aprenderem a calcular, fazendo as operações com o computador, como irão entender o que estão fazendo?

Resposta. Os matemáticos vão me odiar por dizer isto, mas antes da existência dos computadores a matemática não era muito útil no dia a dia, para a vida em geral. Como em qualquer campo em que se utilizam muitos dados, como a física, a biologia ou a saúde, a computação elevou a matemática um novo patamar. Os problemas reais do século XXI só podem ser solucionados com o uso do computador, por isso ele deve entrar no sistema educacional como uma parte fundamental da disciplina de matemática. Não tem mais sentido que as crianças façam cálculos de equações de segundo grau em sala de aula; é preciso ensiná-las a interpretar os dados e a explorar a matemática em toda a sua utilidade. Tudo bem ensinar o seu funcionamento básico, mas complicar isso tudo até o esgotamento é uma estratégia equivocada que distancia o aluno da disciplina para o resto da vida. Basta dar o exemplo da condução: não é preciso entender o funcionamento do motor para dirigir um carro.

P. Alguns especialistas dizem que o cálculo ajuda a apreender o sentido dos números e constitui uma boa ferramenta para treinar a tomada de decisões.

R. Quando foi a última vez que você multiplicou 3/17 por 2/15? Provavelmente aprendeu a fazer isso na escola, mas nunca mais voltou a fazer essa conta. Muitos especialistas dirão que ao multiplicar frações você aprende, mas, na verdade, está apenas relembrando um determinado procedimento. Na verdade, não entende para o que faz isso, nem para que isso serve. Um exemplo bastante simples: na equação x+2=4, lhe ensinaram que se você passar o 2 para a direita, o sinal muda e se transforma em menos 2. Nesse caso você também não entende o que está fazendo. A matemática tradicional já não faz sentido e provavelmente 80% do conteúdo das aulas não é útil e você jamais utilizará fora da escola.

P. Alguém poderia objetar que deixar que o computador faça os cálculos na idade de aprendizado é coisa de preguiçoso.

R. Tentar saber como é que o computador funciona não requer menos trabalho para o cérebro. Muito pelo contrário. Os problemas a serem resolvidos são muito mais complexos, e é aí que as crianças deveriam ser treinadas. A programação é algo que hoje equivaleria ao cálculo à mão. Saber dizer ao computador de forma muito precisa, com códigos e números, o que ele tem de fazer. Matemática, programação e raciocínio computacional devem fazer parte de uma mesma disciplina.

P. Poderia dar um exemplo de uma situação da vida real do que o senhor está falando?

R. Se eu lhe mostro os dados de dois sites e pergunto qual dos dois funciona melhor, a primeira pergunta que você deve fazer é o que significa melhor. Pode ser o tempo que os usuários passam em cada um deles ou as vezes que têm de clicar em algumas das abas... No mundo real, você pode usar a machine learning ou a análise estatística para medir e analisar resultados. Escolher qual opção funciona melhor em cada caso é complicado, e esse tipo de conhecimento não é ensinado na escola. A matemática é muito mais do que cálculos, embora seja compreensível que durante centenas de anos tenhamos dado tanta importância a isso, pois só havia uma forma de fazê-lo: à mão. Acontece que a matemática se libertou do cálculo, mas essa libertação ainda não chegou ao ensino.

P. Sua empresa reinventou a disciplina da matemática, introduzindo a computação e novas habilidades a serem avaliadas, como a comunicação matemática. Como foi que conseguiu convencer o Governo da Estônia a implantar essa concepção nas escolas públicas?

R. Com 1,3 milhão de habitantes, a Estônia é considerado o país mais digitalizado da Europa. Seus habitantes podem votar, pagar impostos, acessar arquivos médicos ou registrar uma empresa a partir de seus computadores caseiros em poucos minutos. No último relatório PISA, o país ultrapassou os finlandeses em ciências e matemática e se tornou a nova referência em termos de inovação educacional na Europa. Há três anos, eu conheci em um colóquio o seu Ministro da Educação, que é físico. Dois anos depois, lançamos o primeiro projeto piloto, que está sendo adotado em 10% das escolas públicas do país. Focamos a disciplina, no caso dos estudantes do ensino médio, em probabilidade e estatística e mudamos o sistema de avaliação. Os alunos aprendem a resolver questões reais, como, por exemplo: as meninas são melhores em matemática? Minha estatura está na média? Estamos conversando também com a Irlanda e com a Austrália.

P. Já tentou oferecer o seu programa a escolas inovadoras do Reino Unido?

R. O colégio frequentado pela minha filha, que tem 13 anos, modernizou a disciplina de história. Na nossa época, costumávamos decorar datas e fatos históricos. Agora, o foco está em como pesquisar. O seu primeiro trabalho foi analisar a história da própria escola. O currículo de matemática, porém, continua intocado e estancado. A barreira fundamental, para as escolas, é o diploma; atingir os padrões de conhecimento predeterminados para poder entrar na faculdade. Um fato chama atenção: temos detectado que os países que ocupam as melhores posições no PISA são aqueles que estão mais abertos às mudanças, enquanto os outros, como no caso da Espanha, que está estagnada há 15 anos na mesma posição, são mais resistentes a elas.

* - texto publicado na versão brasileira do periódico El Pais em 03 de novembro de 2017

terça-feira, 8 de maio de 2018

Chances de fraude em provas do Enem

www.fraud-magazine.com

O título desta postagem é uma alusão a uma matéria publicada no mês passada no jornal Folha de São Paulo. O estudo referido foi realizado por uma equipe de estatísticos do DataFolha, instituto ligado à Folha de São Paulo que cuida de pesquisas de opinião. Esse estudo procurou levantar indícios de fraudes a partir dos resultados das provas realizadas. 

O estudo é baseado em contas usando probabilidade sobre as chances de coincidências. Como exemplo, imagine uma única questão com 5 opções de resposta e que as chances de qualquer candidato responder as 5 opções são as mesmas (a seguir revisaremos essa hipótese). Em assim sendo, 2 candidatos quaisquer que não interajam podem ambos responder a opção A com probabilidade 4% (= 20% x 20%). Contas similares que fazem comparação de padrões são rotineiramente feitas para testar comportamento suspeito em eleições mundo afora. Um exemplo dessas contas foram tratadas em uma postagem recente aqui no StatPop, por causa das suspeições levantadas sobre a famosa urna 7 das eleições presidenciais do clube Vasco da Gama no ano passado.

Se pensarmos em uma questão fácil e/ou em candidatos com boa proficiência, é claro que as chances de responder corretamente a questão subirão bastante, dos 20% para algo possivelmente acima dos 50%. Quanto mais fácil for a questão, maiores são as chances de um bom candidato acertar a questão. Analogamente, quanto mais habilitado for o candidato maiores são as chances dele acertar a uma questão fácil. 

Pensando em um bom candidato com uma chance de acertar uma questão fácil em 60%, as chances de 2 candidatos quaisquer errarem a essa questão é de 16% (= 40% x 40%). Já as chances de ambos errarem com a mesma resposta (dentre as 4 opções de erro) caem para 1% (=10% x 10%). Nesses casos, a chance de coincidência de acerto é 16 vezes mais provável que as chances de coincidência de erro. Aplicando essa mesma idéia a 8 questões fáceis, as chances de 2 bons candidatos quaisquer errarem exatamente da mesma forma exatamente essas questões caem para desprezíveis 0,00000000000001% (= 1% x 1% x 1% x 1% x 1% x 1% x 1% x 1%). Ou seja, isso acontece em média 1 vez a cada 10.000.000.000.000.000 de pares de candidatos.

Para quantificar essas comparações, imagine que candidatos bons são aqueles com desempenho entre os 10% melhores. [E faz sentido focar nesse universo pois são os que disputam as vagas em carreiras mais concorridas, como Medicina e Engenharia.] Para um universo de 4 milhões de candidatos, isso dá uma sub-população de 400.000 candidatos e portanto tem-se um total de 80.000.000.000 (= 400.000 x 400.000 /2 ) pares de bons candidatos. Esse número de pares é 250.000 vezes menor do que o número de possíveis pares necessários para se ter em média 1 coincidência desse tipo. Ou seja, é extremamente improvável que 2 candidatos bons errem da mesma maneira a 8 questões fáceis. Se isso acontece com alguma frequência, ainda que baixa, o mais provável é que haja alguma forma de dependência entre os padrões de resposta e fraudes surgem como uma possibilidade a ser investigada. 

Essas contas simples são uma possível base para os cálculos feitos para esse tipo de situação. Pensem agora na situação real onde ao invés de 8 questões, trabalha-se no ENEM com um universo de 180 questões. Os números sobre a probabilidade de coincidência de padrões são ainda mais baixas mesmo se considerarmos coincidências incompletas (por exemplo, permitindo discordâncias em até 10 das 180 questões). 

É claro que existe muito espaço para aprimoramento dessas contas para acomodar adequadamente os efeitos do nível de facilidade da questão e da habilidade do candidato. Nessa parte, entrou o expertise dos estatísticos do DataFolha. Infelizmente, a matéria fala muito pouco sobre como essa acomodação foi feita e o próprio site do DataFolha também é lacônico no que diz respeito à metodologia utilizada. A informação é fornecida apenas na forma qualitativa descrita acima, embora também faça menção à metodologia usada na empresa Caveon, especializada em tecnologia de segurança.

A forma coloquial de apresentação usada pelo jornalista que redigiu a matéria também causou algum incômodo em alguns estatísticos pelo uso impreciso de alguns conceitos. Isso é perfeitamente compreensível tendo em vista o perfil esperado do leitor dessa matéria. Mas não me parece que a matéria tenha cometido algum pecado capital. De todo modo, cabe aos estatísticos supervisionar para que excessos que possam ser usados por leigos não deturpem o sentido original do trabalho realizado.