terça-feira, 16 de janeiro de 2018

Uso e abuso dos números - uma réplica



http://pit935.blogspot.com.br/2012/11/concentracao-de-renda-no-brasil.html

por Rodrigo Targino*

Só pra botar um pouco de lenha na fogueira faço uma pergunta:
O quão confiáveis são os dados de renda compilados pela Andifes?

Vocês mesmo mencionam (com razão!) que "verificar quem pode ou não pagar (uma operação complexa)" teria custos. Nos 6 anos que passei como estudante na UFRJ não me recordo de nenhum censo entre os alunos. Imagino, portanto, que esses dados sejam de alguma "renda informada", provavelmente em um dos inúmeros formulários que os alunos preenchem quando fazem o vestibular/ENEM/inscrição.

Sendo a renda uma "renda informada", vejo pelo menos dois problemas simples: (1) o candidato/aluno não sabe a renda da sua família e (2) dada a eterna discussão sobre cobrança de mensalidades dos alunos de "alta renda" o candidato/aluno tem um incentivo para diminuir sua renda familiar.

A única informação que encontrei sobre as pesquisas da Andifes foi o seguinte texto, que me leva a crer que houve uma pesquisa por amostragem:

HISTÓRICO

A última pesquisa realizada pelo ANDIFES foi em 2010 e teve a participação de estudantes de 56 instituições federais de ensino superior. Naquele ano, a pesquisa constatou que 43,74% dos alunos das universidades federais pertenciam às classes C, D e E; e que o percentual de estudantes de raça/cor/etnia preta aumentou de 5,9% em 2004 (período da pesquisa anterior) para 8,7%, em 2010."

http://www.andifes.org.br/politicas-de-expansao-e-inclusao-contribuem-para-que-as-classes-d-e-e-sejam-a-maioria-dos-estudantes-das-universidades-federais/

Minha experiência diz também que a variabilidade de renda entre os alunos das IFES é muito grande, tanto dentro da mesma universidade (Eng. Produção vs Letras, por exemplo), como entre universidades. Acho importante manter isso em mente, e lembrar que alguma forma de cobrança em IFES geraria uma transferência de renda entre cursos/IFES "ricas" para "pobres". Esse tipo de política pública poderia dar isenções para cursos/IFES sabidamente de "baixa renda", canalizando alunos de mais alta renda para cursos gratuitos, como Licenciaturas, por exemplo.


* - Rodrigo Targino é professor da Escola de Matemática Aplicada, da Fundação Getulio Vargas.

terça-feira, 9 de janeiro de 2018

Usos e abusos dos números*

http://pit935.blogspot.com.br/2012/11/concentracao-de-renda-no-brasil.html

por Hedibert Lopes e Tatiana Roque§

A regressividade dos gastos com ensino superior público é apontada frequentemente como justificativa para a cobrança de mensalidades. O relatório recente do Banco Mundial afirma, por exemplo, que 65% dos estudantes das universidades federais estão entre os 40% mais ricos. Quem são esses "mais ricos"? 

Os dados da Pesquisa Nacional por Amostra de Domicílios de 2015 mostram que nesse grupo de 40% "mais ricos" estão pessoas com renda per capita média de R$ 960,00. O Banco Mundial não define a partir de que renda se pode designar um grupo como o dos mais ricos, nem justifica o foco nos 40%. Poderíamos selecionar os 30% mais ricos, que ganham acima de R$ 1.200,00; ou os 20%, que ganham acima de R$ 1.700,00. A renda média desses grupos difere pouco. De fato, a distância só aumenta quando selecionamos os 10% mais ricos. 

Suponhamos que fossem cobradas mensalidades dos estudantes que realmente têm condições de pagar, escalonadas de acordo com a renda. Usando os dados da Associação Nacional dos Dirigentes das Instituições Federais de Ensino Superior (Andifes), verificamos que 81% dos estudantes vêm de famílias com renda bruta familiar inferior a R$ 6.500,00, logo não poderiam pagar. Na faixa de renda familiar bruta entre R$ 6.500,00 e R$ 9.300,00 estão 9% dos estudantes (de um total de aproximadamente 1 milhão, somando-se todas as universidades federais do país). Superestimando a capacidade de desembolso em 15%, essas famílias pagariam uma mensalidade de R$ 1.200,00, perfazendo R$ 1,3 bilhão no total. Já a faixa com renda familiar bruta acima de R$ 9.300,00 compreende 10% dos estudantes, mas é preciso analisar detalhadamente a distribuição de renda nessa faixa. 

O estudo da desigualdade feito pela Oxfam mostra que, no topo da população, reproduz-se a aberrante desigualdade brasileira: as famílias 10% mais ricas têm rendimentos médios de R$ 18.000,00, sendo o rendimento médio das famílias 1% mais ricas de R$ 160 mil. Logo, mantendo nossa estimativa do valor da mensalidade em 15% da renda familiar, obtemos que 9% dos estudantes pagariam R$ 2.700. Já os 1% mais ricos pagariam R$ 4 mil - o valor da mensalidade nas melhores universidades privadas. Somando-se, ao fim, todas as mensalidades possíveis, chegamos a um total de R$ 4,7 bilhões, ou seja, em torno de 11% do orçamento anual das universidades federais (de R$ 41 bilhões). Devemos lembrar, contudo, que é necessário subtrair desse percentual o custo de se verificar quem pode ou não pagar (uma operação complexa), além do custo de administrar a cobrança. Na verdade, implementar medidas para melhorar a administração da universidade - o que não contradiz seu caráter público - poderia ser bem mais efetivo. 

Resumindo, cobrar mensalidades ajudaria pouco a enxugar o orçamento público e o Banco Mundial parece ter forçado os números para nos convencer do contrário. O cerne da disputa está nas faixas intermediárias, que nem podem realmente pagar nem entram na categoria de pobres (para fazer jus a bolsas). A solução ventilada para esse grupo de renda média é o crédito, que já mostrou efeitos perversos nos EUA e na Inglaterra, levando a um grave endividamento de  estudantes - comprometendo o futuro de jovens que sequer ingressaram no mercado de trabalho. 

Do ponto de vista matemático, o problema é que a curva de distribuição de renda no Brasil é extremamente assimétrica (quase linear até o decil mais alto), em nada semelhante a uma curva normal. 

Dito de modo menos técnico, as faixas de renda intermediárias dos brasileiros são muito similares - e excessivamente baixas. Isso torna pouco rigorosa a separação entre "mais ricos" e "mais pobres", sob o risco de distinguir quem ganha R$ 960 por mês de quem ganha R$ 800. Só um critério qualitativo pode estabelecer a partir de que renda alguém pode ser considerado "não pobre". 

É positiva a tendência de analisar políticas públicas usando estatísticas. Deve-se tomar cuidado, todavia, com a dissociação entre informações quantitativas e qualitativas. A postura científica aconselha o uso de estatísticas para confirmar ou refutar perguntas em aberto. Mas as definições dos termos do problema, com impactos sociais significativos, precisam levar em conta o ideal de sociedade que se quer construir. 

Se o objetivo é corrigir as desigualdades do ensino superior público, já temos uma política de sucesso: as cotas. De 2010 a 2014, o percentual de estudantes com renda familiar de até 3 salários mínimos aumentou 27%, ao passo que a faixa acima de 7 salários diminuiu 37%. A política de cotas ainda está em fase de implementação e seus efeitos plenos só poderão ser medidos em 2018. Tudo leva a crer que o melhor caminho é expandir e aprimorar essa política que, em virtude do comprovado aumento salarial dos formados, provoca uma efetiva e duradoura redução das desigualdades. 

* - texto publicado no Valor Econômico, em 22 de dezembro de 2017

§ - Hedibert Lopes é professor titular de Estatística e Econometria do Insper e foi professor da Booth School of Business da Universidade de Chicago e do Instituto de Matemática da UFRJ. Tatiana Roque é professora do Instituto de Matemática da UFRJ e foi presidente da Associação dos Docentes da UFRJ (ADUFRJ).

terça-feira, 19 de dezembro de 2017

Matemáticos medem infinitos e descobrem que são iguais*

http://www.colorscollective.com/


por Kevin Hartnett


Em um avanço que refuta décadas de sabedoria convencional, dois matemáticos mostraram que duas variantes diferentes do infinito são, na verdade, do mesmo tamanho. O avanço toca em um dos problemas mais famosos e intratáveis ​​na matemática: se existem infinitos entre o tamanho infinito dos números naturais e o tamanho infinito maior dos números reais.

O problema foi identificado pela primeira vez há mais de um século. Na época, os matemáticos sabiam que "os números reais são maiores que os números naturais, mas não quanto maiores. É o próximo tamanho maior, ou há um tamanho entre eles?", disse Maryanthe Malliaris, da Universidade de Chicago, co-autora do novo trabalho junto com Saharon Shelah da Universidade Hebraica de Jerusalém e da Universidade Rutgers.

Em seu novo trabalho, Malliaris e Shelah resolvem uma questão relacionada de 70 anos sobre se um infinito (chamemos de p) é menor do que outro infinito (chamemos de t). Eles provaram que os dois são de fato iguais, para a surpresa dos matemáticos.

"Foi certamente minha opinião, e a opinião geral, que p deve ser menor do que t", disse Shelah.

Malliaris e Shelah publicaram sua prova no ano passado no Journal of the American Mathematical Society e foram homenageados em julho passado com um dos principais prêmios no campo da teoria de conjuntos. Mas seu trabalho tem ramificações muito além da questão específica de como esses dois infinitos estão relacionados. Ele abre uma conexão inesperada entre os tamanhos de conjuntos infinitos e um esforço paralelo para mapear a complexidade das teorias matemáticas.

Muitos infinitos

A noção de infinito é flexível. Mas a idéia de que pode haver diferentes tamanhos de infinito? Essa é talvez a descoberta matemática mais contraditória já feita. Emerge, no entanto, de um jogo de correspondência, que mesmo as crianças pudessem entender.

Suponha que você tenha dois grupos de objetos ou dois "conjuntos", como os matemáticos os chamariam: um conjunto de carros e um conjunto de motoristas. Se houver exatamente um motorista para cada carro, sem carros vazios e sem motoristas deixados para trás, então você sabe que o número de carros é igual ao número de motoristas (mesmo se você não souber qual é esse número).

No final do século 19, o matemático alemão Georg Cantor capturou o espírito desta estratégia de correspondência na linguagem formal da matemática. Ele provou que dois conjuntos têm o mesmo tamanho, ou "cardinalidade", quando eles podem ser colocados em correspondência um a um com o outro - quando há exatamente um motorista para cada carro. Talvez mais surpreendentemente, ele mostrou que essa abordagem funciona para conjuntos infinitamente grandes também.

Em um avanço que refuta décadas de sabedoria convencional, dois matemáticos mostraram que duas variantes diferentes do infinito são, na verdade, do mesmo tamanho. O avanço toca em um dos problemas mais famosos e intratáveis ​​na matemática: se existem infinitos entre o tamanho infinito dos números naturais e o tamanho infinito maior dos números reais.

Considere os números naturais: 1, 2, 3 e assim por diante. O conjunto dos números naturais é infinito. Mas e quanto ao conjunto de apenas os números pares, ou apenas os números primos? Cada um desses conjuntos pareceria, em princípio, ser um subconjunto menor dos números naturais. E, de fato, em qualquer trecho finito da linha numérica, há cerca de metade de números pares como números naturais e ainda menos números primos.

No entanto, conjuntos infinitos se comportam de forma diferente. Cantor mostrou que há uma correspondência um-para-um entre os elementos de cada um desses conjuntos infinitos.

1 2 3 4 5 (números naturais)
2 4 6 8 10 (pares)
2 3 5 7 11 (primos)

Por isso, Cantor concluiu que os três conjuntos são do mesmo tamanho. Matemáticos chamam conjuntos desse tamanho "contáveis", porque você pode atribuir um número de contagem a cada elemento em cada conjunto.

Depois de estabelecer que os tamanhos de conjuntos infinitos podem ser comparados, colocando-os em correspondência um a um, Cantor fez um salto ainda maior: provou que alguns conjuntos infinitos são ainda maiores que o conjunto de números naturais.

Considere os números reais, que são todos os pontos na linha numérica. Os números reais às vezes são chamados de "continuum", refletindo a sua natureza contínua: não há espaço entre um número real e o próximo. Cantor conseguiu mostrar que os números reais não podem ser colocados em uma correspondência um-para-um com os números naturais: mesmo depois de você criar uma lista infinita para emparelhar números naturais com números reais, sempre é possível criar outro número real que não está na sua lista. Por isso, ele concluiu que o conjunto de números reais é maior do que o conjunto de números naturais. Assim, nasceu um segundo tipo de infinito: o incontavelmente infinito.

O que Cantor não conseguiu descobrir é se existe um tamanho intermediário do infinito - algo entre o tamanho dos números naturais contáveis ​​e os números reais incontáveis. Ele achou que não, uma conjectura agora conhecida como a hipótese do continuum.

Em 1900, o matemático alemão David Hilbert elaborou uma lista de 23 dos problemas mais importantes em matemática. Ele colocou a hipótese do continuum no topo. "Parecia uma pergunta extremamente urgente para se responder", disse Malliaris.

No século anterior, a questão revelou-se quase exclusivamente resistente aos melhores esforços dos matemáticos. Existem infinitos intermediários? Talvez nunca possamos saber.

Forçamento

Ao longo da primeira metade do século 20, os matemáticos tentaram resolver a hipótese do contínuo estudando diversos conjuntos infinitos que apareceram em muitas áreas da matemática. Eles esperavam que, comparando esses infinitos, eles poderiam começar a entender o espaço possivelmente não vazio entre o tamanho dos números naturais e o tamanho dos números reais.

Muitas das comparações provaram ser difíceis de serem feitas. Na década de 1960, o matemático Paul Cohen explicou o porquê. Cohen desenvolveu um método chamado "forçamento" que demonstrou que a hipótese do continuum é independente dos axiomas da matemática - isto é, não poderia ser comprovada dentro do quadro da teoria dos conjuntos. (O trabalho de Cohen complementou o trabalho de Kurt Gödel em 1940 que mostrou que a hipótese do continuum não poderia ser refutada nos axiomas usuais da matemática).

O trabalho de Cohen ganhou-lhe a Medalha Fields (uma das maiores honras das matemáticas) em 1966. Os matemáticos posteriormente usaram forçamento para resolver muitas das comparações entre infinitos que foram colocados durante o meio século anterior, mostrando que estes também não poderiam ser respondidos dentro do quadro da teoria dos conjuntos. (Especificamente, a teoria de conjunto de Zermelo-Fraenkel mais o axioma de escolha.)

Contudo, alguns problemas permaneceram, incluindo uma questão da década de 1940 sobre se p é igual a t. Tanto p como t são ordens de infinito que quantificam o tamanho mínimo de coleções de subconjuntos dos números naturais de maneiras precisas (e aparentemente únicas).

Os detalhes dos dois tamanhos não são muito importantes. O que é mais importante é que os matemáticos rapidamente descobriram duas coisas sobre os tamanhos de p e t. Primeiro, ambos os conjuntos são maiores do que os números naturais. Em segundo lugar, p é sempre menor ou igual a t. Portanto, se p for menor que t, então p seria um infinito intermediário - algo entre o tamanho dos números naturais e o tamanho dos números reais. A hipótese do continuum seria falsa.

Os matemáticos tenderam a assumir que a relação entre p e t não poderia ser comprovada no âmbito da teoria dos conjuntos, mas também não conseguiram estabelecer a independência do problema. A relação entre p e t permaneceu nesse estado indeterminado por décadas. Quando Malliaris e Shelah encontraram uma maneira de resolvê-lo, era só porque eles estavam procurando por outra coisa.

Uma Ordem de Complexidade

Ao mesmo tempo que Paul Cohen estava forçando a hipótese do continuum além do alcance da matemática, uma linha de trabalho muito diferente estava começando no campo da teoria do modelo.

Para um teórico de modelo, uma "teoria" é o conjunto de axiomas, ou regras, que definem uma área de matemática. Você pode pensar na teoria do modelo como uma maneira de classificar as teorias matemáticas - uma exploração do código fonte da matemática. "Eu acho que a razão pela qual as pessoas estão interessadas em classificar teorias é que eles querem entender o que realmente está causando que certas coisas aconteçam em áreas de matemática muito diferentes", disse H. Jerome Keisler, professor emérito de Matemática na Universidade de Wisconsin, Madison.

Em 1967, Keisler introduziu o que agora é chamado de ordem de Keisler, que procura classificar as teorias matemáticas com base na sua complexidade. Ele propôs uma técnica para medir a complexidade e conseguiu provar que as teorias matemáticas podem ser classificadas em pelo menos duas classes: as que são minimamente complexas e as que são maximamente complexas. "Foi um pequeno ponto de partida, mas meu sentimento nesse ponto era que haveria infinitas classes", disse Keisler.

Nem sempre é óbvio o que significa que uma teoria seja complexa. Muito trabalho nessa área é motivado em parte por um desejo de entender essa questão. Keisler descreve a complexidade como a variedade de coisas que podem acontecer em uma teoria - e as teorias em que mais coisas podem acontecer são mais complexas do que teorias em que poucas coisas podem acontecer.

Um pouco mais de uma década depois de Keisler ter apresentado sua ordem, Shelah publicou um livro influente, que incluiu um importante capítulo que mostra que há saltos naturais na complexidade - linhas divisórias que distinguem teorias mais complexas de menos complexas. Depois disso, pouco progresso foi feito na ordem da Keisler por 30 anos.

Então, em sua tese de doutorado de 2009 e outros artigos iniciais, Malliaris reabriu o trabalho na ordem de Keisler e forneceu novas evidências de seu poder como um programa de classificação. Em 2011, ela e Shelah começaram a trabalhar juntos para entender melhor a estrutura da ordem. Um dos seus objetivos era identificar mais sobre as propriedades que tornam uma teoria maximamente complexa de acordo com o critério de Keisler.

Malliaris e Shelah observaram duas propriedades em particular. Eles já sabiam que a primeira causava complexidade máxima. Eles queriam saber se a segunda também fazia. À medida que seu trabalho progrediu, eles perceberam que esta questão era paralela à questão de saber se p e t são iguais. Em 2016, Malliaris e Shelah publicaram um artigo de 60 páginas que resolveu ambos os problemas: provaram que as duas propriedades são igualmente complexas (ambas causam a máxima complexidade), e provaram que p é igual a t.

"De alguma forma tudo se alinhou", disse Malliaris. "É uma constelação de coisas que foram resolvidas".

Em julho passado, Malliaris e Shelah receberam a medalha de Hausdorff, um dos principais prêmios da teoria dos conjuntos. A honra reflete a natureza surpreendente e surpreendentemente poderosa de suas provas. A maioria dos matemáticos esperava que p fosse menor do que t, e que uma prova dessa desigualdade seria impossível no âmbito da teoria dos conjuntos. Malliaris e Shelah provaram que os dois infinitos são iguais. Seu trabalho também revelou que a relação entre p e t tem muito mais profundidade do que os matemáticos tinham percebido.

"Eu acho que as pessoas pensavam que se, por acaso, os dois cardinais fossem prováveis como iguais, a prova talvez fosse surpreendente, mas seria um argumento curto e inteligente que não envolve a construção de alguma maquinária real", disse Justin Moore, matemático da Universidade de Cornell, que publicou uma breve visão geral da prova de Mallaria e de Shelah.

Em vez disso, Malliaris e Shelah provaram que p e t são iguais ao cortar um caminho entre a teoria do modelo e a teoria dos conjuntos, que já está abrindo novas fronteiras de pesquisa em ambos os campos. Seu trabalho também finalmente coloca um problema que os matemáticos esperavam que ajudasse a resolver a hipótese do continuum. Ainda assim, a sensação esmagadora entre os especialistas é que essa proposição, aparentemente insolúvel, é falsa: enquanto o infinito é estranho de muitas maneiras, seria quase tão estranho se não houvesse muitos mais tamanhos do que os que já encontramos.


* - texto publicado na Quanta Magazine, em 12 de setembro de 2017

terça-feira, 12 de dezembro de 2017

Todo o barulho da grande festa da Inteligência Artificial*

www.economist.com/news/science-and-technology/21732081-machine-learnings-big-event-all-buzz-ais-big-shindig?frsc=dg%7Ce

"As conferências corporativas ainda são detestáveis". Então, leia a T-shirt exibida por Ben Recht, professor da Universidade da Califórnia, em Berkeley, quando ele recebeu um prêmio na conferência Neural Information Processing Systems (NIPS) nesta semana. O Dr. Recht, retratado acima dando aula, estava protestando contra a inundação de dinheiro corporativo que derrama nas NIPS, apontando as palavras que Kurt Cobain escreveu em uma camiseta quando ele apareceu na capa da revista Rolling Stone em 1992.

"Já não é uma conferência acadêmica", diz Recht com saudade, empoleirado no sol californiano nos degraus do Long Beach Convention Center. Ele se queixa de que as pessoas gostam mais de ir às festas patrocinadas pelas empresas nos dias de hoje (o Flo Rida da Intel, um rapper), do que às  sessões de apresentação de pôsteres. Inteligência artifical (IA), ao que parece, é o novo rock and roll.

O NIPS começou em 1987 como uma pequena e humilde conferência sobre um obscuro ramo de aprendizado de máquinas chamado redes neurais. Passou os primeiros 13 anos de sua vida em Denver, depois mudou-se para Vancouver por uma década. Costumava ser um evento tranquilo, com algumas centenas de cientistas da informática/matemática juntando-se para explicar como resolveram algum problema abstrato de uma nova maneira.

Então, na conferência de 2003, Geoffrey Hinton, um polêmico britânico e uma cabala de pesquisadores da IA ​​fundaram o grupo de trabalho Neural Computation & Perceptive Adaptive (NCAP). Como defensor das redes neurais, o Dr. Hinton e o grupo ajudaram a acelerar o ritmo da pesquisa em uma forma de aprendizado de máquina conhecida como aprendizado profundo (deep learning), levando a grandes avanços no reconhecimento de imagens em 2012. A aprendizagem profunda, que empilha muitas redes neurais uma em cima da outra para aprender os recursos de bancos de dados gigantes, agora alimenta as operações de processamento de imagem de empresas como o Facebook e o Google. À medida que as máquinas, treinadas com montes de dados para desenvolver algoritmos inteligentes, tornaram-se capazes de realizar cada vez mais tarefas, o interesse cresceu. O Google patrocinou o NIPS até 2010, e este ano, todas as maiores empresas de tecnologia do mundo podem ser encontradas na lista de patrocinadores.

Para os 7,850 participantes, o grande sorteio são os algoritmos apresentados nos salões com audiência predominantemente masculina (90% dos autores de documentos NIPS eram do sexo masculino este ano, um desequilíbrio de gênero amplamente encontrado na ciência - ver artigo). Eles se amparam em cada palavra de sabedoria IA transmitida por luminares do Google e da Microsoft; despejam-se sobre um número vertiginoso de avanços (apresentados em mais de 670 artigos publicados) de Facebook, DeepMind (uma unidade do Google) e Tencent; e devoram histórias de novas maneiras de treinar máquinas para executar tarefas úteis.

Essas histórias não são apenas dos grandes nomes da tecnologia, mas também de empresas mais antigas, como o Target, um varejista americano de tijolos e argamassa. Brian Copeland, um dos cientistas de dados da empresa em Minneapolis, diz que está tentando aplicar algoritmos de visão de máquina aos inputs das câmaras de vídeo nas lojas da Target. Os varejistas empregam especialistas em comportamento para assistir esses vídeos para que eles possam descobrir como as pessoas usam suas lojas e onde colocar os bens para a melhor vantagem. Com os algoritmos certos, o Target poderia automatizar o processo e executá-lo em tempo real.

Muitas empresas também apresentaram um show como parte da batalha pelo talento de IA. Eles incluíram o Mercedes-Benz, um patrocinador pela primeira vez, que está tentando recrutar cientistas de dados para trabalhar em seus carros autônomos. O produtor alemão já está no caminho certo, com Rigel Smiroldo, o chefe de aprendizado de máquina da empresa na América do Norte, feliz em recitar como o Mercedes Classe A que ele dirigiu para ir à NIPS lidou com 250 milhas de rodovias sem que ele precisasse intervir.

Sim, não e agora, talvez

O Sr. Smiroldo colocou o dedo em uma das principais tendências no NIPS deste ano: a fusão das estatísticas bayesianas com o aprendizado profundo. Em vez de algoritmos que apresentam resultados "sim" ou "não" deterministas para consultas, novos sistemas podem oferecer inferências mais probabilísticas sobre o mundo. Isso é particularmente útil para a Mercedes-Benz, que precisa de carros sem condutor que possam lidar com situações difíceis. Em vez de um algoritmo simplesmente determinando se um objeto na estrada é um pedestre ou uma bolsa de plástico, um sistema que usa a aprendizagem bayesiana oferece uma visão mais matizada que permitirá que os sistemas IA gerenciem melhor a incerteza.

A Netflix já usa ciência dos dados para recomendar programas aos seus assinantes. Nirmal Govind, que desenvolve algoritmos na empresa, estava atento ao NIPS para novas versões melhoradas que podem lidar com imagens e vídeos. A empresa está particularmente interessada em automatizar a geração de material promocional em torno de seus programas originais e encontrar maneiras de tornar esse material mais atraente.

Além dos algoritmos fundamentais que as empresas esperam aplicar às suas próprias operações, o NIPS também abriga pesquisa aplicada, particularmente nos cuidados de saúde e na biologia. Becks Simpson da Maxwell MRI, uma startup de Brisbane na Austrália, mostrou uma maneira de combinar imagens de ressonância magnética com aprendizado profundo para melhorar o diagnóstico de câncer de próstata. Elisabeth Rumetshofer da Johannes Kepler University Linz apresentou um sistema que poderia reconhecer e monitorar automaticamente as proteínas nas células, ajudando a trazer luz à biologia subjacente. Uma equipe da Duke University, na Carolina do Norte, usou a aprendizagem de máquinas para detectar câncer cervical usando automaticamente um colposcópio de bolso, com o mesmo nível de precisão que um especialista humano. Alguns usaram IA para dar notas aos médicos para estimar as suas chances de que um paciente seja readmitido no hospital, categorizar e entender as reações alérgicas de crianças e modelar a distribuição geográfica da naloxona, o que pode ajudar a bloquear os efeitos dos opióides, e para obter um melhor controle sobre o uso de tais drogas.

Outras aplicações variaram de pesquisadores da Universidade Federal de Lokoja, na Nigéria, tentando utilizar o aprendizado de máquinas para identificar potenciais terroristas suicidas ao Instituto Donders na Holanda, apresentando um sistema que pode reconstruir imagens de rostos que uma pessoa vê simplesmente escaneando seus cérebros. Os pesquisadores do Google usaram a aprendizagem de máquinas para ocultar uma imagem completa dentro de outra imagem do mesmo tamanho. O que eles podem fazer com isso ainda está para ser explicado.

O novo hardware para aprendizagem de máquinas também estava em exibição. Na sua festa, a Intel revelou seu último chip dedicado a resolver problemas de IA. NVIDIA, um rival cujo preço da ação aumentou nove vezes nos últimos três anos, graças às vendas de suas unidades de processamento gráfico para aprendizado profundo, apresentou seus últimos produtos. Graphcore, uma startup britânica, causou particular sucesso. Apresentou benchmarks para o desempenho do seu chip em tarefas comuns de aprendizado de máquina, que triplicaram as velocidades de reconhecimento de imagem e entregaram uma melhoria de 200 vezes maior em relação à NVIDIA para os tipos de aprendizado de máquinas necessários para aplicações de reconhecimento e tradução de fala.

Entre os mais antigos dos NIPS, especialmente aqueles que podem se lembrar de suas origens, há a sensação de que a obsessão corporativa com o aprendizado automático de máquina não durará. Eles não deveriam estar tão certos disso. Os sistemas que estão sendo desenvolvidos estão apenas começando a ser uma tecnologia amplamente útil, e os novos algoritmos apresentados na conferência provavelmente serão adotados rapidamente. Computadores poderosos e grandes volumes de dados estão à espera de exploração. As empresas mais valiosas do mundo compreenderam o poder da aprendizagem de máquinas, e é improvável que elas desapareçam.

* - Texto publicado no The Economist, no dia 06 de dezembro de 2017

terça-feira, 5 de dezembro de 2017

Dados presence-only

https://www.livescience.com/30366-atlantic-forest-jungle-brazil-ecosystem.html

A expressão do título se refere a um tipo de dado muito comum em Ecologia, e que devido à sua importância pode ser identificado com uma área da Ecologia. Ela se refere às análises comumente feitas na Ecologia onde apenas as presenças de espécies animais e vegetais são registradas. Isso acontece porque algumas espécies não são muito abundantes na região de interesse. Portanto, encontra-las é uma tarefa difícil e que envolve muito planejamento.

Um exemplo ajuda a ilustrar o problema envolvido nesse tipo de estudo. Vamos pensar na busca de espécies raras na floresta amazônica. Estamos falando aqui de uma região de dimensões continentais e de muito difícil acesso a toda sua extensão. Os ecologistas buscam obter evidências de ocorrências dessas espécies através de estudos preliminares e partem em exploração no campo tendo vista essas considerações. As ocorrências da espécie que forem observadas são registradas e é apenas isso que tem-se reportado. Assim, apenas as presenças são registradas, caracterizando os dados de apenas presença ou presence-only.

E porque esse tipo de tipo de estudo chama a atenção, atraindo alguma notoriedade? Um dos preceitos básicos de qualquer estudo do efeito de alguma característica é o contraste com a ausência dessa característica. Assim, ao estudar a eficácia de algum novo medicamento, faz-se a comparação de grupos de indivíduos similares que são divididos entre o tratamento usual e o novo tratamento. É essa comparação que permite saber qual o verdadeiro efeito do novo tratamento. Sem saber o que acontece com o tratamento usual, não é possível afirmar se o tratamento novo é benéfico ou prejudicial à saúde.

Assim, para inferir adequadamente o que faz com que presenças são observadas é preciso ter também os resultados associados às ausências. No caso de Ecologia, para saber que fatores (solo, clima, ... ) afetam ou facilitam a ocorrência da(s) espécie(s) de interesse, é importante saber se um determinado fator está associado à ocorrência da espécie. Por exemplo, a salinidade do solo pode estar associada à observação de espécimes. Para comprovar isso, teríamos de observar a presença de espécimes com valores altos da salinidade mas também a ausência de espécimes com valores baixos de salinidade do solo.  Se observamos apenas as presenças, não temos garantias da relevância da salinidade do solo para explicar a presença da espécie.

Apesar de tudo disso, a dificuldade na obtenção de dados completos (com ausências) fez com que uma série de estudos começassem a ser desenvolvidos apenas com os registros de presença. Várias diferentes abordagens forma propostas com esse fim. Entre essas podem ser citadas máxima entropiaregressão logística e processos pontuais. Muitas dessa análises se baseiam na hipótese de que (todos os) locais onde não foi observada presença são locais de ausência! Alguns estudos mostraram a similaridade entre muitas dessas propostas. 

Essas propostas começaram a ser disseminadas na comunidade de Ecologia e tem sido rotineiramente utilizadas por ecologistas. A particularidade desse tipo de análise chamou a atenção de estatísticos e atraiu pesquisadores da área. Isso não significa que o assunto ficou livre de controvérsia. Uma das críticas mais contundentes e respeitadas pode ser encontrada aqui

Essas criticas mostram que, mesmo surpreendente à primeira vista, alguns resultados se mostram robustos e fornecem resultados parcialmente adequados. A parte que parece ser adequada é a estimação da relevância/significância de efeitos de variáveis de solo/climáticas na ocorrência. Isso é compreensível pois revela (de forma incompleta, é verdade) associação entre valores dos fatores e a ocorrência da espécie. A parte que parece ser inadequada é a estimação da prevalência da espécie. Isso também é compreensível pois saber quantas espécies existem em sub-regiões não fornece informação suficiente para extrapolação para toda a região de interesse, especialmente se a cobertura das sub-regiões é muito menor que a região toda.

Alguns esforços tem sido feitos na direção de melhorar as análises. Isto é, já que não há como completar os dados com ausências adequadamente,  o que mais podemos fazer? Ou de outra forma, existe alguma outra fonte de informação que pode ser usada para compensar a ausência das ausências? Nessa direção, uma linha de estudo que tem sido adotada é incorporar várias espécies em uma análise conjunta. Com isso, obtém-se mais informação e permite-se análises mais confiáveis.

Outra linha que me parece promissora é a inclusão de informação sobre a acessibilidade aos locais onde foi observada a presença da espécie. Saber o que fez com que aqueles (e não outros locais) foram visitados pode fornecer informação útil para o estudo de que fatores afetam a presença de espécie de interesse. Existem ainda dificuldades na separação do que é efeito da ocorrência com relação a o que é efeito da observabilidade. Estudos para elaboração de propostas que resolvam ou minimizem essas dificuldades estão em curso neste momento. 

Nada disso entretanto invalida a importância de redirecionar a coleta de dados em direção à inclusão de ausências. esse procedimento é mais caro mas é mais cientificamente defensável. As áreas de planejamento ótimo e amostragem preferencial teriam muito a acrescentar com vistas à otimização de custos.

terça-feira, 28 de novembro de 2017

A produção de boa cerveja revolucionou a estatística matemática*

www.folha.uol.com.br/Getty Images

por Marcelo Viana, diretor do IMPA

Pesquisas eleitorais são feitas por meio de entrevistas a eleitores. Sejam pessoalmente, por telefone, e-mail ou outro meio, essas enquetes custam tempo e dinheiro. Está fora de questão entrevistar todo mundo, os pesquisadores precisam se contentar com uma pequena amostra de 1.000 ou 2.000 pessoas ou até menos. Como escolher esse grupo, de modo que o resultado seja representativo? E como avaliar quão representativo ele é, para um dado tamanho da amostra, como determinar a margem de erro da pesquisa?

Problemas semelhantes surgem o tempo todo nas mais diversas áreas de atividade. Ao longo de pouco mais de cem anos, foram desenvolvidas diversas ideias e técnicas que fazem desta área da estatística uma ferramenta poderosa, com aplicações bilionárias em todo o setor produtivo: controle de qualidade industrial, desenho eficaz de testes e muito mais. O que poucos sabem é que tudo começou motivado pelo nobre objetivo de produzir boa cerveja.

Ao final do século 19, a famosa Guiness, de Dublin, capital da Irlanda, era a maior cervejaria do mundo. Era também um fantástico local de trabalho: contratava os mais brilhantes jovens cientistas e lhes dava total liberdade para desenvolver suas ideias em proveito da empresa. Era a Google da época. Foi assim que William S. Gosset (1876 - 1937), recém-formado da Universidade de Oxford, foi contratado em 1889.

A Guiness estava expandindo a produção, tentando cortar custos, e a preocupação era manter a qualidade de sua lendária cerveja, densa, escura e amarga. A essa altura, a fábrica já consumia mais de 2.000 toneladas de lúpulo por ano –usado para perfumar a cerveja– e era impossível verificar a qualidade de todo o fornecimento. Os técnicos testavam por amostragem, mas não havia modo seguro de saber se as amostras eram suficientes, nem de interpretar os resultados. Se uma amostra dá resultado um pouco melhor do que outra, como saber se a diferença é significativa ou um mero acaso?

Gosset foi convidado a ajudar. A escolha parece ter sido pelo fato de que –por ter estudado um pouco de matemática em Oxford com o astrônomo real Sir George Airy (1801 - 1892) e outros professores– ele deveria ter "menos medo" desse tipo de tarefa que seus colegas químicos

De modo empírico, por experimentação, Gosset foi avaliando o grau de confiabilidade dos resultados de uma amostragem, duas etc. Deste modo, desenvolveu uma série de ideias que viriam a transformar esta área da ciência, chamada inferência estatística, em um instrumento bilionário. Seus chefes estavam eufóricos: as ideias de Gosset conferiam à Guiness uma grande vantagem competitiva sobre a concorrência.

Mas ele queria mais: ir além da experimentação e entender a matemática por trás das observações. Pediu e conseguiu da empresa o direito a passar um ano estudando e pesquisando com Karl Pearson (1857 - 1936), professor do renomado University College de Londres.

Ao final, Gosset estava ansioso para publicar seus resultados científicos, partilhá-los com todos. Mas a Guiness não queria abrir mão da vantagem estratégica. Após muita argumentação, consentiu em deixá-lo publicar os aspectos matemáticos do trabalho, desde que o fizesse sob pseudônimo: não sabendo que o autor era funcionário da Guiness, as outras cervejarias não se dariam conta do potencial comercial da matemática.

Modestamente, Gosset escolheu o pseudônimo Student ("estudante").

Tenho certeza que eu e os meus colegas de faculdade teríamos apreciado ainda mais a "distribuição t de Student" do curso de estatística se soubéssemos, então, da sua importância para a sublime ciência e arte da boa cerveja!

A genialidade e o potencial das ideias de Gosset foram reconhecidos por Sir Ronald Fisher (1890 - 1962), considerado juntamente com Pearson um dos fundadores da estatística. Fisher divulgou, desenvolveu e aprofundou muito essas ideias, mas Gosset continua muito menos conhecido do que merece. Até porque foi um sujeito muito legal: testemunhos o descrevem como "um gentleman", "muito agradável" e "humilde, com ótima personalidade". Gosset conseguiu até a façanha de ser amigo tanto de Pearson quanto de Fisher, dois senhores com egos gigantescos e que se detestavam profundamente.

Hoje em dia, os meios de comunicação estão cheios de informações estatísticas que, supostamente, tornam as notícias mais objetivas e confiáveis. Mas será que o público, e os próprios jornalistas, compreendem o significado dessas informações? Confira esta manchete de um jornal norte-americano: "Estatística mostra que gravidez na adolescência cai significativamente após os 25 anos de idade"...

O famoso escritor inglês H. G. Wells (1866 - 1946), autor de clássicos como "A máquina do tempo", "O homem invisível" e "A guerra dos mundos", escreveu que "o pensamento estatístico um dia será tão necessário para o exercício eficiente da cidadania como a capacidade de ler e escrever".

Uma das novidades mais refrescantes da Base Nacional Comum Curricular em discussão no Conselho Nacional da Educação é o reforço substancial do papel da estatística na nossa educação. Em pouco mais de um século, esta disciplina tornou-se a ciência matemática que se relaciona mais diretamente com o nosso quotidiano. Só por isso, ela já merece lugar de destaque nas nossas salas de aula, desde os primeiros anos do ensino fundamental.

===========================================================
* - texto publicado em 03/11/2017 no blog que o Marcelo Viana tem na Folha de São Paulo.

terça-feira, 21 de novembro de 2017

Eleições na UFMG

https://ufmg.br/eventos/visualizacao/apuracao-de-votos-das-eleicoes-para-o-reitorado

Encerrou-se no dia 10 de novembro a 1a etapa do processo de consulta ao eleitorado (constituído de professores, técnicos e estudantes) para definição do próximo Reitor da Universidade Federal de Minas Gerais (UFMG). Trata-se de uma das melhores universidades do país e com uma das mais consistentes taxas de crescimento científico no cenário nacional.

Havia 3 chapas inscritas e 1 delas (Chapa 2) é apoiada pela atual administração, sendo encabeçada pela Vice-Reitora da atual administração da universidade. Assim sendo, como comumente acontece em várias instituições, a consulta também fornece uma espécie de avaliação da atual administração, do reitor Jaime Arturo Ramirez.

O resultado final, ilustrado na figura acima extraída de filmagem completa da apuração, está um pouco desfocado e, por isso, é reproduzido na tabela abaixo

Categoria
Chapa 1
Chapa 2
Chapa 3
Votos
Aptos
Percent
Docentes
675
1026
476
2215
3065
72,3%
Técnicos
307
1361
889
2664
4363
61,1%
Alunos
1040
2437
1335
4816
43069
11,2%
[Os totais de votos incluem os votos nas 3 chapas e também os votos nulos e em branco.]

Os resultados mostram um boa participação dos docentes e também dos técnicos e uma participação muito baixa dos alunos na consulta. Esse tipo de resultado é recorrente em várias universidades, apesar da ampla divulgação do processo junto ao alunado. Muitos entendem que o aluno médio das universidades não está interessado nesse processo e está muito mais focado na sua formação profissional.

A tabela acima poderia ser tudo que a comissão eleitoral precisaria divulgar. Entretanto, a legislação vigente determina que qualquer procedimento associado a eleições em universidades deva ser ponderado utilizando peso 70% para a categoria docente, sem discriminar os pesos para as outras 2 categorias. Assim, o procedimento mais comumente adotado nas eleições e consultas que respeitam a legislação vigente é distribuir os 30% restantes igualmente entre técnicos e alunos. [Algumas universidades usam ponderação paritária atribuindo, ao arrepio da lei, pesos iguais às 3 categorias.]

O resultado final do 1o turno, usando a ponderação legal para as 3 categorias, apontou a Chapa 2 como vencedora com 48,12% dos votos. Ela seguirá para a 2a etapa da consulta com a Chapa 1 com 27,97% dos votos, sendo a Chapa 3, com 23,91% dos votos, eliminada do processo. A 2a etapa será realizada hoje e amanhã mas a mensagem das urnas nessa 1a etapa foi uma indicação consistente de aprovação de continuidade da atual administração, obtendo um pouco menos que a soma dos votos das outras 2 chapas. 

Segundo rege o processo de escolha, o resultado do 2o turno será levado a um colégio eleitoral montado pela universidade para elaboração de uma lista contendo 3 nomes. Esses nomes são levados para o Governo Federal, a quem cabe a indicação do próximo mandatário da UFMG.

Os 3 candidatos são professores reconhecidos com competência acadêmica e científica, como se espera de uma universidade de ponta como a UFMG. Assim como já acreditava que a universidade estaria em boas mãos com qualquer dos 3 candidatos iniciais, acredito que estará em boas mãos com qualquer dos 2 candidatos que seguem no processo eleitoral. 

Desejo sucessos à UFMG e tenho certeza que ela continuará trilhando o caminho do sucesso e do constante aprimoramento de sua produção de pessoal bem qualificado profissionalmente e de conhecimento científico, cada vez mais sintonizada com a busca da excelência e das melhores práticas realizadas ao redor do mundo.   

terça-feira, 14 de novembro de 2017

Eleições sob suspeição

oglobo.globo.com

O processo democrático está vigente na maioria das instituições e governos no mundo de hoje. Seu principal pilar é a escolha de governantes máximos a partir de indicação através de voto feita por todos os membros associados à instituição. No caso de países, os associados são os os eleitores, cidadãos do pais regularmente autorizados pela lei vigente. No caso de instituições como clubes, os associados são os sócios regularmente registrados de acordo com o estatuto do clube. Nos países com regime presidencialista, o voto dos eleitores determina diretamente os vencedores do pleito. Em regimes parlamentaristas, o voto dos eleitores determina a composição do colegiado que elegerá o mandatário máximo da nação, o primeiro-ministro. 

Aconteceu na semana passada a eleição para a presidência do Clube de Regatas Vasco da Gama, um dos maiores clubes de futebol do país do futebol. O Vasco é um dos clubes com maior torcida no país muito por conta de sua história de importantes títulos conquistados. A eleição teve 3 candidatos: o atual presidente Eurico Miranda (que aparece na foto acima ao lado de uma urna no dia da votação), Julio Brant e Fernando Horta. Ela foi realizada no dia 07/11 e os resultados das 7 urnas eleitorais foram obtidos aqui e estão tabulados abaixo

Urna
Eurico
Brant
Horta
Total
Percent
1
110
108
45
263
42%
2
408
517
215
1140
36%
3
313
225
31
569
55%
4
324
359
95
780
42%
5
356
381
43
784
45%
6
172
343
0
515
33%
Total*
1683
1933
429
4527
37%
7
428
42
4
474
90%
Total
2111
1975
433
5001
42%
[Total* se refere ao total sem a urna 7 e a última coluna fornece as percentagens de votos no Eurico.]

O que mais salta aos olhos na tabela são as contagens da urna 7, com uma porcentagem de votos substancialmente mais alta para Eurico Miranda que todas as outras urnas. Como se isso não bastasse, essa urna já havia sido questionada antes da eleição. Ela contém as pessoas que se tornaram sócios nos últimos 2 meses possíveis para isso, devido ao grande aumento de cadastramento de sócios nesse período em comparação com os períodos anteriores, além de haver questionamentos sobre a adequação desses sócios em termos de sua adimplência com as mensalidades e outros dados cadastrais. Em função disso, a justiça tinha decidido em carater liminar deixar esses sócios separados dos demais. 

Além das questões puramente judiciais, a Estatística pode ser muito útil para fornecer subsídiso para a avaliação da credibilidade do resultado obtido. Considerando os dados da tabela, vemos que a urna mais favorável ao candidato Eurico foi a urna 3 com 55% de votos para ele. Suponhamos então que a real proporção de eleitores que apoiam o Eurico é de 55%. Podemos verificar quão discrepante é o resultado da urna 7, considerando como parâmetro a urna que lhe foi mais favorável entre as outras.

Vamos então calcular qual seria a probabilidade que uma amostra aleatória de 474 eleitores escolhidos de forma totalmente casual entre os sócios do Vasco aptos a votar apontasse 424 ou mais votos a favor dele. Uma conta simples mostra que esperaríamos em média algo em torno de 260 votos favoráveis e que as chances de haver entre 210 e 310 votos a favor de Eurico (nesse cenário favorável) são de 99,9997%. Isso quer dizer que todos os resultado fora desse intervalo, inclusive valores como 424, tem juntos chances 0,0003% de acontecer, isto é, 1 única chance de acontecer a cada 32.370 eleições similares. O comando em R para essa conta é 

1/(1-(pbinom(305, 474, .55) - pbinom(215, 474, .55)))

Essa conta dá uma idéia do tamanho da discrepância do resultado da urna 7. Efetivamente, a probabilidade de obter um valor tão alto quanto 424 (ou ainda maior) de eleitores favoráveis a Eurico é essencialmente 0.  

Claro que pode se argumentar que a hipótese que as chances dos eleitores dessa urna apoiarem o Eurico seriam maiores que 0,55. E tudo parece indicar que foi isso que aconteceu. Restaria nesse caso, avaliar que fatores levariam os eleitores dessa urna de se comportar de forma tão mais discrepante que os eleitores da urna mais favorável ao atual presidente. Mas a conta acima indica quão improvável é o resultado obtido. Contas similares feitas por um ex-colega de departamento foram divulgadas na mídia.

O que aconteceria se assumissemos uma probabilidade muito maior, digamos 80% dos eleitores dessa urna serem favoráveis a Eurico?  Bom, nesse caso, esperaríamos em média algo em torno de 380 votos favoráveis e as chances dos obter-se na urna algo entre 340 e 420 votos seriam de 99,999%. Ou seja, resultados foram do intervalo, como foi o resultado obtido ocorreriam 1 única vez a cada 97.551 eleições! 

Outra tipo de conta que podemos fazer é através da abordagem Bayesiana. Assumindo uma distribuição a priori uniforme para a real proporção de apoiadores do presidente e considerando apenas os resultados da urna 3, poderíamos prever os resultados da urna 7 considerando que ele teve 474 votos válidos e que a proporção de apoio do presidente é a mesma entre os eleitores de ambas as urnas. Novamente as contas dão resultados muito parecidos e a predição obtida é que obteríamos entre 305 e 215 eleitores em Eurico com 99,8% de chances.

Note que esses resultados quantificam a discrepância da urna 7 com relação à urna 3, que foi a mais favorável a Eurico. Essa contas poderiam ser repetidas considerando todas as 6 urnas apuradas e validas mas isso só aumentaria a magnitude da discrepância, que já é suficientemente alta. Esses resultados provam que a urna 7 tem que ser anulada? Claro que não. Eles só apenas exibem e quantificam numericamente as evidências sobre a discrepância da questionada urna 7 com respeito ao restante das runas apuradas. Caberá ao decisor da análise, no caso o juiz que julgar a impugnação da urna, levando em conta a discrepância quantificada à luz das evidências fornecidas.