terça-feira, 4 de agosto de 2015

Estatística é a profissão sexy dos próximos 10 anos

http://people.ischool.berkeley.edu/~hal/Papers/2015/primer-slides.pdf


A frase do título foi proferida por Hal Varian, professor de Economia de Berkeley e economista chefe do Google. Não há como a comunidade da Estatística não ser fortemente impactada por uma afirmação desse tipo por uma personalidade importante da atualidade, com cargo de chefia em uma das empresas mais sexys da atualidade. Embora a frase tenha sido proferida há quase 7 anos, acho que ela ainda pode ser aplicada com o mesmo prazo de validade nos dias de hoje.

Com esse cenário como pano de fundo, foi com grande expectativa que a palestra de Varian foi aguardada na semana passada. Ela aconteceu durante a 60a edição do congresso com o nome grandioso de Congresso Mundial de Estatística (WSC), organizado pelo Instituto Internacional de Estatística (ISI) no Riocentro, o centro de convenções da cidade do Rio de Janeiro, E a apresentação recebeu o devido destaque sendo a principal atividade no penúltimo dia do WSC. A expectativa que eu e muitos outros participantes do evento tínhamos foi similar à que se teve durante a palestra de Nate Silver no JSM de 2013, que recebeu postagem aqui: a de um protagonista global dos dias que vivemos, um showman.

E a palestra correspondeu às expectativas, diferente da palestra de Silver. O Prof. Varian se concentrou em exibir as ferramentas que a Google disponibiliza para análise de dados: trends, correlate e costumer survey. A primeira mostra as contagens de buscas associadas a cada expressão, a segunda mostra as correlações entre expressões buscadas e a última (uma novidade ainda disponível apenas nos Estados Unidos, Inglaterra e Alemanha) possibilita a qualquer usuário a formulação de um questionário de pesquisa de opinião. Eu tinha conhecimento apenas do módulo trends.

A palestra procurou exemplificar de modo simples, mas ném por isso menos preciso, as possibilidades associadas a cada uma dessas ferramentas. Assim, foram ilustrados vários contextos relevantes onde pode se utilizar a informação das buscas para procurar retratar e até mesmo explicar a realidade. Um exemplo: buscas de informação sobre seguro desemprego precedem as ocorrências de pedidos desse seguro. Parece simples mas é extremamente eficaz, como a figura acima procura mostrar.

Muitos se mostram reticentes alegando que boa parte das correlações encontradas tem natureza espúria, isto é, não fornecem nenhuma explicação relevante sobre o problema. Esse tema já foi tratado aqui. A bem da verdade, não houve momento nenhum da palestra onde isso foi escondido e alguns dos vários exemplos explicitamente ilustraram esse padrão.

Foi particularmente impactante para mim um exemplo recente e simples de contagem das buscas sobre o Sim e o Não na semana que antecedeu o recente referendo na Grécia a respeito da proposta de renegociação da dívida nacional. A percentagem acumulada de buscas indicava uma proporção aproximada de 60% para Não e 40% para SIM. O resultado do plebiscito foi de 61% para o Não! Não acho que tenha havido coincidência nesse exemplo. As pessoas vão se comportar de forma compatível com o que pensam; perguntas a ferramentas de busca parecem ser um reflexo bastante fidedigno de como as pessoas pensam.

É claro que as pessoas podem mudar de opinião após ver o resultado de uma busca mas o ponto é que existe informação nas perguntas que as pessoas fazem. Isso é particularmente relevante pelo fato da pergunta estar sendo feita em um ambiente que é supostamente seguro e que supostamente preserva o anonimato. É nesse ambiente que as pessoas refletem mais fielmente seu estado de espírito. Muito mais que em qualquer pesquisa de opinião nos moldes convencionais.

O modulo de costumer survey (pesquisa de opinião) também tem potencial para promover uma mudança significativa na forma de se fazer levantamento de opiniões sobre os mais variados assuntos. Qualquer usuário poderá submeter um questionário simples (1 única questão) que após uma rápida análise de conteúdo é disponibilizado no Google como pre-requisito para prosseguimento de buscas de outros usuários. Como se trata de pergunta simples, a tendência é que a imensa maioria dos usuários, tenderá a responder e não terá porque não fazê-lo de forma honesta. Assim, após pouquíssimo tempo, obtém-se o resultado de um questionário. Ele cumpre fielmente todas as exigências de um questionário corretamente aplicado? Provavelmente não. Mas nem todos os questionários correntemente utilizados também o fazem. Portanto, será possível obter respostas que se por um lado perdem um pouco em precisão, por outro ganham em muito tanto em tempo de processamento quanto em termos de custo.

Sai da palestra bastante impressionado com as possibilidade que se pode disponibilizar a partir das informações que software massivamente utilizados detém. Softwares de busca são o braço mais vistoso dessa possibilidade de disponibilização de grandes massas de dados mas não são os únicos. No caso do Google em particular, a palestra também mostrou parte do que essa empresa tem feito em termos de análises estatísticas com a sua numerosa equipe de talentosos doutores em Estatística. Isso também já foi tema de postagem aqui mas pretendo voltar a esse assunto outras vezes pois é um novo mundo que se descortina, com grandes possibilidades para estatísticos e usuários de Estatística.

Nenhum comentário:

Postar um comentário