terça-feira, 22 de outubro de 2013

Big data

news.nationalgeographic.com

Como já comentado aqui no blog, existe uma nova tendência surgindo no mundo da análise de dados, associada à disponibilidade cada vez maior de armazenamento de informação. Chamada de "big data", ela está associada à compreensão de possíveis interrelações existentes entre variáveis presentes em grandes massas de dados. 

Exemplos incluem a procura das preferencias de clientes de uma videolocadora pela sua lista de filmes. Esse problema já foi alvo de competição em 2009 da gigante Netflix desse segmento do mercado, com prêmios vultosos de 1 milhão de dólares para a melhor predição baseada em uma amostra de treinamento. Para se ter uma idéia das dimensões envolvidas aqui, os dados envolvem centenas de milhares de clientes e dezenas de milhares de filmes. Outros exemplos são análises de crédito financeiro de grandes bancos, análises de fenômenos climatológicos medidos em estações monitoradoras espalhadas sobre toda a superfície terrestre e análises de dados de genoma. Todos esses exemplos envolvem milhões de observações com muitas, às vezes, milhares de medições para cada uma delas.

Na teoria, as técnicas convencionais que são conhecidas na Estatística se prestam a esse tipo de análise mas seriam necessários vários computadores para realiza-las e em um tempo extremamente longo e, pior, com geração de milhares de resultados, onde fica muito difícil a identificação das características mais relevantes do problema. 

Como todo fenômeno envolvendo computação, esse assunto multidisciplinar tem atraido profissionais de várias áreas, especialmente pessoal de computação. Se por um lado isso é bom por atrair outros profissionais para mais próximo da Estatística, tem o aspecto negativo de ensejar o desenvolvimento de técnicas essencialmente estatísticas por outros profissionais, com resultados variados. 

Eu tenho apreço pelo trabalho que muitos pesquisadores na interface entre Estatística e Computação tem realizado, especialmente aqueles que se baseiam em modelos (Bayesianos) não-paramétricos. Esses modelos foram introduzidos na década de 1970 mas não evoluiram muito devido à dificuldade de se obter as estimativas em modelos com essa complexidade. Entretanto, eles ganharam um grande impulso nas últimas 2 décadas, com o desenvolvimento de mecanismos aproximados (MCMC) que fornecem resultados bastante satisfatórios. E a flexibilidade da abordagem não-paramétrica permite que sejam mantidas no modelo apenas as componentes relevantes. Não é surpresa que boa parte do desenvolvimento científico dessa área se dê em projetos conjuntos de Estatística e Computação.

Um problema da abordagem Bayesiana é que ela se propõe a calcular toda a distribuição das quantidades desconhecidas. Num cenário altamente multivariado é tentador buscar simplificações que permitam uma sumarização maior da posteriori. Em particular, obter apenas a moda a posteriori pode ser uma alternativa. Com isso, o problema de obtenção de toda uma distribuição simplifica absurdamente para a obtenção de máximos de funções.

Dentre as técnicas que caminham nessa direção, eu destacaria aquela conhecida como variational Bayes ou estimação Bayesiana variacional que procura quebrar o problema em pequenos problemas menores [através da aproximação da distribuição a posteriori conjunta pelo produto das marginais.] Essa aproximação será tão boa quanto mais próximos de independentes forem as componentes. Ela tem sido usada mais predominantemente (mas não exclusivamente) pelo pessoal de Computação. Note que esse tipo de abordagem despreza o que a Estatística tem de melhor que é a mensuração da incerteza. Mas num cenário com milhares de quantidades desconhecidas, não está claro quem teria capacidade de olhar para a dispersão de tantas quantidades após olhar estimativas pontuais.

De qualquer forma, vemos um mundo novo se descortinando com novas técnicas sendo propostas e o pessoal de Computação entrando firme. Acredito que ao final, a riqueza da análise estatística com caracterização completa da incerteza prevalecerá mas precisamos estar atentos a novos avanços que nos permitam exibir a importância dessas componentes mesmo nos cenários altamente dimensionais que vem sendo contemplados. A simplificação obtida pela busca de máximos (estimadores pontuais) é um competidor poderoso.

2 comentários:

  1. Acho que o grande problema é que relativamente poucos estatísticos trabalham com esse tipo de problema (quando comparado com a quantidade de gente da computação), ainda que eles tem um grande potencial para contribuir sobre o assunto. Mas isso parece estar mudando bastante. Aí vai um artigo interessante do Larry Wasserman sobre isso http://www.stat.cmu.edu/~larry/Wasserman.pdf

    ResponderExcluir
    Respostas
    1. Rafael, a entrada do pessoal de Computação nessa área de big data, machine learning, reconhecimento de padrões, etc tem sido preocupação de muitos estatísticos ao redor do mundo. Embora possamos assumir que muitos entram com um enforque puramente computacional (em geral, de maximização), é crescente o número de abordagens computacionais com grande interação com a Estatística, incorporando todo o ferramental estatístico (ex, via inferência Bayesiana). Isso gera um cenário possível de dominação de nosso objeto de estudo por pessoal de outra área (computação). A preocupação desse cenário fatalista é: será que eles ou a Ciência se lembrarão de nós? Pelo sim pelo não, melhor estarmos atentos e focados em novos avanços para minimizar as chances de sermos extintos. :)

      Excluir