StatPop - Popularização da Estatística: Uma história de Big Data

blog.nskinc.com

A postagem anterior sobre a história de Big Data procurou apenas reproduzir uma listagem cronológica de eventos relacionados ao tema que foram considerados relevantes. O que eu queria fazer agora é tentar olhar algumas perspectivas de onde estamos e para onde o tema pode marchar. Assim, a primeira parte tratou do passado e aqui tentarei descrever uma visão da realidade atual e das perspectivas futuras.

Antes, gostaria de refletir sobre algumas definições de Big Data, novamente amparados pela apresentação do Prof. Draper, já mencionada na parte I. Uma definição que gostei e destaco é:

Big Data é uma coleção de conjuntos de dados que é tão grande e tão complexa que torna inviável o uso o seu processamento usando as técnicas usuais de manipulação e exploração ou mesmo formas tradicionais de processamento.

Essa definição já impõe a premência do uso de novas técnicas pela simples incapacidade de uso das técnicas atuais de exploração (via ferramentas descritivas, como boxplots) ou de processamento (via ferramentas de análise, como regressão)

Uma definição menos precisa, mais abrangente e um tanto irônica de Big Data é

Um fenômeno cultural e tecnológica que se situa na interrelação entre:
(1) Tecnologia: maximização do poder de computação e acurácia algorítmica para juntar, analisar, relacionar e comparar grandes massas de dados;
(2) Análise: usar grandes conjuntos de dados para identificar padrões de forma a fazer afirmações técnicas, sociais, econômicas e legais;
(3) Mitologia: a crença generalizada que grandes conjuntos de dados oferecem uma forma superior de inteligência e conhecimento que pode gerar insights, que eram antes impossíveis, com a aura de verdade, objetividade e precisão.

Já falamos aqui do temor nutrido no seio da Estatística da dominação dessa área pelo pessoal de computação, ou mais especificamente, de machine learning. Uma outra dissenção que surge nos remete a uma disputa que, como já dito aqui, está morrendo mas que alguns procuram ressuscitar: a disputa clássico x Bayesiano. Dentro dessa linha, uma visão um tanto caricatural é que com grandes massas de dados, a verossimilhança domina a inferência. Nesse sentido, a abordagem Bayesiana seria irrelevante na grande maioria dos casos e sua relevância só seria sentida quando priori extremamente concentradas fossem utilizadas, o que seria uma atitude arbitrária, temerária e potencialmente prejudicial.

Essa argumentação é em parte correta e em parte equivocada. A parte correta diz respeito ao fato de que escolhas de prioris muito concentradas (ou degeneradas) devem ser feitas com extremo cuidado e, em geral, devem ser evitadas. O efeito mais provável de sua inclusão na análise é a introdução de víeses indesejáveis.

A parte equivocada é olhar para prioris da forma simplista acima. Grandes massas de dados tem em geral estrutura complexa causada pela sua própria dimensão. Isso faz com que modelos apropriados para sua análise devam ter uma estrutura complexa, que vai muito além da simples especificação de um modelo de regressão. Outras componentes serão necessárias. Essas componentes podem ser introduzidas de várias formas.

Uma delas é a forma determinística onde supomos conhecer perfeitamente como elas se comportam. Muitos estatísticos, incluindo ai os frequentistas, acreditam que essa visão não constitui uma descrição apropriada da complexidade observada e preferem especificar essas componentes de forma estocástica. Com isso, eles oferecem aos dados a possibilidade de discordar de uma forma rígida de como a estrutura deveria se comportar. O grande sucesso recente das técnicas não-paramétricas e da modelagem hierárquica está exatamente nessa flexibilização.

Essas estruturas adicionais podem ser introduzidas de várias formas em uma análise estatística. As mais usuais são através de penalizações de diferentes formas na verossimilhança. Isso equivale a introduzir uma priori que não cumpre papel quantificador mas de natureza muito mais qualitativa. Exemplos já mencionados aqui são modelos de espaço de estados, onde a penalização/priori sugere que estados de tempo subsequentes estejam próximos. Não existe quantificação de onde eles devam estar mas apenas uma sugestão qualitativa de proximidade; onde quer que eles estejam, estados subsequentes devem estar próximos.

Nesse sentido, a abordagem Bayesiana tem sim muito a oferecer por possibilitar uma forma de processamento desse tipo de informação via teorema de Bayes. Uma dificuldade que terá de ser enfrentada por todos os estatísticos (Bayesianos ou frequentista) é a questão do tempo de processamento. Muitas das técnicas atualmente utilizadas são dependentes do tamanho da massa de dados sendo analisada. Isso nos coloca em sérias desvantagem perante alternativas que fornecem respostas rápidas, mesmo que sejam apenas respostas pontuais sem análise da incerteza.

Esse sim é o grande desafio da Estatística: como continuar fazendo análise de dados de forma apropriada sem depender tão fortemente do tamanho da massa de dados.

StatPop - Popularização da Estatística

terça-feira, 15 de setembro de 2015

Uma história de Big Data - parte II

Nenhum comentário:

Postar um comentário