StatPop - Popularização da Estatística: Big data

sgbusinessevents.com/

Estive em vários congressos científicos da área de Estatística no últimos mês, dando palestras sobre alguns de meus projetos de pesquisa. Os congressos variaram em termos de escopo de tema e também de quantidade e abrangência de participantes. Mas o assunto que mais me chamou a atenção foram as questões associadas ao tema Big Data.

Esse assunto já foi tratado aqui e acho que ainda teremos que revisitá-lo algumas vezes mais no futuro próximo. Como já falamos, por se tratar de um tópico de grande apelo aplicado e envolver manuseio de grandes bases de dados, essa área inevitavelmente atraiu a atenção de outros pesquisadores, especialmente da área de Computação. Uma nova área foi criada, recebendo nomes como reconhecimento de padrões ou mais comumente machine learning (ML). Uma nova profissão foi criada com nomes do tipo analista (ou cientista) de dados.

Essa nova área do saber deveria ser apenas uma sub-área da Estatística mas não foi bem assim que as coisas aconteceram. Vários instrumentos foram criados para lidar com essa situação e muitos deles prescindem quase que totalmente do nosso ferramental. Outros instrumentos os utilizam com variável nível de envolvimento com modelagem estocástica, indo desde de técnicas de visualização e de estatística descritiva até sofisticados usos de técnicas não-paramétricas como misturas de processos de Dirichlet.

O que pude perceber nos congressos desse meio de ano foi o começo de manifestações explícitas e contundentes de preocupação com o crescimento de pessoal de ML e a dominação que se começa a materializar desse grupo na área genérica de análise de dados. Essa dominação está se dando na parte que mais dói aos seres humanos: no bolso!

Análises de grandes massas de dados tem sido predominantemente feitas mundo afora por não-estatísticos. E isso não está passando desapercebido. Importantes pesquisadores de Estatística tem sido porta-vozes de uma comunidade que está se vendo cada vez mais ameaçada ou no mínimo descartada pelo trem da história. Companhias que trabalham com grandes massas de dados não tem tido a preocupação de procurar estatísticos para analisá-las. Conforme ouvi em uma palestra, o pessoal de ML promete dar UMA resposta mas de forma rápida; e isso tem bastado aos clientes. Não há garantia que a resposta será ótima nem sub-ótima mas isso tem sido preferido à alternativa de esperar dias ou meses pela boa e mais completa resposta que os estatísticos são capazes de dar.

Esse problema ainda não nos aflige de forma tão aguda aqui no Brasil mas não se preocupem que isso virá. Temos a tradição de seguir com o atraso de alguns anos os procedimentos adotados nos países mais avançados.Assim, veremos esse mesmo filme em breve por aqui.

A Estatística tem um novo desafio à sua frente, pouco depois ter vencido o último: se mostrar capaz de resolver problemas complexos, graças aos avanços computacionais das últimas décadas. Ela terá que pensar em como fazer suas contas de forma muito mais eficiente do que tem sido capaz até agora. Nossas técnicas são muito dependentes do tamanho da massa de dados e estavamos acostumados a aceitar que massas maiores exigissem maior tempo computacional. Não basta mais dizer isso aos nossos clientes. Eles não estão suficientemente apegados a nós para ficar com o melhor e lento ao invés do pior mas rápido.

StatPop - Popularização da Estatística

terça-feira, 25 de agosto de 2015

Big data - parte II

Nenhum comentário:

Postar um comentário