terça-feira, 8 de setembro de 2015

Uma história de Big Data - parte I

chartcube.com

Recentemente, presenciei uma apresentação do Prof. David Draper sobre o assunto Big Data. Essa apresentação foi iniciada com uma versão assumidamente pessoal da história desse tópico. O Prof Draper é um importante pesquisador na área de Estatística com maior atuação na visão sob o ponto de vista Bayesiano. Apesar de ter atuado no meio acadêmico nas últimas décadas, ele sempre teve uma forte vinculação com aplicações. Ultimamente, ele tem se envolvido com grandes corporações on-line que lidam com grandes massas de dados. Com isso, seu envolvimento com Big Data e todas as suas repercussões é muito grande. Nesta postagem, reproduzirei a listagem cronológica que ele apresentou. Na próxima semana, reproduzirei avaliação que ele faz da situação atual do assunto.

(1944) Estima-se que as bibliotecas americanas vão dobrar de tamanho a cada 16 anos; portanto, a biblioteca da Universidade de Yale em 2040 terá cerca de 200 milhões de livros, ocupando quase 10 km de estantes e exigindo 6.000 funcionários.

(1961) Um cientista conclui que o número de novos periódicos acadêmicos está crescendo exponencialmente (não linear), dobrando a cada 15 anos.

(1986) Estima-se que a densidade de gravação alcançado por Gutenberg (1450) foi de 500 bytes por polegada cúbica, 500 vezes a densidade das placas de argila sumérias (4000 aC); previsão: até 2000, RAM deve estar armazenando 1,25 · 1011 bytes por polegada cúbica.

(1997) O termo "Big Data" é usado num artigo acadêmico pela primeira vez; um artigo diferente usa a palavra petabytes (1,000,000 Gbytes) pela primeira vez, estimando-se que todo o mundo contém algumas centenas de petabytes de informação; por conseguinte, até 2000 
(a) com fita e disco produção não haverá uma necessidade futura de jogar fora todas as informações, e
(b) um pedaço típico de informação nunca vai ser olhado por um ser humano.

(1998) A taxa de crescimento do tráfego na internet é estimado em cerca de 100% ao ano; a essa taxa, o tráfego de dados irá ultrapassar o tráfego de voz por volta de 2002.

(1999) Um artigo influente tem uma seção chamada Visualização Científica de Big Data: "onde conjuntos de dados da ordem de megabytes já foram considerados grandes, nós agora encontramos conjuntos de dados de simulações individuais da ordem de 300 GB... Mas é simplesmente difícil olhar para todos os números."
Hamming disse: "O objetivo da computação é insight, não números; com Big Data estamos em perigo de não conseguir alcançar esse fim. "

(2000) Um estudo descobriu que em 1999 o mundo produziu cerca de 1,5 exabytes (1.000.000.000 GB) de dados, cerca de 250 MB para cada ser humano no planeta; até 2003, o volume tinha aumentado para 5 exabytes/ano, 92% dos quais armazenados em discos.

(2001) As dimensões definidoras de Big Data são identificadas como os 3Vs: volume, velocidade e variedade.

(2007) A estimativa agora é que em 2006 o mundo criou 161 exabytes de dados; entre 2006 e 2010, este volume aumentou seis vezes, para 988 exabytes/ano, dobrando a cada 18 meses; em 2012 nós estávamos com 2,8 zettabytes (1 trilhão GB) de dados gerados/ano em todo o mundo.

(2008) Estimou-se que o tráfego de IP (protocolo internet)  atingirá 0,5 zettabytes/ano em 2012 (esta previsão estava correta), um aumento de oito vezes em 5 anos.

(2009) Um estudo constata que em 2008 os americanos consumiram informação por cerca de 1,3 trilhões de horas, uma média de 12 horas/dia/pessoa; o consumo totalizou 3,6 zettabytes (11 trilhões de palavras), com média de 100.000 palavras e 34 GB por pessoa por dia; isso significa que você foi exposto a cerca de 100 palavras/minuto de suas 16 horas acordado(a) por dia.

(2011) Estima-se que a capacidade de armazenamento da informação do mundo cresceu a uma taxa anual composta de 25%/ano entre 1986 e 2007; Além disso, em 1986, 99% de armazenamento foi analógico, mas em 2007, 94% de armazenamento foi digital.

(2011) Um estudo conclui que 
(a) em 2005, as pessoas nos EUA tinham 1.000 minutos de conteúdo de Internet e vídeo para cada minuto disponível para consumo e
(b) o mundo produziu 14,7 exabytes de informação nova em 2008, triplicando o volume em 2003.

(2015) Especialistas prevêem um aumento de 4.300% na geração de dados anuais até 2020.

Nenhum comentário:

Postar um comentário