terça-feira, 1 de setembro de 2015

Big data - parte III

www.nature.com/news/when-google-got-flu-wrong-1.12413

Minhas últimas postagens trataram do mesmo assunto desta postagem e podem ter dado a impressão de uma visão romanceada do novo mundo que se nos apresenta. Gostaria de esclarecer que entendo uma parte dos argumentos positivos e também uma parte dos argumentos negativos. Como enfatizei mais os argumentos a favor, talvez seja melhor falar um pouco dos aspectos potencialmente danosos desse novo mundo. 

Um ponto que foi mencionado na postagem sobre previsibilidade foi a possibilidade de estabelecimento de um padrão de dependência nos dados com base em tendências similares. Esse ponto foi ilustrado em postagem anterior com a ferramenta Google trends aplicada ao plebiscito na Grécia. O próprio Google trends serve como uma bom exemplo dos cuidados que todos devemos tomar. Apesar de avisos de serem preditores e não explicadores, muitos usam índices de consulta como preditores dos eventos a serem preditos.

No início de 2013, acontecimentos externos causaram uma busca exagerada em tópicos relacionados a flu (gripe, em inglês) do Google sem haver materialização de ocorrência de epidemia. Assim, nesse período houve uma ocorrência muito maior de buscas a gripe do que casos efetivos da doença, como ilustrado na figura acima. Aqueles que se basearam na frequência de busca como indicador antecedente das ocorrências da doença se deram mal. E com isso, levaram junto um pouco da reputação do Google. Esse evento serviu para ilustrar os perigos associados a pensar em preditor como causador. Mas isso foi esclarecido como sendo equivocado, ou no mínimo, aberto a questionamentos.

Outro ponto que comentei como uma possibilidade interessante foi o modulo costumer survey do Google. Obviamente, todos os cuidados associados à obtenção de uma amostra devem ser verificados aqui. Não é possível usar amostras obtidas dessa maneira para falar sobre a população brasileira pois grande parte da população alvo não terá sido coberta na amostra. Assim, cuidados básicos para verificar a representatividade (ainda que aproximada) da amostra obtida por essa ferramenta devem ser tomados.

Existe no mundo uma adoração pelas possibilidades que grandes massas de dados possibilitam. É uma novidade interessante e não há dúvida que veio para ficar. Mas também existe mundo afora uma razoável quantidade de críticos da troca do paradigma de explicação (causalidade) pela descrição (previsibilidade). É preciso encontrar um balanço entre os dois extremos que permita o uso inteligente de técnicas descritivas quando não há alternativa embasada na teoria mas que não descarte essa possibilidade quando houver explicação plausível disponível.

Nenhum comentário:

Postar um comentário