terça-feira, 22 de abril de 2014

Manipulação de dados

http://guerrilheirodoentardecer.blogspot.com.br/


Uma questão que foi muito ventilada a respeito da divulgação de informação por parte do IBGE na postagem da semana passada, foi a discussão sobre manipulação de dados. Foi até comemorado por alguns membros da comunidade de Estatística o fato de não ter havido manipulação indevida de dados. Acho que seria oportuno neste momento tentar entender o que significa isso, até para sabermos se há algo para se comemorar nesse episódio.

Antes de começar a discussão é necessário esclarecer que o trabalho de um estatístico ou de um analista de dados é a manipulação de dados. E não há nada de errado nisso! O problema aqui está associado a uma conotação negativa da palavra manipulação e remete a qualquer espécie de deturpação da realidade que se pretende mensurar. Na  língua inglesa, existem as palavras manipulation para designar manipulação e mishandling para designar manipulação defeituosa ou inadequada. Mas desconheço como designar esse conceito em uma palavra única em português. Assim, essa forma de manipulação será representada daqui para frente nesse texto como "manipulação" (entre aspas).

Esse é um dos maiores temores dos estatísticos e está associado à má fama que o estatístico ainda possui. Em alguns círculos, o estatístico é visto como o profissional que é capaz de distorcer a realidade de forma a acabar provando aquilo que ele quer. Esse tipo de procedimento é claramente escuso, ilegal, deve ser condenado e sujeita o "manipulador" às penas previstas em lei. E ficou esclarecido que isso não aconteceu no IBGE.

Mas será que essa é a unica forma de "manipular" dados? Vamos examinar um caso fictício, que muitos julgam similar ao acontecido agora. Suponha que um indicador macroeconômico (por exemplo, nível de desemprego ou de inflação) de um dado país vem apresentando níveis considerados aceitáveis (por exemplo, 5% de desemprego ou 3% de inflação anual) para o governo desse país. Suponha que um novo levantamento realizado às vésperas de uma importante eleição indica forte aumento nesse índice (por exemplo, 10% de desemprego ou 7% de inflação anual). Esses dados podem ser um prato cheio na mão da oposição e fornecem munição para ataques consistentes às políticas empreendidas por esse governo. 

Suponha agora que esse governo fictício dispõe de mecanismos que impeçam a divulgação desses embaraçosos valores. Note que isso pode se dar de forma plena, onde os números são simplesmente omitidos, ou de forma parcial, onde os números são informados de forma parcial (por exemplo, dizendo que a taxa de inflação ficou abaixo de 10%). Esse governo não estaria "manipulando" os dados no sentido de mudança nos seus valores. Mas certamente estaria exercendo um papel bastante similar e portanto igualmente questionável. Isso vale também para o caso contrário onde a oposição pudesse bloquear divulgação de resultados satisfatórios para o governo em função de artifícios protelatórios. 

Existem outras formas mais sutis de "manipulação" onde os dados são fornecidos de forma completa mas a sua forma de obtenção não é claramente explicitada. Por exemplo, suponha que a taxa de desemprego é maior no campo que nos centros urbanos e que o governo divulgue a taxa de desemprego baseada apenas em levantamentos urbanos. Ou similarmente, suponha que a oposição divulgue a taxa de desemprego baseada apenas em levantamentos rurais. Ambos proclamariam resultados globais, válidos para todo o país, mas igualmente tendenciosos por não refletirem índices genuinamente nacionais, como erroneamente proclamado. Outro exemplo bastante conhecido e similar é dado pelas famosas letras minúsculas de contratos de empresas, muitas vezes contendo cláusulas danosas ao cliente.

Em suma, creio que qualquer procedimento que impeça a divulgação dos dados verdadeiros caracteriza uma "manipulação" dos dados. Poder-se-ia até discutir se existem gradações de severidade nessas "manipulações". Talvez alguém queira definir uma taxonomia das "manipulações", criando categorias como explícitas (mudança nos valores dos números) e implícitas (mudança na forma de divulgação). Mas qualquer procedimento que não forneça os valores medidos com a devida explicação do que esses valores significam e como foram obtidos é igualmente questionável. Informação não só é a matéria prima da Estatística mas é um bem do qual nenhuma sociedade deve abrir mão.

Nenhum comentário:

Postar um comentário