terça-feira, 10 de março de 2015

Planejamento ótimo e amostragem preferencial



Fonte: tese de doutorado de Gustavo Ferreira (dme.ufrj.br)

Amostragem é a área da Estatística devotada ao estudo das diferentes formas de obter amostras ou sub-conjuntos de um conjunto maior, possivelmente infinito. A amostragem é chamada de preferencial se a forma como os elementos são escolhidos depende do processo que se deseja estudar. Um bom exemplo dessa situação é a escolha de pontos para instalar minas de exploração de algum mineral (ouro, diamante, urânio, etc), usado na postagem da semana passada. Em geral, os locais não são aleatórios nem alocados na região de interesse de forma sistemática, segundo algum arranjo pre-determinado. Procura-se escolher os locais onde espera-se uma maior concentração do mineral!

Nesse caso, os locais de onde as observações vem (ou virão) são determinados pelo próprio processo de interesse. Analise dos dados sem levar em conta essa componente pode produzir viés significativo nas conclusões obtidas por esse estudo. Em particular, as decisões a ser tomadas a respeito do planejamento para novos locais podem ser drasticamente modificadas. Nesse ponto entra a conexão do título: entre planejamento ótimo e amostragem preferencial.

Novamente o exemplo da mineração é particularmente elucidativo. Imagine que uma vasta parcela da região foi negligenciada, possivelmente devido à percepção que a concentração do mineral é mais pobre ali. Se essa informação não foi incorporada à análise, essa região se torna uma forte candidata a receber uma nova mina. A informação sobre a irrelevância comercial dessa região deveria impactar a implantação da nova mina. É o que se espera de qualquer raciocínio baseado no bom senso.

Uma tese de doutorado recentemente defendida na Universidade Federal do Rio de Janeiro mostra que o bom uso da Estatística não contraria o bom senso. Os resultados obtidos por Gustavo Ferreira em seu doutorado mostram que a Estatística muda radicalmente sua recomendação em um planejamento ótimo se a preferencialidade do processo amostral for considerada. O trabalho do Gustavo fornece evidência substancial nessa direção.

A figura acima ilustra esse ponto. O gráfico mais à esquerda apresenta um processo onde apenas os pontos em vermelho foram observados. Isso ocorreu pois é lá que estão os valores mais altos do processo. O gráfico mais à direita não usa essa informação e recomenda fortemente que novas medições sejam feitas na região inicial. (Isso é indicado pelos valores mais altos no gráfico.) Afinal, menos pontos foram observados nessa região e sabe-se menos sobre o processo. O gráfico central usa a informação da amostragem preferencial. Agora, a recomendação pela região inicial não é mais tão enfática a despeito da escassez de informação por lá. De fato, o gráfico mostra que essa região é até um pouco desfavorecida com relação à região em torno de 80 (indicado pelos valores no eixo dos x´s). 

As idéias da tese foram exploradas e desenvolvidas usando técnicas computacionais modernas e forneceram vasta sustentação teórica e prática para o que o bom senso indica. Esse trabalho repercutiu positivamente em vários foros relevantes:
  1. a tese recebeu Menção Honrosa no concorrido concurso CAPES de teses do ano de 2014, na área de Matemática/Probabilidade e Estatística. Trata-se de uma das raras ocasiões em que a Estatística foi contemplada nessa premiação;
  2. o artigo científico resultante dessa tese foi aceito para publicação no periódico Bayesian Analysis. Os Editores da revista acharam o assunto tão relevante que resolveram promover o artigo com uma discussão sobre o tema. E para a discussão convidaram alguns dos maiores nomes da área.
Aproveito para parabenizar publicamente o Gustavo pelo excelente trabalho, realizado de forma independente e autônoma, como se espera de um bom aluno de doutorado.

Para ler a tese na íntegra, clique aqui
Para ler o artigo da Bayesian Analysis na íntegra, clique aqui

Um comentário: