terça-feira, 5 de dezembro de 2017

Dados presence-only

https://www.livescience.com/30366-atlantic-forest-jungle-brazil-ecosystem.html

A expressão do título se refere a um tipo de dado muito comum em Ecologia, e que devido à sua importância pode ser identificado com uma área da Ecologia. Ela se refere às análises comumente feitas na Ecologia onde apenas as presenças de espécies animais e vegetais são registradas. Isso acontece porque algumas espécies não são muito abundantes na região de interesse. Portanto, encontra-las é uma tarefa difícil e que envolve muito planejamento.

Um exemplo ajuda a ilustrar o problema envolvido nesse tipo de estudo. Vamos pensar na busca de espécies raras na floresta amazônica. Estamos falando aqui de uma região de dimensões continentais e de muito difícil acesso a toda sua extensão. Os ecologistas buscam obter evidências de ocorrências dessas espécies através de estudos preliminares e partem em exploração no campo tendo vista essas considerações. As ocorrências da espécie que forem observadas são registradas e é apenas isso que tem-se reportado. Assim, apenas as presenças são registradas, caracterizando os dados de apenas presença ou presence-only.

E porque esse tipo de tipo de estudo chama a atenção, atraindo alguma notoriedade? Um dos preceitos básicos de qualquer estudo do efeito de alguma característica é o contraste com a ausência dessa característica. Assim, ao estudar a eficácia de algum novo medicamento, faz-se a comparação de grupos de indivíduos similares que são divididos entre o tratamento usual e o novo tratamento. É essa comparação que permite saber qual o verdadeiro efeito do novo tratamento. Sem saber o que acontece com o tratamento usual, não é possível afirmar se o tratamento novo é benéfico ou prejudicial à saúde.

Assim, para inferir adequadamente o que faz com que presenças são observadas é preciso ter também os resultados associados às ausências. No caso de Ecologia, para saber que fatores (solo, clima, ... ) afetam ou facilitam a ocorrência da(s) espécie(s) de interesse, é importante saber se um determinado fator está associado à ocorrência da espécie. Por exemplo, a salinidade do solo pode estar associada à observação de espécimes. Para comprovar isso, teríamos de observar a presença de espécimes com valores altos da salinidade mas também a ausência de espécimes com valores baixos de salinidade do solo.  Se observamos apenas as presenças, não temos garantias da relevância da salinidade do solo para explicar a presença da espécie.

Apesar de tudo disso, a dificuldade na obtenção de dados completos (com ausências) fez com que uma série de estudos começassem a ser desenvolvidos apenas com os registros de presença. Várias diferentes abordagens forma propostas com esse fim. Entre essas podem ser citadas máxima entropiaregressão logística e processos pontuais. Muitas dessa análises se baseiam na hipótese de que (todos os) locais onde não foi observada presença são locais de ausência! Alguns estudos mostraram a similaridade entre muitas dessas propostas. 

Essas propostas começaram a ser disseminadas na comunidade de Ecologia e tem sido rotineiramente utilizadas por ecologistas. A particularidade desse tipo de análise chamou a atenção de estatísticos e atraiu pesquisadores da área. Isso não significa que o assunto ficou livre de controvérsia. Uma das críticas mais contundentes e respeitadas pode ser encontrada aqui

Essas criticas mostram que, mesmo surpreendente à primeira vista, alguns resultados se mostram robustos e fornecem resultados parcialmente adequados. A parte que parece ser adequada é a estimação da relevância/significância de efeitos de variáveis de solo/climáticas na ocorrência. Isso é compreensível pois revela (de forma incompleta, é verdade) associação entre valores dos fatores e a ocorrência da espécie. A parte que parece ser inadequada é a estimação da prevalência da espécie. Isso também é compreensível pois saber quantas espécies existem em sub-regiões não fornece informação suficiente para extrapolação para toda a região de interesse, especialmente se a cobertura das sub-regiões é muito menor que a região toda.

Alguns esforços tem sido feitos na direção de melhorar as análises. Isto é, já que não há como completar os dados com ausências adequadamente,  o que mais podemos fazer? Ou de outra forma, existe alguma outra fonte de informação que pode ser usada para compensar a ausência das ausências? Nessa direção, uma linha de estudo que tem sido adotada é incorporar várias espécies em uma análise conjunta. Com isso, obtém-se mais informação e permite-se análises mais confiáveis.

Outra linha que me parece promissora é a inclusão de informação sobre a acessibilidade aos locais onde foi observada a presença da espécie. Saber o que fez com que aqueles (e não outros locais) foram visitados pode fornecer informação útil para o estudo de que fatores afetam a presença de espécie de interesse. Existem ainda dificuldades na separação do que é efeito da ocorrência com relação a o que é efeito da observabilidade. Estudos para elaboração de propostas que resolvam ou minimizem essas dificuldades estão em curso neste momento. 

Nada disso entretanto invalida a importância de redirecionar a coleta de dados em direção à inclusão de ausências. esse procedimento é mais caro mas é mais cientificamente defensável. As áreas de planejamento ótimo e amostragem preferencial teriam muito a acrescentar com vistas à otimização de custos.

Nenhum comentário:

Postar um comentário