A discussão sobre a palavra mais apropriada para descrever esse fenômeno apareceu recentemente em uma lista de discussão de Estatística. Acho que a expressão overdispersion foi introduzida (ou ao menos disseminada) por John Nelder em seu clássico livro Generalized Linear Models, escrito com Peter McCullagh. A questão colocada na lista era qual a melhor tradução: sobredispersão ou superdispersão? Antes de tudo, entretanto, seria bom saber do que se está falando.
O que é sobredispersão?
Sobredispersão é o termo usado em Estatística para caracterizar situações onde a dispersão é maior do que a prescrita pelo modelo padrão. Como exemplo, imagine que os dados seguem uma distribuição de Poisson com taxa igual a um milhão. Sabemos que a dispersão (medida pela variância) da Poisson é igual à média e imagine que os dados deste exemplo confirmam isso. Trata-se portanto de uma dispersão bem grande, uma superdispersão! Entretanto, não parece estar ocorrendo o fenômeno de sobredispersão pois a dispersão obtida, embora grande, é compatível com o modelo imaginado.
Imagine agora que os dados parecem seguir uma distribuição de Poisson com taxa igual a 1. Mas após observar os dados, eles parecem indicar uma média em torno de 1 e uma dispersão em torno de 2. A dispersão é muito baixinha; está longe de poder ser caracterizada como uma superdispersão. Mas parece estar havendo o fenômeno de sobredispersão pois a dispersão é, em termos relativos, bem maior que a dispersão prescrita pelo modelo que gostaríamos de usar.
Por que existe sobredispersão?
Existem inúmeras causas para a existência de sobredispersão. Uma das causas mais comuns é uma contaminação por misturas. Isso acontece quando supomos que os dados provêm de uma população homogênea sem nos darmos conta que outras (sub-)populações também comparecem.
Um exemplo real onde isso está acontecendo agora no Brasil é em avaliações educacionais. Para cuidar das deficiências no ensino público, cotas sociais vem sendo criadas para beneficiar alunos de escolas públicas. Entretanto essa população supostamente homogênea é composta por uma maioria homogênea mas minorias importantes existem: alunos das escolas públicas federais têm desempenho reconhecidamente superior e alunos das escolas públicas de municípios muito pobres têm desempenho reconhecidamente inferior. Nada se altera na média global pois os extremos se compensam, mas a dispersão aumenta consideravelmente.
Casos como o acima são comuns. A maior parte dos dados provem da distribuição padrão mas uma parte, em geral pequena, provêm de outras distribuições. Se elas estiverem concentradas em valores muito diferentes do padrão ocorre o fenômeno de outliers ou dados aberrantes.
A figura do início desta postagem ilustra esse comportamento. Pode-se ver que a distribuição sobredispersa está, como o seu nome diz, mais dispersa ou espalhada (em linguagem coloquial) ao longo dos valores possíveis. Esse maior espalhamento fica evidente pelas probabilidades mais altas dos valores afastados da média e mais baixas em torno da média. No caso da figura, a sobredispersão é o dobro da prescrita pelo modelo básico. [A figura foi obtida ao misturar uma população Poisson predominante (84% do total) com 2 outras populações também Poisson mas minoritárias (8% do total para cada) com médias 10 unidades maior e menor que a da população dominante.]
Um exemplo real onde isso está acontecendo agora no Brasil é em avaliações educacionais. Para cuidar das deficiências no ensino público, cotas sociais vem sendo criadas para beneficiar alunos de escolas públicas. Entretanto essa população supostamente homogênea é composta por uma maioria homogênea mas minorias importantes existem: alunos das escolas públicas federais têm desempenho reconhecidamente superior e alunos das escolas públicas de municípios muito pobres têm desempenho reconhecidamente inferior. Nada se altera na média global pois os extremos se compensam, mas a dispersão aumenta consideravelmente.
Casos como o acima são comuns. A maior parte dos dados provem da distribuição padrão mas uma parte, em geral pequena, provêm de outras distribuições. Se elas estiverem concentradas em valores muito diferentes do padrão ocorre o fenômeno de outliers ou dados aberrantes.
A figura do início desta postagem ilustra esse comportamento. Pode-se ver que a distribuição sobredispersa está, como o seu nome diz, mais dispersa ou espalhada (em linguagem coloquial) ao longo dos valores possíveis. Esse maior espalhamento fica evidente pelas probabilidades mais altas dos valores afastados da média e mais baixas em torno da média. No caso da figura, a sobredispersão é o dobro da prescrita pelo modelo básico. [A figura foi obtida ao misturar uma população Poisson predominante (84% do total) com 2 outras populações também Poisson mas minoritárias (8% do total para cada) com médias 10 unidades maior e menor que a da população dominante.]
Se formos coletar dados provenientes desse exemplo, fatalmente obteriamos dados aberrantes. E teriamos dados aberrantes para mais e para menos. A maior parte dos dados ficaria concentrada em torno da média comum mas uma pequena parcela dos dados seria muito maior que essa média e outra parcela igualmente pequena dos dados seria muito menor que a média. Esse é um exemplo da presença de outliers na amostra como consequência direta da existência de sobredispersão.
Por que o termo sobredispersão e não superdispersão?
Por que o termo sobredispersão e não superdispersão?
Há quem defenda o uso da palavra superdispersão. Como fica claro da definição, sobredispersão é um fenômeno relativo e não absoluto. Isto é, não basta a dispersão ser grande para haver sobredispersão. Da mesma forma, é possível haver sobredispersão mesmo quando a dispersão é pequena. Entendo que sobre é o prefixo que deve ser usado em situações relativas e super para situações absolutas. Além disso, a tradução literal de over é sobre, e não super.
Embora essa associação de palavras seja a dominante, vale dizer que há exceções tanto na nossa língua quanto na língua inglesa de palavras com usos contrários ao descrito acima. Mas como dito acima, são exceções que só servem para confirmar a regra.
Conclusão
Após tudo isso, achei que o assunto deveria vir para este blog. Devo confessar que as exceções, ilustrando a diversidade presente na língua portuguesa, mexeram com a certeza que eu possuía. Há também quem ache que não devemos gastar muito tempo com essas questões, evidentemente secundárias. Continuo achando que devemos empenhar algum esforço nessa questão. Reforçar a nomenclatura na sua forma mais correta facilita a compreensão de um conceito. Por tudo isso, o mais apropriado é usar apenas o nome sobredispersão.
Muito esclarecedor o texto. Obrigado!
ResponderExcluir