terça-feira, 3 de dezembro de 2013

Correlação e dependência são a mesma coisa?



Um problema importante nas Ciências é o de medir a dependência entre variáveis. Esse é o primeiro passo para se identificar possíveis relações de causa e efeito entre elas. Entretanto, quando se fala de quantidades aleatórias, isso está longe de ser uma tarefa simples. Alguns esforços foram feitos no sentido de sumarizar essa medição para facilitar a comunicação de resultados. Entretanto, ao sumarizar estamos sempre expostos ao risco de descartar aspectos relevantes. É exatamente isso que ocorre aqui. 

As sumarizações mais frequentes da dependência entre variáveis são através de medidas de correlação e a mais comum delas é o coeficiente de correlação. Essa é uma medida bastante apropriada para sumarizar dependência na forma linear entre variáveis e é comumente chamada apenas de correlação. Mas ela também tem suas limitações, que os usuários de Estatística muitas vezes não se dão conta. Ela é uma medida de dependência linear. Dependências não-lineares, por mais fortes que sejam, não refletirão em correlações altas. 

O exemplo da figura acima demonstra isso. Suponha que uma amostra de pessoas foi selecionada e foi anotado quantas doenças cada uma dessas pessoas teve ao longo do ano. O gráfico reflete o entendimento simplista que crianças e idosos são mais propensos a doenças, reduzindo essa propensão à medida que se aproxima da idade adulta. Esses dados mostram o coeficiente de correlação praticamente nulo entre idade e número de doenças. De fato, a correlação encontrada foi de 0,069. Apressadamente poderia se concluir que idade e número de doenças não têm nenhuma relação ou dependência entre si. Nada poderia ser mais equivocado!

Para entender como idade influencia o número observado de doenças, considere agora a função | idade – 40 |3. Quanto maior for a distância de 40 anos, maior o valor nessa nova escala. Vamos repetir o gráfico de dispersão do início dessa postagem, agora nessa nova forma de medir idade. O resultado obtido está na figura abaixo.


Pode se observar que existe uma correlação muito forte entre as variáveis consideradas. De fato, o valor encontrado para a correlação foi 0,872, mostrando que a idade é um forte preditor do número de doenças mas não na escala linear. Note que tal escala ném sempre existe em muitos estudos. Isso acontece quando não existe dependência entre as variáveis. Mesmo que exista dependência, não é fácil encontrar a escala apropriada. Mas esse não é o ponto mais relevante aqui. 

Poderia se argumentar que os dados apresentados nas figuras não são muito realistas mas esse também não é o ponto mais relevante aqui. Não estamos propondo um estudo para relacionar a complexa relação entre idade e estado de saúde. Esse é um mero exemplo ilustrativo. Quem preferir, pode trocar idade e número de doenças por tempo de funcionamento de máquinas e número de falhas; dados qualitativamente similares seriam obtidos.

O ponto mais importante a ser ressaltado é que haver correlação (linear) baixa entre 2 variáveis não implica ausência de dependência entre elas. Outro ponto é que dependência entre variáveis é um fenômeno muito complexo e muitas vezes não é sumarizável. No exemplo simples desta postagem, praticamente inexiste a relação linear mas foi possível encontrar uma transformação que permitiu uma sumarização satisfatória da dependência em termos de correlação. Em outros exemplos, nem isso é possível. Nesses casos, medidas mais complexas são necessárias e não envolvem um único número. Alguma vezes, é necessário usar toda uma função para fazer essa caracterização da dependência. Uma das formas mais populares nos últimos anos é através do uso de cópulas. Mas isso será deixado para uma postagem futura.

2 comentários:

  1. Sidgley, o ponto desta postagem foi tentar esclarecer a pergunta inversa: E se as variáveis forem não-correlacionadas, então elas serão independentes? Espero ter conseguido ilustrar no texto que a resposta é não e ter conseguido justificar esse não através do exemplo.

    ResponderExcluir