terça-feira, 22 de dezembro de 2015

Regressão - parte I

http://onlinelibrary.wiley.com/doi/10.1111/j.1740-9713.2011.00509.x/full

O assunto regressão já foi mencionado inúmeras vezes no StatPop (a pesquisa aqui ao lado indicou 17 ocorrências). Mas ainda não foi dada uma apresentação introdutória ao tema. Essa lacuna foi explicitada em comentários e talvez valha a pena uma incursão no tema. Regressão pode ser entendida em Estatística como qualquer procedimento que procure explicar o comportamento de uma variável (usualmente chamada de resposta e denotada por Y) em função de outras variáveis (chamadas de covariáveis ou variáveis explicativas, denotadas por X1, ... , Xp). 

O termo regressão foi cunhado pro Sir Francis Galton no contexto de explicar a altura dos filhos em função da altura dos pais. Galton acreditava que pais altos tenderiam a ter filhos baixos e vice versa, numa tendência em direção à média. Daí surgiu a expressão regressão em direção à media ou, mais simplesmente, regressão.

[Sempre me causou espécie esse entendimento pois acredito que pais altos tendem a ter filhos altos. Em visita recente ao departamento onde Galton trabalhou, externei essa minha discordância a um professor titular desse departamento e ele concordou comigo. Essa discussão não é o foco aqui mas quem se interessar por ela, pode ver mais detalhes de um texto sobre o assunto de onde foi extraída figura acima, com os dados que Galton utilizou.]

De qualquer forma, a idéia é extremamente útil e tem sido usada massivamente nas mais variadas áreas da Ciência. Na sua formulação mais simples, teríamos que a média de Y poderia ser escrita como uma função das variáveis explicativas e a maneira mais simples de fazer isso é através de combinação linear, isto é,

E(Y) = µ = a + b1 X1 + ...  + bp Xp

onde b1 , ...  , bp são chamados de coeficientes de regressão. São eles que informam a Y a magnitude da influência das variáveis explicativas. Normalmente os valores desses coeficientes não são conhecidos e o processo de estimação mais usado é o de mínimos quadrados, que visa dar a melhor explicação possível para o efeito das covariáveis na resposta.

Essa estrutura é o ponto de partida para uma série de extensões. As mais importantes foram desenvolvidas ou formalizadas na 2a metade do século passado, notadamente na década de 70. Elas dizem respeito a um aumento no escopo de atuação dessa idéia tão geral. A estrutura de regressão está intimamente ligada a observações normais e essa hipótese está longe de ser a norma ou mesmo a mais comum. Muitas vezes, deseja-se explicar a contagem de pacientes de um hospital em função das condições climáticas ou a falha de peças em uma linha de produção industrial em função das condições em que elas foram produzidas. Ambos os exemplos acima envolvem respostas que estão muito longo do padrão de continuidade exigido pela normal. Contagens de pacientes estão concentradas nos números inteiros e presença de falha se concentra em apenas 2 valores possíveis (0/1, sim/não). Estudos dessa natureza já vinham sendo desenvolvidos desde o início do século mas eram sempre tratados de forma específica aos dados usados.

No início dos anos 70, os estatísticos britânicos John Nelder e Robert Wedderburn nos mostraram que esses e vários outros problemas poderiam ser colocados juntos com a mesma estrutura da regressão de dados normais, com pouco custo adicional. O custo extra vem do fato do modelo possivelmente requerer alguma transformação na média antes de explicá-la através do preditor linear a + b1 X1 + ...  + bp XpNote que a média só pode ser positiva no caso de contagens ou está em [0,1] no caso de indicadores de falha, enquanto que o preditor pode assumir qualquer valor. A transformação visa permitir que a esses elementos possam ser igualados. Isso complica as contas necessárias para obtenção dos estimadores dos coeficientes de regressão mas Nelder e Wedderburn mostraram que bastava trocar a minimização dos quadrados por uma nova minimização de quadrados realizada de forma iterativa e que, na maioria dos casos, muito poucas iterações são necessárias.

A desvinculação entre preditor e média liberou os estatísticos de uma camisa de força que dificultava o seu avanço. Logo a seguir, Sir David Cox introduziu o seu modelo de riscos proporcionais. Agora, o preditor atuava diretamente na taxa de falha dos dados e não mais em sua média ou mesmo de alguma transformação dela. Essa idéia se encaixou como uma luva nos estudos biométricos. Nesses estudos, os resultados são muito mais reportados em termos de razões de chances que em termos de coeficientes de regressão. Os modelos de Cox fornecem diretamente uma interpretação dos razões de chances em função do preditor e portanto permitiram que elas pudessem ser estimadas e testadas.

Outro avanço importante centrado agora do outro lado do Oceano Atlântico foi feito por Roger Koenker em direção à regressão quantílica, isto é, ao invés de explicar a média da resposta Y, procurou-se explicar algum quantil da resposta. Claro que existe uma relação entre quantis e média mas a ênfase nos quantis servia para aproximar a estatística de seus usuários. Agora, outras características da distribuição dos dados além da média poderiam ser usadas para introdução dos efeitos das covariáveis. Isso pode facilitar a compreensão do problema, formulação de modelos e interpretação dos resultados por parte dos usuários.

A lista de extensões do conceito de regressão está longe do fim mas, como esse texto já está relativamente longo, acho melhor deixar as próximas para a postagem da próxima semana.

Um comentário:

  1. Caro Professor,

    Li o artigo do Professor Senn (http://onlinelibrary.wiley.com/doi/10.1111/j.1740-9713.2011.00509.x/full) e discordo de como o assunto da regressao a media foi colocado aqui [neste post].

    Galton nao disse que pais altos tenderiam a ter filhos baixos. O que ele disse e' que pais mais altos (baixos) tendem a ter filhos mais proximos a media. Se nao fosse assim, a distribuicao de alturas se tornaria cada vez mais difusa, o que nao acontece. Ou seja, embora seja verdade que pais altos (baixos) tenham filhos altos (baixos), estes tendem a ser mais altos (baixos) que seus pais simplesmente por estarem mais proximos a media. Isto e', "regridem" a media.

    Nas palavras de Senn:

    "Regression to the mean is a consequence of the observation that, on average, extremes do not survive. In our height example, extremely tall parents tend to have children who are taller than average and extremely small parents tend to have children who are smaller than average, but in both cases the children tend to be closer to the average than were their parents. If that were not the case the distribution of height would have to get wider over time."

    Leonard Mlodinow explica esse fenomeno no contexto de sucesso/fracasso em seu otimo livro "O Andar do Bebado".

    Cordialmente,

    Luiz

    ResponderExcluir