StatPop - Popularização da Estatística: Regressão

Fonte: Pinto Jr et al. (2015)

As postagens anteriores sobre regressão apresentaram várias possibilidades de explicação de Y por X mas todas elas eram baseadas em explicações envolvendo um único preditor, e que é função apenas de X. Veremos agora extensões que prescindem dessas restrições.

A história da inclusão de mais de um preditor pode ser mais facilmente contada a partir da distribuição normal. Como todos sabem a distribuição normal possui média e variância. E esses parâmetros são ortogonais, no sentido que a informação que os dados possuem sobre eles atuam de forma independente. A forma mais conhecida desse resultado é a independência entre média e variância amostrais. Esse resultado se estende para preditores lineares que sejam associados à media e à variância. Assim, faz sentido procurar entender de que forma as variáveis explicativas afetam não só a média mas também a variância. Dessa forma, o modelo passaria a ter 2 preditores lineares: um preditor a + b₁ X₁ + ... + b_p X_ppara a média e outro preditor c + d₁ X₁ + ... + d_p X_p para a variância. As variáveis explicativas podem ser as mesmas ou não. Como já visto antes, é aconselhável aplicar uma transformação na ligação para a variância, posto que ela é sempre positiva e o preditor não. A ligação mais comumente usada é a logarítmica.

Essa mesma idéia usada na normal pode ser usada em modelos generalizados, mesmo que os parâmetros não sejam ortogonais. Como exemplo, podemos citar dados com estrutura Gama, onde existem 2 parâmetros (não ortogonais): média e parâmetro de forma. Como ambos são positivos, é comum que transformações sejam aplicadas em ambos os casos. A mesma idéia vale para casos mais gerais: muitas distribuições possuem mais de 2 parâmetros. Geralmente, um parâmetro é de locação e controla a média, outro é parâmetro de escala e controla a variância e o 3o parâmetro descreve a forma. Exemplos incluem a distribuição t-Student que possui média/locação, variância/escala e número de graus de liberdade.

Um característica quase que comum em todos esses casos é que é mais fácil estimar parâmetros ligados à locação e à média, seguidos de parâmetros ligados à escala e à variância. Os mais difíceis são os ligados à forma da distribuição, como o número de graus de liberdade da distribuição t. Nesses casos, são necessárias amostras relativamente grandes para que sejam obtidas estimativas com alguma confiabilidade.

Idéias similares podem ser aplicadas aos modelos de riscos proporcionais. Nesses modelos temos efeito das covariáveis aparecendo de forma multiplicativa à taxa de falha padrão, chamada de taxa de falha de base. Uma alternativa também considerada, ainda que em menor escala, é a inclusão do preditor linear de forma aditiva à taxa de falha de base. Independente da forma adotada para inclusão do preditor, é possível pensar em preditores associados a parâmetros usados em uma especificação paramétrica para a taxa de falha de base.

Outro acréscimo importante aos preditores é a inclusão de termos aleatórios para acomodar estruturas cuja origem não é clara mas que se sabe estar presente. É inevitável a presença de dependência quando se fazem medidas repetidas em uma mesma unidade. Exemplos mais frequentes incluem dados colhidos na mesma escola, no mesmo paciente ou no mesmo equipamento. Fatores cuja causa desconhecemos mas sabemos estar presente na unidade de medição podem intervir introduzindo dependência entre as medições lá realizadas. Modelos que não incorporam essas dependências estão sujeitos a obter inferência erroneamente mais precisa.

A forma mais simples de acomodar essas dependências é através da introdução de efeitos aleatórios. Com eles, o preditor, que já continha os efeitos fixos das covariáveis, passa a contar com esses efeitos. Nesse caso, os modelos passam a ser chamados de modelos mixtos. A estrutura para esses efeitos pode também ser associada a covariáveis e se encaixa na forma linear com facilidade. A figura acima ilustra os resultados de estimação do coeficiente da covariável idade em um modelo com efeitos aleatórios associados aos bairros em um estudo recente de mortalidade humana com as barras indicando os limites de credibilidade. A estreita área sombreada apresenta os limites de credibilidade do coeficiente fixo, sem a presença do efeito aleatório, e é erroneamente mais precisa.

Dependendo da área de aplicação, esses efeitos recebem nomes diferenciados que procuram enfatizar seu papel nos modelos que os utilizam. No caso de modelos de sobrevivência, como os modelos de Cox, esses efeitos aleatórios recebem o nome de fragilidades. Dois pacientes com as mesmas características podem ter sobrevida marcadamente diferente devido à diferença em suas fragilidades. Nos modelos de resposta ao item, esses efeitos recebem o nome de proficiência. A proficiência é a característica que varia de aluno para aluno e faz com quem uns tenham mais propensão a responder corretamente as questões que outros.

Finalmente, gostaria de registrar idéias sendo desenvolvidas no sentido mais geral possível: de explicar toda a distribuição de Y a partir dos valores de X ao invés de explicar alguma(s) característica(s) da distribuição, como vimos até agora. Nesse caso, o paradigma muda significativamente de complexidade. Ainda está cedo para falar dessa área mas acredito que ela irá crescer bastante nos próximos anos.

StatPop - Popularização da Estatística

terça-feira, 5 de janeiro de 2016

Regressão - parte III

Nenhum comentário:

Postar um comentário