terça-feira, 16 de dezembro de 2014

Podemos usar os dados mais de 1 vez?


A pergunta do título parece simples e do ponto de vista teórico ela efetivamente é bastante simples. A resposta é claramente não. Afinal se supomos que os dados são replicados, suas características serão reforçadas e acabaremos tirando conclusões com precisão muito maior do que de fato poderíamos. No entanto, a prática de todo estatístico muitas vezes leva a situações que colocam em cheque preceitos teóricos indiscutíveis.

Um exemplo desse tipo de situação foi fornecido pela postagem da semana passada. A postagem tratou de uma área bastante ampla da Estatística e que não para de crescer, que é a modelagem hierárquica. Como vimos, essa área inevitavelmente envolve quantidades que são desconhecidas e que, portanto, devem ser estimadas. Uma ilustração é dada pelo modelo de equações estruturais onde os fatores latentes f e g poderiam estar relacionados por uma equação de regressão latente
 g = a + b f  + w, 
onde w representaria o erro dessa regressão latente. As quantidades a e b tipicamente são desconhecidas. Saber o valor de b é importante para medir a força do impacto que f tem sobre g, que indiretamente nos informa sobre a força do impacto que x tem sobre y. Entretanto, a e b não estão diretamente relacionadas aos dados, apenas f (relacionado a x) e g (relacionado a y). Esse tipo de quantidade que não está diretamente relacionada aos dados costuma ser chamada de hiperparâmetro. Assim, estimação de hiperparâmetros está longe de ser uma tarefa trivial, tanto do ponto de vista frequentista quanto sob a ótica Bayesiana. 

A solução mais óbvia e muitas vezes adotada é supor que o valor desse hiperparâmetro é conhecido. Por exemplo, assumiriamos que b=2. Isso equivaleria a dizer que o aumento do valor de f em 5 unidades implicaria em um aumento de g em 10 unidades. Essa estratégia já é um indício de utilização dupla dos dados. Afinal, de onde poderá ser extraido esse valor de forma coerente que não a partir de uma análise (ainda que preliminar) dos dados? Claro que pode-se lançar mão de outras fontes de informação mas essas raramente estão disponíveis para hiperparâmtros situados em níveis mais altos na hierarquia do modelo.

Uma versão menos radical da estratégia acima é viabilizada pela abordagem Bayesiana. Ao invés de dizer que sabemos o valor do hiperparâmetro (b=2, no exemplo acima), pode-se colocar uma distribuição a priori que leve em conta a informação acima, sem impor nada a priori na análise. Ainda no exemplo acima, poder-se-ia dizer que b tem distribuição a priori com média 2 e alguma variância positiva. Essa especificação continua reforçando o valor 2 mas admite outros valores para b. Obviamente o espectro de valores contemplados para b depende da variância a priori. Se a variância a priori fosse 1, teríamos que b estaria concentrado entre 0 e 4 com alta probabilidade a priori pois P( 0 < b < 4 ) = 95%.

Novamente esse valor preferencial irá impactar a análise mas a força do seu impacto será tanto maior quanto menor for a variância a priori. Em um extremo teríamos variância 0, que na prática implica em impacto total, com pre-fixação do valor de b. No extremo oposto, ter-se-ia variância infinita, com o valor pré-fixado não tendo influência nenhuma na análise estatística. Uma variância alta porém finita implicaria em uma influência não desprezível mas reduzida do valor pré-fixado (b=2). Nesse caso, se o valor 2 tiver sido escolhido com base nos dados, estaríamos usando os dados mais de uma vez mas de forma parcimoniosa e, possivelmente, aceitável.

A discussão acima parece sugerir que esse tipo de problema (múltipla utilização dos dados) é uma característica da abordagem Bayesiana. Nada poderia ser mais falso. O que dizer dos procedimentos frequentistas onde uma análise exploratória preliminar ajuda a entender se existe assimetria ou correlação serial e a partir dela é feita uma especificação do modelo. Não estariam sendo usados os dados múltiplas vezes?

Perceber dessas análises preliminares que não existe assimetria equivale a impor no modelo que o parâmetro de assimetria é 0. Isso é igual ao procedimento acima de pré-fixação de hiperparâmtros utilizado na modelagem hierárquica, que questionamos. Analogamente, se analisando dados de contagem entendemos ser válida a hipótese dos dados terem distribuição de Poisson, também estamos pré-fixando valores de quantidades relevantes, ainda que façamos isso de forma inconsciente. 

A moral dessa história é que torna-se quase inevitável fazer escolhas arbitrárias na construção de modelos. Ao se basear nos dados para fazer essas escolhas, estamos incorrendo em erros que fornecem análises erroneamente mais precisas. Existem formas de incorporar a incerteza sobre o modelo no procedimento de inferência mas isso será deixado para uma outra postagem. Novamente a parcimônia deverá ser chamada para permitir a distinção entre o que é aceitável e o que contamina de forma prejudicial as certezas obtidas com as análises realizadas.

2 comentários:

  1. Professor,
    Caberia uma correção em "...incerteza cobre...", no último parágrafo?
    Abraços

    ResponderExcluir