terça-feira, 18 de junho de 2013

Como quantificar a informação a priori? - parte I



Essa questão foi levantada em uma discussão sobre futebol. A questão, em termos concretos, era se os resultados dos clubes em campeonatos estaduais poderiam (ou deveriam) ser usadas para sistemas de previsão de partidas do campeonatos brasileiro.

Para começar, é importante contextualizar o assunto. Como já vimos aqui, um ingrediente fundamental para o ponto de vista Bayesiano é a incorporação da informação que se dispõe na análise do problema. Portanto, não vamos discutir se devemos usar essa informação. Para um estatístico Bayesiano isso é uma obrigação. [Um estatístico não Bayesiano mas sensato poderá procurar alguma forma de incorporar essa informação na construção do seu modelo para os dados.] Assim, vou supor ser ponto pacífico que toda informação  disponível deve ser incluída. 

O que não foi dito é como fazer para incluir essa informação. Devo esclarecer de início que esse é um ponto de difícil solução. Muitos pesquisadores de Estatística mas também de outras áreas, como Psicologia e Computação, se debruçaram sobre o assunto ao longo de décadas. Vários resultados obtidos ajudaram a entender o problema mas nenhum resultado foi conclusivo ném poderia ser. A especificação da distribuição a priori é uma prerrogativa de quem faz a análise. 

Tendo isso em mente, podemos ilustrar esse ponto no contexto de previsão de partidas de futebol em 2013. Muitos sustentam que o bom início de ano do Botafogo é uma informação relevante que deveria ser incorporada a sistemas de previsão de resultados do Campeonato Brasileiro deste ano. Afinal, o Botafogo ganhou os 2 turnos do campeonato carioca, vencendo times de expressão nacional como Vasco, Flamengo e Fluminense (atual campeão brasileiro). Outros sustentam que o campeonato carioca não serve de parâmetro pois a maioria dos times é de menor expressão e que, portanto, a informação trazida pelo campeonato carioca é muito pequena. 

Essa discordância só serve para enfatizar a importância do indivíduo que faz a análise. Tomando o Botafogo como exemplo, a distribuição a priori sobre a performance desse time deve ser impactada pelo peso que o analista dá à relevância do campeonato carioca. A priori deveria estar concentrada em valores positivos e ser mais informativa (por exemplo, com variância menor) para aqueles que acreditam na relevância do campeonato carioca. Quem acha que o campeonato carioca traz pouca informação para o campeonato brasileiro deveria ter sua distribuição a priori sobre a performance do Botafogo menos informativa (por exemplo, com variância grande). Mas é inegável que ela deveria estar concentrada em torno de valores positivos, ou ao menos em valores superiores a Vasco, Flamengo e talvez até Fluminense. Raciocínio similar deve ser feito para todos os outros times do campeonato.

Todo esse arrazoado está ilustrado na figura acima. Tomando 0 como desempenho médio dos times, ambas as distribuições a priori estão centradas em valores positivos para o desempenho do Botafogo. A distribuição mais informativa está quase toda concentrada em valores positivos. A área colorida em azul representa a probabilidade para um desempenho abaixo da média (nesse caso, em torno de 2%). Já a distribuição menos informativa está também concentrada em torno de valores positivos mas com uma dispersão muito maior. Aqui, as chances do desempenho do Botafogo estar abaixo da média global, representadas pela área colorida em vermelho, são de 30%

De qualquer forma, como já discutimos antes, essa informação vai tendo seu peso diminuído paulatinamente à medida que as rodadas acontecem devido à alta volatilidade dos times brasileiros. Quanto deve diminuir o peso também é uma especificação subjetiva. Quem sabe exatamente quanto deve ser essa diminuição, deve incorporar essa quantificação no sistema. Quem não sabe, deve especificar uma distribuição a priori para ela e deixar os resultados dos jogos informarem quão alta ela deve ser.

Essa volatilidade alta tem consequências. Previsões feitas no início do campeonato sobre o campeão brasileiro de 2013 deverão ser extremamente dispersas. Não deveria assim surpreender se o Botafogo terminasse longe das 1as colocações mesmo sendo apontado como um dos favoritos no início. Portanto, as chances de todos os times deveriam ser muito parecidas, em torno de 5% (= 1/20), mesmo havendo times cujos desempenhos são julgados a priori como superiores e outros cujos desempenhos são julgados a priori como inferiores. Eu desconfiaria de qualquer sistema que fizesse previsões para eventos que só se realizarão ao fim do campeonato (título, rebaixamento, ida para a Libertadores, etc) com probabilidades superiores a digamos 15% A alta volatilidade e a longa duração do campeonato brasileiro não permitem tanta precisão. Nate Silver, um dos estatísticos-blogueiros mais renomados da atualidade, parece concordar comigo ao sugerir não confiarmos em ningém que seja muito confiante em suas previsões, especialmente previsões de longo prazo.

Claro que esta postagem não chega nem perto de exaurir o tema de quantificação da priori em sistemas de previsão de futebol. Muito menos ainda ele exaure o tema geral de quantificação da priori. Voltaremos a esse tema ainda outras vezes, procurando sempre ilustra-lo em algum contexto aplicado. 

2 comentários:

  1. "Essa discordância só serve para enfatizar a importância do indivíduo que faz a análise." Dani, então só os muito bons fazem análises bayesianas muito boas? E os medianamente bons, só fariam análises medianas? Fiquei confuso...Abraços!

    ResponderExcluir
  2. Oi Edson, acho que você tocou no ponto chave. A teoria te serve como guia mas você precisa saber trilhar seu caminho dentro das inúmeras opções que ela te oferece.

    ResponderExcluir