terça-feira, 27 de novembro de 2012

O futebol é uma caixinha de surpresas?

(A célebre frase do radialista Benjamim Wright é  re-escrita, como uma pergunta.)

Alexandre Loureiro/vipcomm

Sempre que chegamos perto do fim do ano, ressurge o interesse de uma parcela expressiva da população brasileira pelas previsões sobre o desempenho dos times de futebol. Acompanhando esse interesse, houve um crescimento substancial no número de grupos fornecendo essas previsões, com grande participação de estatísticos. Eu mesmo atuei nessa área na década passada com alunos de graduação e pós-graduação (ver abaixo). Pode parecer estranho para alguns mas existe uma quantidade razoável de cientistas espalhados pelo mundo que se dedicam ao estudo de previsões esportivas.
Mas voltando à pergunta do título, como é possível prever fenômenos tão incertos quanto resultados de partidas de futebol? Na realidade, o ponto de partida deve ser o mesmo do estudo do ENEM e de vários outros problemas da vida real: formulação de hipóteses que descrevam o fenômeno estudado. O futebol não é diferente e aqui se deve descrever as características que definem os desempenhos dos times. Exemplo: fatores como força de ataque, de defesa e do mando de campo de cada time ou mesmo um único indicador do desempenho de cada time. Esses indicadores são quantificados com os resultados das partidas já realizadas.
Isso tem sido feito com relativo sucesso pelos vários preditores existentes. Um aspecto que acho que ainda pode melhorar é a compreensão da mudança do desempenho dos times ao longo das rodadas. Esse ponto é particularmente relevante para campeonatos no Brasil pois os times aqui tem comportamento muito mais volátil do que os da Europa, por exemplo.
Isso faz com que vários resultados preditos com 1% ou menos de probabilidade acabem ocorrendo muito mais que 1 vez a cada 100 vezes. Também percebemos muitos casos onde são dadas probabilidades altas de eventos futuros (título, rebaixamento, ...) de um time a mais de 10 rodadas do fim do campeonato. Em campeonatos brasileiros, muito pouco pode ser dito com tamanha precisão e tanta antecipação. O resultado só pode ser o malogro dessas “previsões” . Uma correta avaliação das mudanças no tempo tornaria praticamente impossível fazer afirmações tão precisas. Mas essa avaliação não é tarefa fácil, mesmo para estatísticos com boa formação.
Finalmente, as perguntas mais importantes: como comparar previsões? como avaliar se uma previsão é boa? Para responder essas perguntas temos antes que decidir o que queremos prever: o resultado exato do jogo, a diferença no número de gols ou apenas quem vai vencer? Vamos simplificar e supor que queremos apenas saber se uma partida será vencida pelo mandante, pelo visitante ou terminará empatada. Assim, deveríamos fornecer as probabilidades desses 3 resultados.
Vamos responder 1º como comparar previsões e tomar como exemplo as previsões de Pedro e Antônio para o jogo Flamengo 2 x 1 Atlético-MG, ocorrido em 26/09/2012. Pedro previu vitória do Flamengo (F), empate (E) e vitória do Atlético-MG (A) com probabilidades 40%, 10% e 50% Já Antônio previu os mesmos resultados com probabilidades 35%, 30% e 30% Aparentemente Pedro se saiu pior. Afinal o resultado mais provável para ele (A, com prob 50%) não aconteceu enquanto que o resultado mais provável para Pedro (F, com prob 35%) foi para um resultado que aconteceu.
Entretanto, o fato mais relevante aqui é a avaliação das probabilidades atribuídas ao resultado que aconteceu e não aos resultados que poderiam, mas não aconteceram. Como Pedro deu maior probabilidade que Antônio para a vitória do Flamengo (40% é maior que 35%), ele deve ser considerado o vencedor dessa disputa. Esse é o princípio da máxima verossimilhança, que privilegia o preditor mais verossímil, ou seja, o preditor que dá maior probabilidade para o resultado que ocorreu. Esse princípio norteia muitas escolhas feitas em Estatística e é preferido de boa parte dos estatísticos.
Já a 2ª pergunta é mais complicada e é um problema para o qual não existe nenhuma resposta hegemônica, nem eu tampouco tenho uma opção preferida. Para não deixar a pergunta totalmente sem resposta, vou apenas mencionar um critério interessante, já usado acima neste post: o de preditor bem-calibrado. Antônio é um preditor bem-calibrado se, de todas previsões que ele faz com  40% de probabilidade, ele acerta exatas 40% das vezes. Isso deve valer também para as previsões com 50%, 60%, ... de probabilidade.
A argumentação acima é toda baseada no princípio de que é inevitável o uso de probabilidades para tratar problemas com incerteza. Esse princípio será tema de um post futuro.

Ver apresentação, preparada com Oswaldo G Souza Jr, ex-aluno de Estatística da UFRJ (não confundir com o matemático Oswald de Souza)

2 comentários:

  1. Modelei os dados deste campeonato brasileiro utilizando um modelo linear generalizado com resposta Poisson para os gols de cada equipe em cada partida.
    A partir do modelo estimado, fiz simulações para determinar a probabilidade de ser campeão, ir para libertadores e rebaixamento para cada time. Comecei a fazer esses cálculos por volta da 20ª rodada.
    Devido ao grande equilíbrio entre as equipes, a minha projeção para a classificação final no campeonato era praticamente uma projeção 'naive'. Ou seja, na grande maioria dos casos era uma réplica da classificação da rodada atual.
    Isso não ocorreu, segundo a minha memória, apenas duas vezes. Ambas previam a queda do Vasco na tabela e a ascensão do Grêmio e do São Paulo.
    Acredito que isso ocorreu devido ao grande equilíbrio entre as equipes que acaba sendo traduzido como incerteza na previsão dos resultados das partidas.

    Obs: Eu tenho uma base de dados com os resultados das partidas a partir do campeonato de 2003. Quem estiver interessado é só me mandar um e-mail(thiagosantossousa@gmail.com).

    ResponderExcluir
  2. Thiago, seu comentario apenas reforca o ponto que enfatizei na minha postagem: a importancia de incorporar corretamente a variacao ao longo das rodadas dos desempenhos dos times.

    ResponderExcluir