terça-feira, 7 de novembro de 2017

O desempenho de nossas previsões para o Campeonato Brasileiro de futebol 2017

http://espn.uol.com.br

Há algumas postagens atrás, divulguei aqui que nossas previsões para o Campeonato Brasileiro de futebol 2017 estavam em blog exclusivo para este fim. Passadas algumas semanas de funcionamento, estamos em um bom momento para ver como anda o desempenho dos resultados lá divulgados. Decidimos fazer isso no blog comparando os resultados contra alguns sistemas de previsão em atividade no momento para o campeonato em discussão. 

A questão sobre como avaliar previsões de partidas de futebol também já foi tratada aqui. Resumidamente, uma previsão de futebol é tão boa quanto a probabilidade que ela atribui ao resultado que acabou sendo obtido. Tomando como exemplo o jogo Atlético Goianiense (ACG) x São Paulo (SPO) ocorrido na última rodada (rodada 31), nossas previsões para essa rodada (feitas e divulgadas com 5 dias de antecedência) indicaram probabilidades 30%, 32% e 38% para vitória do mandante (ACG), empate e vitória do visitante (SPO). Como o resultado do jogo foi vitória do SPO, nosso sistema de previsão computa a probabilidade 38%. 

Já o modelo que chamamos de simples atribui probabilidades iguais para os 3 resultados possíveis, isto é 33%. Então para qualquer jogo ele computa 33%. No caso desse jogo, esse resultado foi pior que o resultado obtido por nosso sistema de previsão. Felizmente! Já o último jogo listado (Vasco x Vitória) terminou empatado. Esse resultado recebeu previsão 29% de nosso sistema e portanto nosso sistema teve desempenho pior que o modelo simples (29% < 33%). 

Uma forma de combinar todas essas previsões é através da multiplicação das probabilidades obtidas para cada jogo. Implícita nessa idéia está a noção de independência entre as previsões dos diferentes jogos. Essa noção não é exatamente correta mas é uma boa aproximação e simplifica muito as contas.  Essa conta fornece números muito baixos para todos os sistemas de previsão por sser resultado da multiplicação de números menores que 1. Por isso, fica melhor comparar esse valor agregado sobre os 10 jogos da rodada para um dado sistema de previsão comparado com o mesmo valor obtido para outro sistema de previsão. 

Nosso blog vem acumulando os resultados dessas comparações ao longo das últimas rodadas. Uma das postagens de ontem apresenta essas contas, sempre contrastado o desempenho dos diferentes preditores contra o modelo simples. Assim, por exemplo, na linha da rodada 32 aparece o número 2,87 na coluna da UFRJ. Para entender como se chega a esse número basta multiplicar as probabilidades segundo nosso modelo para os resultados que ocorreram nos 10 jogos dessa rodada, dividido pela mesma conta para o modelo simples. [Note que para o modelo simples, as probabilidades ocorridas são sempre as mesmas independente do jogo e do resultado.] As entradas estão destacadas na fórmula abaixo  



Esse numero significa que nossa probabilidade preditiva para os jogos dessa rodada foram 187% maiores que a probabilidade preditiva do modelo simples. Portanto, para essa rodada nosso modelo teve um desempenho preditivo quase 3 vezes melhor que o modelo simples. Os modelos dos sites Chance de Gol e 538 foram melhor nessa rodada e tiveram desempenhos quase 6 e 5 vezes melhores que o modelo simples, respectivamente. 

A agregação do desempenho ao longo de todas as rodadas computadas oferece uma visão mais abrangente dessa comparação. Nessa comparação agregada, nosso sistema apresenta uma clara vantagem sobre todos os nossos competidores, com desempenho quase 3 ( 4,67/1,54) vezes melhor que nosso melhor competidor (nesse caso, o site Chance de Gol). 

Vale ressaltar que esse bom desempenho foi obtido com um sistema que apresenta comportamento estático, isto é, assume que as características dos times não mudam ao longo do campeonato. Esse campeonato mostrou evidências que isso não é apropriado (a disparidade no desempenho do líder Corinthians nos dois turnos é o exemplo mais eloquente). Em breve, pretendemos incluir o desempenho do sistema dinâmico que permite essas mudanças e esperamos obter resultados ainda melhores.

Nenhum comentário:

Postar um comentário