terça-feira, 16 de junho de 2015

Futebol e big data


Futebol é uma das maiores paixões nacionais e o StatPop procura, sempre que possível, repercutir o lado estatístico dessa paixão. Já publicamos várias postagens sobre o assunto, especialmente durante a Copa do Mundo de 2014. Semana passada, fomos contactados por um profissional de um grande time de futebol. Não posso revelar a equipe a pedido do profissional mas isso não é muito relevante. Diferente do que eu poderia antever, trata-se de uma pessoa com boa formação acadêmica, que resolveu aliar os conhecimentos científicos adquiridos nos seus estudos com sua paixão pelo esporte.

Ele coordena um trabalho de levantamento bastante minucioso de dados. E haja dado! Existem informações óbvias e disponíveis na internet sobre desempenho de equipes para encher vários armazenadores de memória domésticos: número de chutes, numero de passes, numero de desarmes, tipo de chutes, tipo de passe são apenas alguns exemplos. E esses dados estão disponíveis para muitos campeonatos, notadamente os europeus e por muitos anos.

Esse nosso interlocutor resolveu se concentrar em dados sobre jogadores individuais. Exemplos de informação coletada incluem: quantidade, velocidade e frequência de deslocamentos e de passes/chutes. Ele tem tido um relativo sucesso no processamento desses dados com vistas à geração de estatísticas descritivas. A figura acima é uma das muitas que o sistema que ele criou é capaz de gerar. Ela descreve os deslocamentos de um dado jogador e caracteriza-os em termos de posicionamento mas também em termos do tempo do jogo, da velocidade e da direção. Além da apresentação do dado bruto, há também a construção de histogramas. Já haviamos falado aqui sobre big data ou grandes massas de dados e demos exemplos nas áreas de marketing e de genética. Essas estão longe de ser as únicas áreas. O estudo aqui descrito é apenas mais um exemplo que se encaixa bem nessa categoria: dado é o que não falta!

Onde ele tem esbarrado, e daí o interesse em nosso contato, é como fazer para cruzar essa informação com outras potencialmente relevantes tais como placar do jogo, adversário e onde o jogo está se realizando (em casa/visitante). Todos sabemos da relevância dessas informações mas nem todos sabem como incorporá-las para não só identificar tendências mas quantificá-las. É nesse ponto que ele sentiu necessidade de contato conosco para tentar construir ferramentas que lhe permitam fazer esses cruzamentos e avaliar a sua relevância. 

No final das contas, o objetivo é prever a performance da equipe ou do jogador mas no meio do caminho vem a tentativa de detectar algum padrão. Engana-se aquele(a) acha que essa profusão de informação é prerrogativa do futebol, devido à quantidade de jogadores de cada equipe. Vários outros esportes populares no Brasil e em outros países tem gerado quantidades de dados equivalentes ou até superiores para partidas desses esportes. E muitas vezes, essa informação está disponível na internet para quem quiser.

Durante a conversa, procurei pontuar com os modelos que já vi sendo propostos e os avanços que eu mesmo realizei na área, para tentar trazer ele um pouco para o mundo mais formal da Estatística. Eu não sei onde vai dar a nossa conversa mas acho ela extremamente enriquecedora pela possibilidade de interação da nossa capacidade de modelagem de um lado com as restrições impostas pela realidade e pelo tipo de informação disponível pelo outro lado. 

Nenhum comentário:

Postar um comentário