-
Mikael Koutero,
Publié le 24/08/2018
Nombreux sont ceux à avoir essayé de prédire le vainqueur de la coupe du monde 2018. Etait-ce vraiment possible ?
La prédiction de score passe par les étapes classiques d’un projet de Data Science : obtenir des données, les comprendre et les modéliser.
L’approche classique (entendre historique) est de construire un modèle basé sur des rangs. Chaque équipe d’une compétition donnée possède un rang qui détermine le résultat d’un match. La construction de ce genre de modèles est basée sur les prévisions des bookmakers et leur vision d’expert. Le désavantage de ce genre de modèles est qu’ils manquent de finesse. On ne tient absolument pas compte de caractéristiques plus fines des équipes.
A partir des années 50 mais surtout 80, des modèles statistiques sont développés avec l’espoir d’obtenir de meilleurs résultats. On ne cherche plus ici à modéliser qui va gagner mais quelle équipe va marquer combien de buts. Il faut donc avoir à disposition les données du nombre de buts marqués par chaque équipe de l’historique de matchs considéré. Il est alors possible d’appliquer des modèles de régression de Poisson. Cependant, les modèles de Poisson ne prennent pas en compte une variable importante : le temps. Au cours d’une saison ou d’une compétition, les performances d’une même équipe peuvent varier (fatigue, conditions météorologiques, …). Des modèles dérivés des chaînes de Markov tentent d’en tenir compte en accordant plus de poids aux matchs récents.
Dernièrement, bénéficiant de la popularité du machine learning, des modèles tels que les forêts aléatoires ont été testés. De façon élémentaire un arbre unique de classification trie le résultat d’une rencontre entre deux équipes. Pour ce faire, un poids est associé à différentes caractéristiques (rangs, probabilité de gains selon différentes sources, nombre de joueurs de champion’s league, …) afin d’arriver à une décision (gagnant/perdant). Il est ensuite possible de construire des ensembles d’arbres qui seront très performants ensemble mais chaque arbre étant individuellement « mauvais ».
Dans un récent article de la Cornell University, ces différents types de modèles ont été comparés en se basant sur les résultats des coupes du monde des années 2002 – 2014. Le meilleur modèle « simple » dans cet article est celui basé sur des forêts aléatoires.
Chaque type de modèle possède ses biais. Une stratégie classique au-delà d’un certain niveau de performance en modélisation, est de combiner plusieurs modèles afin que ceux-ci contrebalancent leurs défauts respectifs afin d’obtenir de meilleures performances. C’est ce que les auteurs de cet article ont fait en combinant des informations d’un modèle basé sur les rangs ainsi qu’un basé sur les forêts aléatoires pour obtenir leurs prévisions de vainqueur de la coupe.
D’une façon relativement similaire à ce que la presse a publié, le classement selon l’article aurait été : Espagne, Allemagne, Brésil et France.
Les pourcentages de certitude sont faibles (inférieurs à 20%), il faut donc prendre ce genre de résultats avec précaution. Une revue rapide de la presse montre que personne n’a été à même de prédire le gagnant. Pour quelles raisons ?
Pour prédire le gagnant de la coupe, il faut prévoir correctement presque chaque match. A chacun, s’ajoute l’incertitude des précédents, il est donc statistiquement difficile de prévoir qui va gagner.
Il est dès lors possible d’utiliser plus de données, en exploitant des informations sur chaque joueur (comme les données partagées par kaggle) et combiner plus de modèles comme l’a fait Goldman-Sachs. Le succès n’est pas forcément au rendez-vous, puisque Goldman-Sachs n’a pas eu plus de succès que les autres en pariant sur le Brésil.
En remettant en cause la stratégie générale, deux voies sont possibles :
Ces différentes tentatives de modélisation des scores de coupe du monde illustrent à quel point il peut être difficile de s’attaquer avec des outils data à un problème avec une forte composante humaine. En effet, s’il est possible de tenir compte du talent d’un joueur pris individuellement dans l’analyse, il est nettement plus ardu de modéliser l’état psychologique du groupe ou les interactions positives (ou négatives) entre des joueurs. Nous pouvons humainement expliquer la malédiction du tenant du titre sans doute par un excès de confiance ou de pression psychologique des équipes concernées, mais comment en tenir compte dans les modèles ?
Au delà des enjeux de modélisation, l’économiste David Sally a estimé que la probabilité qu’une équipe favorite gagne un match n’est que d’une chance sur deux en football, contre 2/3 au baseball et 3/5 au basket. Le football fait partie des sports pour lesquels le résultat d’un match semble difficile à prédire.
Ces difficultés soulignent l’importance de l’intelligence humaine pour cerner les problématiques Data. Dans le cas présent, une analyse plus profonde du milieu nous pousse à reconnaître les limites de la technique seule et à reformuler le problème. Malgré ces limites, nous avons pu voir l’intérêt de combiner plusieurs éléments : modèles, données non structurées, analyse des tendances sur les réseaux sociaux, etc… Cet exemple nous conforte dans l’idée que pour relever les défis numériques il nous faut exploiter les intelligences artificielle ET humaine.