Prédire ou Postdire : Les Stratégies Gagnantes
Depuis plusieurs années, je cherche une méthode permettant de déterminer à l’avance les gagnants des différents matchs sportifs. Ces recherches sont principalement menées parmi les grandes ligues professionnelles nord-américaines, à savoir la NHL, la MLB, la NBA, et la NFL. Mes explorations ont varié de techniques assez simples, utilisant un simple tableur Excel, à des méthodes plus complexes impliquant l’intelligence artificielle.
Au cours de ce processus, j’ai également effectué de nombreuses recherches en ligne dans le but de découvrir de meilleures stratégies et d’améliorer mon système. Les documents que j’ai consultés sont majoritairement rédigés par des universitaires, et les recherches sont souvent réalisées dans le cadre de maîtrises ou de doctorats, visant à perfectionner les techniques existantes.
La plupart des méthodes trouvées dans ces documents présentent des taux d’efficacité de 55 à 60 %, qui sont semblables à mes propres méthodes.
Qu’est-ce que cela signifie ? Le taux d’efficacité représente le pourcentage de prédictions correctes. Un taux de 50 % (1 sur 2) est équivalent à celui obtenu par un tirage de pile ou face. Si vous êtes peu performant en prédiction, ou si votre méthode est défaillante, c’est le taux que vous obtiendrez. Un bon algorithme présentera un taux plus élevé. Ainsi, un taux d’efficacité de 60 % signifie que, sur 10 prévisions, 6 seront justes et 4 seront erronées.
Parmi toutes les recherches effectuées jusqu’à présent, les taux varient généralement entre 55 et 60 %, et sont assez similaires tant pour la MLB que pour la NHL.
Cependant, certains travaux de recherche (Huang, M.-L.; Li, Y.-Z) proposent des méthodes de prédiction atteignant des taux d’efficacité de 90, 95 %, voire même frôlant les 100 %. De tels résultats sont stupéfiants. Existe-t-il réellement des techniques capables de prédire correctement tous les résultats d’un sport ?
J’ai approfondi l’examen de la documentation de ces études pour découvrir ce qui différencie ces méthodes de pronostic des autres. J’ai rapidement identifié des erreurs communes à de nombreux universitaires, erreurs que j’avais moi-même commises au début de mes propres recherches. Ils prétendent prédire l’issue des matchs, alors qu’en réalité, ils ne prédisent pas le gagnant. Puisqu’il n’existe pas de terme pour décrire leur procédé, je le nommerai la « postdiction », en opposition à la prédiction.
Voyons ensemble la différence entre prédire et postdire.
Prédiction/prédire
La prédiction se définit, selon le Larousse, comme suit :
« Action d’annoncer par avance, de prédire l’avenir ; discours annonçant des événements futurs »
Le terme clé ici est « par avance ». C’est précisément pour cela qu’on parle de pré-dire, de pré-diction. Cela doit être fait à l’avance.
Dans le cadre d’un algorithme de pronostic sportif, cela implique d’utiliser les données disponibles avant chaque match. Cela peut inclure les performances récentes des joueurs, les historiques de blessures, ou les conditions météorologiques, par exemple. Cet exercice peut aussi être réalisé après la partie, par exemple lors du développement d’un nouvel algorithme, tant que les données utilisées soient celles disponibles avant le début du match.
Quelques exemples de données permettant de faire une prédiction :
- Nick Suzuki a 5 buts à ses 10 derniers matchs. (NHL)
- Samuel Montembeault a une moyenne de buts alloués de 1.95 à ses 5 derniers matchs. (NHL)
- Sidney Crosby joue son premier match depuis son retour de blessure. (NHL)
- Vladimir Guerrero Jr. a frappé 3 coups de circuits lors de ses 10 derniers matchs. (MLB)
- Il fait actuellement très chaud au Roger Center de Toronto. (MLB)
En utilisant ces données, on tente de prédire qui remportera chacun des matchs dans différents sports.
Postdiction/postdire
Un piège dans lequel beaucoup tombent, moi y compris, est d’utiliser les statistiques de la partie en question pour essayer de deviner le gagnant.
Voici quelques exemples de données permettant de faire une postdiction :
- Nick Suzuki a marqué 3 buts dans la partie. (NHL)
- Samuel Montembeault a réalisé un blanchissage. (NHL)
- Sidney Crosby n’a pas terminé le match. (NHL)
- Vladimir Guerrero Jr. n’a frappé aucun coup sûr dans le match. (MLB)
- Les Blue Jays de Toronto ont utilisé 5 lanceurs différents dans le match, contre 2 pour les Red Sox de Boston. (MLB)
Voici comment je définirais la postdiction :
« Action d’expliquer ou d’interpréter rétroactivement des événements qui se sont déjà produits, en utilisant les données et les informations disponibles après que les faits soient survenus. »
Différence entre les deux
Si l’on souhaite faire une prédiction, c’est-à-dire déterminer à l’avance l’issue du match, il est impératif de ne pas prendre en compte les données du match en question pour plusieurs raisons.
D’abord, ces données ne sont pas disponibles lorsque le match débute et ne peuvent donc pas être utilisées pour établir un pronostic avant que le match ne commence.
Ensuite, il est relativement facile de deviner le vainqueur d’une partie en utilisant les statistiques du match lui-même, contrairement aux données disponibles avant celui-ci. C’est principalement pour cette raison que les algorithmes de postdiction affichent des taux d’efficacité frôlant les 100 %, à l’opposé des techniques de prédiction qui avoisinent les 60 %. Illustrons ceci avec les données mentionnées ci-dessus :
- Nick Suzuki a marqué 3 buts dans la partie : On comprend que le Canadien de Montréal a marqué beaucoup de buts (Au moins 3). Une équipe qui marque beaucoup de buts a de bonnes chances de gagner.
- Samuel Montembeault a réalisé un blanchissage : Habituellement, un gardien qui parvient à un blanchissage remporte le match (sauf s’il perd 1-0 en tirs de barrage). En combinant cette donnée avec les 3 buts de Suzuki, nous pouvons confirmer que le Canadien de Montréal a gagné.
- Sidney Crosby n’a pas terminé le match : Crosby est un des joueurs clés de son équipe. Son absence en cours de match laisse supposer que son équipe a pu rencontrer des difficultés pendant son absence. Si cette donnée provient du même match que les deux précédentes, on en déduit que les Penguins de Pittsburgh ont perdu.
- Vladimir Guerrero Jr. n’a frappé aucun coup sûr dans le match : Guerrero Jr. étant l’un des meilleurs joueurs offensifs de son équipe, son absence de performance suggère que son équipe a eu du mal à marquer des points.
- Les Blue Jays de Toronto ont utilisé 5 lanceurs différents dans le match, contre 2 pour les Red Sox de Boston : L’usage fréquent de lanceurs par les Blue Jays suggère qu’aucun d’eux n’a été particulièrement efficace. Le fait que les Red Sox n’aient utilisé que 2 lanceurs indique qu’ils ont bénéficié de performances plus stables et efficaces. Si cette information provient de la même partie que la donnée précédente, on peut supposer que les Red Sox ont eu l’avantage sur les Blue Jays.
Voyez-vous, sans même l’utilisation d’algorithmes sophistiqués, nous avons réussi à déterminer qui a remporté chacun des matchs. En ajoutant des techniques plus avancées avec de l’apprentissage automatique, vous pourriez répéter cette démarche sur des milliers de parties.
Mais ceci n’est pas de la prédiction. C’est de la postdiction.
La différence entre les deux peut sembler subtile à première vue, mais est pourtant significative car elle sous-tend deux objectifs différents.
La prédiction permet d’établir un pronostic avant que le match ne commence et peut servir à faire des paris sportifs, à évaluer si un joueur sera performant s’il est inclus dans l’alignement, ou à adapter les stratégies, etc.
La postdiction, quant à elle, permet de classer rétroactivement une liste de matchs en indiquant si ces derniers se sont soldés par des victoires ou des défaites. Elle sert dans l’analyse de la performance et aide à comprendre ce qui a mené au succès ou à l’échec, et peut également être un outil pédagogique pour les joueurs et les entraîneurs afin d’identifier les erreurs commises durant les matchs.
Cependant, les algorithmes de postdiction offrent bien moins d’avantages que ceux de prédiction. Il est nettement plus bénéfique de déterminer à l’avance qui remportera un match plutôt que de le faire une fois les faits accomplis.
Utiliser des données de postdiction en prétendant exceller en prédiction relève de la tromperie. Je peine à croire que des universités publient de tels types d’articles. Comment peuvent-elles comparer leurs propres algorithmes de postdiction avec des algorithmes de prédiction et affirmer qu’ils ont de meilleurs taux d’efficacité ?
Il est donc crucial de bien réfléchir aux données utilisées dans notre analyse. Les informations disponibles à l’avance sont essentielles pour faire des prédictions. Si l’on ajoute des statistiques disponibles uniquement à la fin du match, nous parlons alors de postdiction.
Il serait extraordinaire de trouver une technique de pronostic permettant d’atteindre de hauts taux d’efficacité en utilisant uniquement des informations disponibles à l’avance. J’espère trouver d’autres chercheurs qui partagent cet objectif.