Data: La main-d’œuvre derrière les données dans le football

Au coup d’envoi de la Coupe du monde 2026, l’intelligence artificielle – qui pèse toujours plus sur le jeu – repose sur une force de travail dissimulée derrière les chaînes de valeur des données. Rafael Grohmann, professeur d’études des médias à l’Université de Toronto et directeur du laboratoire de recherche DigiLabour, abordera ce sujet, et bien d’autres, dans un livre sur l’IA et le travail, à paraître en 2028 aux éditions Polity.

Quand la Coupe du monde de la FIFA 2026 débutera le 11 juin, on la présentera comme le tournoi le plus piloté par les données de l’histoire du sport : détection du hors-jeu assistée par IA, un ballon équipé de capteurs, des scans en 3D des 1 248 joueurs et un assistant d’IA pour chaque sélection. Le suivi en temps réel, les modèles de recrutement et les tableaux de bord tactiques sont devenus des outils ordinaires du football professionnel. Derrière chacun de ces points de données, il y a des travailleurs que la retransmission ne montre presque jamais.

Les discussions sur la technologie pendant le Mondial s’arrêtent aux écrans : la ligne de hors-jeu, la VAR, les statistiques en direct. Peu de gens se demandent qui produit les données qui se tiennent derrière tout cela, où, et dans quelles conditions. Dans mon nouveau projet de recherche, « Travailleurs de la tech dans le football » (Tech Workers in Football), financé par le Creative Labour and Critical Futures de l’Université de Toronto, je cartographie la force de travail qui se cache derrière les chaînes de valeur des données du football.

Et cela n’a rien de nouveau. L’intelligence artificielle, quel que soit le contexte, fonctionne avec des données, avec le travail humain qui les annote et les valide, et avec une infrastructure matérielle. Le football en dépend depuis bien plus longtemps que ne le laisse croire l’engouement actuel pour l’IA. Il y a plus d’une décennie, l’un des grands clubs anglais, Arsenal, a racheté une petite entreprise d’analyse de données avec laquelle il travaillait déjà et en a fait son département interne de science des données, une entreprise dont les images de matchs étaient, elles, codées par des travailleurs de la donnée au Cambodge et au Laos. L’opération date de 2012 et n’a été rendue publique qu’en 2014. La force de travail de la donnée du football se constitue depuis plus de dix ans, dans une quasi-indifférence.

Ces chaînes comptent trois grandes strates. Au plus près du jeu, on trouve les travailleurs tech internes aux clubs : les analystes et les data scientists que les clubs embauchent directement et qui travaillent au coude à coude avec les staffs. Même au sein d’un même championnat, il n’existe pas une seule façon d’organiser ce travail : les départements portent des noms différents, occupent des recoins différents du club, les contrats varient, et les parcours sont très divers : docteurs en physique ou en mathématiques, personnes recrutées dans les grandes entreprises technologiques. Et les clubs gardent le plus souvent ces dispositifs secrets. À ce jour, aucune recherche n’a documenté le profil de ces travailleurs.

La France ne fait pas exception. Le Toulouse FC, racheté par le fonds états-unien RedBird, revendique un fonctionnement « presque exclusivement piloté par la donnée », du recrutement d’un joueur ou d’un entraîneur à l’analyse de l’adversaire. À l’opposé, le RC Lens a confié une partie de ce travail à un prestataire extérieur dont il tait le nom, lié par des accords de confidentialité afin de ne « pas donner d’indices aux concurrents ». Partout, celles et ceux qui composent ces équipes restent quasiment inconnus hors des clubs.

Au-delà des clubs, il y a les fournisseurs de données, et ils ne se valent pas tous. Certains collectent les données officielles d’événements, le registre structuré des actions avec ballon, et en détiennent les droits de distribution pour les médias et les sites de paris. D’autres se spécialisent dans le pistage (tracking), avec des caméras dans les stades pour fixer la position de chaque joueur, et ce sont leurs ingénieurs qui transforment la vidéo brute en données. C’est là qu’intervient SkillCorner, une entreprise parisienne devenue l’un des principaux fournisseurs mondiaux de données de pistage : sa technologie de vision par ordinateur reconstruit la position des joueurs à partir des images de la retransmission. Fondée en 2016, elle couvre aujourd’hui plus de 300 clubs, ligues et fédérations parmi ses clients, comme la sélection uruguayenne lors de la Coupe du monde. Une autre maison parisienne, Footovision, suit le même chemin. Mais les données officielles du championnat de France, elles, sont captées par des acteurs étrangers : la Ligue a confié les droits de données liées aux paris à Genius Sports, et c’est Stats Perform / Opta qui collecte et distribue l’essentiel des statistiques de la Ligue 1 et de la Ligue 2.

Autour d’eux gravite un écosystème plus vaste : fabricants de capteurs portables (GPS et accéléromètres) qui mesurent combien et à quelle intensité courent les joueurs, plateformes vidéo qui enregistrent et étiquettent les matchs, bases de scouting que les clubs passent au crible en quête de la prochaine recrue, cabinets qui modélisent la performance à partir de données propres ou de tiers, entreprises nées dans l’industrie des paris qui vendent aujourd’hui des prédictions, systèmes de gestion des athlètes qui tentent d’anticiper le risque de blessure. Dans toutes ces strates, celles et ceux qui font le travail sont le plus souvent embauchés à temps plein, souvent liés par des accords de confidentialité, et concentrés dans quelques pôles. Et le terrain se resserre : un petit nombre d’entreprises contrôle les données dont dépend la majorité des clubs (l’états-unienne Hudl, par exemple, a racheté StatsBomb en 2024), au fil de vagues d’acquisitions, de capitaux de private equity et d’argent des marchés financiers à mesure que le secteur se consolide.

Plus loin encore du regard du public, tout en bas, il y a les travailleurs de la donnée qui annotent ce qui se passe sur le terrain. Ils regardent les matchs et convertissent chaque passe, chaque tacle, chaque tir en données structurées, à contre-la-montre de la retransmission. Le travail se concentre dans des villes aux salaires plus faibles : plus de cent travailleurs annotent des matchs depuis un seul bureau à Ternopil, en Ukraine, et une main-d’œuvre comparable fait de même au Caire. Tout en bas de l’échelle, une bonne part de ces données en direct est recueillie par des personnes engagées match après match, payées à la pièce. Une entreprise allemande, aujourd’hui intégrée à un groupe australien, fait annoter ses matchs par une équipe aux Philippines, où l’on peut passer trois à quatre heures sur une seule rencontre.

Dans le livre Expected Goals, Rory Smith raconte que chaque nouveau travailleur de la donnée à Manille apprend le métier à partir d’un seul match : le 7-1 infligé par l’Allemagne au Brésil en demi-finale du Mondial 2014. Bien qu’il ait tiré et touché le ballon plus que son adversaire, le Brésil a été écrasé, et c’est ainsi que l’on apprend quels autres facteurs prendre en compte au moment de regarder les matchs et d’étiqueter les données. Ce sont des travaux invisibles, derrière les tribunes et dans presque tout le débat public sur le football.

Ces strates soutiennent la manière dont le football se regarde et se gère aujourd’hui : les graphiques de la retransmission, le pourcentage de probabilité de victoire à l’écran, les décisions sur le temps de jeu et la tactique, la recrue qu’un club vient de s’offrir sur la foi de données. Ces travailleurs sont devenus essentiels, mais le grand public les connaît peu ; même les data scientists, les plus visibles d’entre eux, sont rarement connus par leur nom hors de leur club. Plus on descend dans la chaîne, moins le travail se voit. Certains de celles et ceux qui recueillent les données en direct ont fini devant les tribunaux : des supporters, des étudiants payés à peine plus que le prix d’une place, pris dans les litiges qui opposent les géants de la donnée qu’ils alimentent.

La chaîne de valeur a aussi une géographie. L’analyse à forte valeur se concentre dans une poignée de centres riches, tandis que l’annotation se concentre dans des villes d’Europe de l’Est, d’Afrique et d’Asie du Sud-Est. Les clubs situés hors des championnats dominants paient souvent ces fournisseurs en devises étrangères. Mais ce serait une erreur de tenir ces championnats pour simplement en retard : le football brésilien, par exemple, bâtit ses propres dispositifs, avec des entreprises qui enregistrent chaque match depuis le signal télé et des cabinets qui forment les analystes que les clubs s’arrachent ensuite, autour de départements internes d’analyse qui circulent d’un club à l’autre. Et de plus en plus, des investisseurs propriétaires de plusieurs clubs dans différents pays y font transiter méthodes, données et professionnels comme autant de transferts internes : l’Olympique lyonnais et le brésilien Botafogo, un temps réunis sous la même propriété, en furent un exemple.

Le Mondial placera les données et l’IA du football sur la plus grande scène qui soit. Des centaines de millions de personnes regarderont les matchs et commenteront les chiffres affichés. Les travailleurs de la donnée qui courent après la retransmission, les fournisseurs qui vendent ces données à des tiers, les analystes qui rédigent des rapports et négocient avec les staffs n’apparaîtront pas à l’écran ; pourtant, rien de ce spectacle n’existerait sans eux. Le football que nous nous apprêtons à regarder fonctionne autant grâce à leur travail qu’à celui des joueurs. Chercheurs, journalistes et même les supporters doivent prendre cette force de travail au sérieux et en comprendre les profils : qui sont ces personnes, où elles travaillent, combien elles gagnent, et quelle voix elles ont sur les technologies dont elles dépendent. Si nous voulons imaginer et lutter pour un autre football possible, il nous faut analyser de près ce qu’il advient des données et de leurs travailleurs dans le football d’aujourd’hui.

Rafael Grohmann