Le cable réseau du serveur étant presque saturé, merci de ne vous connecter qu'en cas d'absolue nécessité de vous amuser. Attention à ne pas confondre vos minuscules et vos majuscules.
Vous avez oublié votre mot de passe ?
Inscription
Vous avez oublié votre mot de passe ? Il reste un espoir ! Saisissez votre adresse e-mail ; nous vous enverrons un nouveau mot de passe. Cette procédure est quasiment gratuite : elle ne vous coûtera qu'un clic humiliant.
Nous vous avons envoyé un email sur votre adresse, merci d'y jeter un oeil !

CONDITIONS D'INSCRIPTION :

1. Vous devez nous adresser, via le formulaire ci-dessous, un texte (format .txt inférieur à 100 ko) en rapport avec le football, dont la forme est libre : explication de votre passion, anecdote, aventure, souvenir, essai, commentaire composé, portrait, autobiographie, apologie, réquisitoire, etc. Vous serez ensuite informés de la validation de votre inscription par mail. Les meilleurs textes seront mis en ligne sur le Forum.

2. Nous ne disposons pas d'assez de temps pour justifier les retards d'inscription ou les non-inscriptions, et ne pouvons pas nous engager à suivre une éventuelle correspondance à ce sujet. Merci de votre compréhension.

Nous avons bien reçu votre candidature, on y jette un oeil dès que possible. Merci !

Partager :

Limites et distorsions statistiques

De Mark Twain à la justice américaine en passant par Javier Pastore, essai critique sur les biais des statistiques. Parce que les chiffres mentent aussi, n'en déplaise aux footballogues. 

Auteur : Ali Triple Zéro (avec Nicolas. P) le 20 Mai 2015

 

 

"Il y a trois sortes de mensonges: les mensonges, les affreux mensonges, et les statistiques." Ainsi s'exprimait Mark Twain dans un contexte que j'ignore et qui nous importe finalement assez peu. Toujours est-il que les gens ayant suivi un cours d'introduction aux statistiques à l'université ont de grande chance de l'avoir déjà lue ou entendue. Personnellement, j'aime à penser que Mark Twain répondait à un détracteur de Javier Pastore qui affirmait avec dédain que ce dernier avait marqué moins de but que Corentin Tolisso, ou qu'il avait fait moins de passes décisives que Dimitri Payet.

 

Évidemment, je pense que Mark Twain n'avait rien contre Tolisso ou Payet. Il voulait simplement que l'on considère avec prudence les indicateurs statistiques qui ne font que refléter assez médiocrement la réalité sur le terrain. Mark Twain pensait sans doute que le football était un peu plus complexe que ça. Plus généralement, quand il entend des politiciens ou des analystes dans divers domaines dire que "les chiffres ne mentent pas", Mark Twain, comme le statisticien lambda, a tendance à lever un sourcil suspicieux.

 

 

 

Les chiffres ne mentent pas

Les chiffres, en effet, sont souvent de vilains menteurs. Prenons un célèbre exemple pour illustrer ce fait. Le 11 mars 1979, le New York Times publie les données concernant 4.764 homicides perpétrés en Floride entre 1973 et 1979. Les variables considérées sont la couleur de peau du meurtrier, blanc ou noir, et la condamnation à la fin du jugement, peine de mort, ou pas peine de mort. Les chiffres en question étaient les suivants:

 

 

L'idée était de savoir qui des blancs ou des noirs étaient le plus souvent condamnés à mort et, plus généralement, s'il y avait un problème de racisme dans la justice américaine. Petit exercice dont le calcul est fort simple: il y a 72 blancs condamnés à mort parmi 2.257 meurtriers blancs: 3,19% des meurtriers blancs sont condamnés à mort. Il y a 59 noirs condamnés à mort parmi 2507 meurtriers noirs: 2,35% des meurtriers noirs sont condamnés à mort.

 

Comme 2,35% < 3,19%, la réponse est limpide: les meurtriers blancs sont plus sévèrement punis que les meurtriers noirs. La justice américaine n'était pas raciste. Non monsieur. Non, n'insistez pas on vous dit, les chiffres ne mentent pas.

 

Ces éléments ont été abondamment récupérés, souvent pour défendre le point de vue d'une justice égalitaire, voire plus sévère avec les blancs. Évidemment, comme on peut l'imaginer quand on a une vague idée du contexte aux États-Unis dans les années 70, il manquait quelque chose. Si l'on complétait ce premier tableau avec la couleur de peau de la victime, voici ce que l'on obtenait:

 

 

En refaisant les calculs, on obtient :

 

- En se restreignant au cas où la victime est blanche :
Il y a 72 meurtriers blancs condamnés à mort sur 2.146 meurtriers de victimes blanches, soit 3,36% des meurtriers. Pour les meurtriers noirs de victimes blanches il y 48 condamnés à mort sur 287 jugés soit 16,72%. Incontestablement 16,72 % > 3,36%, donc si la victime est blanche, les meurtriers noirs sont beaucoup plus sévèrement punis que les meurtriers blancs.

 

- En se restreignant au cas où la victime est noire :
Il y a 0 meurtrier blanc qui condamné à mort pour 111 jugés, soit 0% de condamnation à mort. Il y a 11 condamnés à mort parmi les 2.310 meurtriers noirs jugés soit 0,48% de condamnation à mort. Il apparaît donc que 0,48% > 0%, et que si la victime de l'homicide est noire, la justice de Floride condamne plus souvent les meurtriers noirs à la peine de mort que les meurtriers blancs.

 

Sans aller plus loin dans l'interprétation de ces chiffres, ceci est un cas de ce qu'on appelle paradoxe de Simpson: en cachant une variable, l'interprétation des chiffres peut mener bien loin de la réalité.

 

Et Javier Pastore dans tout ça? Si le parallèle vous semble peu évident, changeons légèrement les variables du tableau précédent pour obtenir celui-ci, moins glauque et purement imaginaire:

 

 

En faisant le calcul de manière aussi peu honnête que certains de nos amis de Floride il y a quelques décennies, on aboutit à la conclusion que le pourcentage de passes décisives de Javier Pastore est inférieur à celui de Joueur X. Pourtant, si on s'intéresse au nombre de joueurs qui marquent le passeur, on se rend compte que Pastore a un meilleur taux de réussite que Joueur X quand plusieurs joueurs les marquent à la ceinture, et un meilleur taux de réussite de Joueur X quand ils sont laissés plus libres de leurs mouvement.

 

Un autre cas du paradoxe de Simpson, qu'on pourrait expliquer par le fait que Pastore est plus souvent opposé à des adversaires qui l'empêchent d'évoluer librement que Joueur X. Ce que la stat de base ne dit pas. En effet, pendant que Pastore est marqué par plusieurs adversaires, ses coéquipiers, eux, sont beaucoup plus libres. Les partenaires de Joueur X n'ont pas cette chance.

 

On peut interpréter l'exemple précédent comme une tentative maladroite de défendre l'Argentin. Imaginons alors une troisième variable: la qualité des coéquipiers de Pastore et Joueur X. On pourrait obtenir un tableau voulant dire tout à fait autre chose. Joueur X renverserait peut-être la tendance: lui n'a pas la chance d'évoluer aux côtés d'attaquants de classe mondiale capables de transformer des ballons en buts. On pourrait ajouter à ce tableau des centaines d'autres variables sans que le résultat ne soit concluant. Rien ne sert de les empiler: une analyse humaine objective, provenant d'un analyste compétent, vaudra toujours plus qu'un tableau de statistiques.

 

Comparer des joueurs selon n'importe quelle base statistique (et seulement une base statistique) n'a pas beaucoup de sens. Quels que soient les joueurs et les variables considérés, les statistiques ne restent qu'une image grossière et simplificatrice de la réalité. Il est d'autant plus triste de voir, parfois, l'analyse tactique se transformer en analyse statistique, à la rigueur mathématique plus que douteuse.

 

 

Quantifier l'inquantifiable

Le football, comme tous les domaines où les interactions entre les hommes sont nombreuses, ne peut se résumer en quelques dizaines, ou quelques centaines, de variables. Une interprétation humaine, qui essaye d'être objective, sera toujours plusieurs fois plus intéressante qu'une analyse basée uniquement sur les chiffres. Les chiffres, par nature, traduisent des éléments quantifiables, mais il y en a bien d'autres qu'ils ne peuvent retranscrire: comment, en effet, mesurer le placement d'un défenseur ou d'un milieu? Un joueur qui n'effectue aucun tacle par match, ou ne récupère que peu de ballons, n'est-il pas précisément un joueur si bien positionné qu'il n'a pas besoin d'intervenir, coupant plusieurs lignes de passe et permettant ainsi à ses coéquipiers de récupérer le cuir plus facilement? C'est en général le jeu sans ballon et son influence sur le match et le score que les chiffres peinent encore à prendre en compte.

 

Si l'on aime les citations, il faut se répéter ce que disait notre ami Louis Armand: "Les statistiques, c'est comme le bikini, ce qu'elles dévoilent est intéressant, mais elles laissent caché l'essentiel." Quoique les statistiques disent aussi parfois la vérité. Si Messi a de meilleures stats que Djilobodji, c'est sans doute une image assez fidèle de ce qu'il se passe sur un terrain.

 

Les statistiques en général nous fournissent souvent des indicateurs intéressants, à condition de les utiliser avec prudence, et garder à l'esprit que le problème des chiffres, c'est qu'on leur fait dire ce que l'on veut. Ils font fi du contexte. Ils ne sont pas intelligents. Il suffit de regarder la bonne variable, d'effacer les autres, et le tour est joué. Dans le football comme ailleurs. "La majorité des trafiquants sont noirs et arabes", disait Mark Twain après plusieurs verres de whisky. Mais Mark Twain oubliait ce qu'il savait des statistiques quand il buvait trop de whisky. Il s'appuyait aussi un peu trop sur des citations apocryphes.

 

Lire aussi :
- Les "Expected Goals", au coeur de la révolution statistique
- Us et abus de la data
- La loi statistique qui démontre la supériorité du football
- Peut-on vraiment faire dire n'importe quoi à une statistique?
- Passer aux stats supérieures

 

Réactions

  • visant le 20/05/2015 à 10h37
    Très intéressant, et de forts belles citations.

    Par contre dans l'exemple Pastore, en quoi "Pastore a un meilleur taux de réussite que Joueur X quand plusieurs joueurs les marquent à la ceinture"? Il me semble qu'il en est à 0/111 contre 11/2209, donc 0<0,5% non?

  • Basile mais pas boli le 20/05/2015 à 10h55
    Mouais... autant je suis convaincu de la réalité des biais statistiques (et de leurs interprétations) et des difficultés à retranscrire le foot sur cette seule base autant le rapprochement fait dans cet article me paraît bancal et réalisé au forceps.

    Tout le raisonnement de l'auteur se base sur un tableau qui ne représente aucune réalité (Sachant qu'au PSG il y a beaucoup de joueurs qui peuvent faire la différence, qui nous dit que Pastore est effectivement plus marqué que la moyenne des joueurs de L1 ?).

    Nous avons là l'exemple d'un joli sophisme : on sait ce qu'on veut démontrer donc on base l'argumentaire sur un exemple qui nous arrange dans se soucier de savoir s'il s'approche un minimum de la vérité - qu'on met en cause en parallèle "l'honnêteté" d'"amis de Floride"...

    Ce plaidoyer qui veut dénoncer les dangers (rééls et bien montré dans l'exemple) de l'exploitation des statistiques ne repose sur rien sauf sur la conviction de l'auteur. En fait, ce n'est qu'une hypothèse qui tend à être démontrée justement par de vrais chiffres car, comme en maths, un raisonnement peut être beau, juste et magnifique mais totalement inutile si basé sur de mauvaises hypothèses.

    Je terminerai par faire remarquer à l'auteur que les deux joueurs considérés comme les meilleurs attaquants de la planète que sont Cristiano Ronaldo et Lionel Messi, et qui ne sont pas épargnés non plus par le marquage, sont tous les ans sur le podium du soulier d'or européen depuis 5 saisons et qu'ils sont tous les deux cette année meilleurs passeurs et meilleurs buteurs de la liga... Et ça, ce sont des statistiques.

  • Basile mais pas boli le 20/05/2015 à 10h59
    Un "Alors" a été oublié devant le "qu'on met", vous l'aurez trouvé vous-même.

  • Matu-Verratti-Vieira-Touré-Clément-Cearà le 20/05/2015 à 11h14
    visant > je pense que l'auteur a interverti Joueur X et Pastore dans son tableau.

  • Yohan Cowboy le 20/05/2015 à 11h19
    Le tableau est désormais corrigé, oui.

  • Matu-Verratti-Vieira-Touré-Clément-Cearà le 20/05/2015 à 11h20
    Basile > l'auteur ne prétend nulle part que les chiffres, ni même les biais, sont ceux qu'il prend. Il dit juste qu'une statistique peut paraitre donner une vérité brute alors qu'elle est en réalité aussi subjective que l'avis de Bébert du bar PMU.

  • Sens de la dérision le 20/05/2015 à 11h25
    Ben ouais tu utilises une statistique pour appuyer ton propos, ton hypothèse. Ça ne veut pas dire que ton hypothèse est juste, d'ailleurs il n'existe peut-être pas d'avis définitif non plus (cf les débats chaque année sur kikikalaplugross au Ballon d'Or).

  • Matu-Verratti-Vieira-Touré-Clément-Cearà le 20/05/2015 à 11h39
    Exactement sens2. Le problème, c'est quand les statistiques construisent l'hypothèse.

  • leo le 20/05/2015 à 11h39
    "Une interprétation humaine, qui essaye d'être objective, sera toujours plusieurs fois plus intéressante qu'une analyse basée uniquement sur les chiffres."

    Et une interprétation humaine s'appuyant sur des chiffres construits avec pertinence sera "toujours plusieurs fois" (si on peut mesurer et multiplier l'intérêt d'une interprétation) plus intéressante qu'une interprétation humaine qui ne les utilise pas.

    Après, si l'auteur veut parler des "statistiques" du genre "distance parcourue pendant le match" balancées comme ça pendant la diffusion du match, c'est sûr que sans autre indicateur associé, c'est assez inutile.

  • Valbuena Jacta Est le 20/05/2015 à 12h22
    Intéressant, cet article.

    Ceci dit, je vais radoter, mais il y a une différence entre présenter des nombres (par exemple, les tableaux de l'article) et en faire des statistiques.

    Par exemple, les statistiques (les "vrais" !) peuvent indiquer si les différences entre les chiffres peuvent être considérées comme significativement différentes ou non (2.35%, est-ce vraiment différent de 1.39%, par exemple).

    Bref, passer des chiffres à des conclusions. Si quelque chose était écrit là-dessus un jour ou l'autre, ça serait chouette.

La revue des Cahiers du football