Le paradoxe de Simpson
Bon déjà, rien à voir avec Marge, Bart, Homer, Lisa et Cie, même si on pourrait les inclure dans une situation permettant de démontrer ce paradoxe.
On va supposer que Bart s’entraine à faire des figures avec son skate. La première semaine, il réussit 60% des figures qu’il tente.
Lisa joue des morceaux au saxo. La première semaine, elle réussit à jouer en entier 90% des morceaux qu’elle commence.
La deuxième semaine Bart est moins en forme et il réussit seulement 20% des figures qu’il tente.
Lisa est est elle aussi moins performante et elle réussit à jouer 30% des morceaux qu’elle commence.
Récapitulons :
semaine 1 Bart 60% Lisa 90%
semaine 2 Bart 20% Lisa 30%
Chacune des deux semaines, Lisa a été plus performante que Bart.
Pourtant quand on compare le taux global de réussite de Bart et Lisa au cours de ces deux semaines, c’est Bart qui l’emporte avec 47% de réussite contre seulement 42% pour Lisa.
Comment est-ce possible ? c’est quoi cette embrouille ? On crie au scandale.
Allons dans le détail des performances :
La première semaine Bart a tenté 100 fois la figure avec son skate. Il a réussi 60 fois. (60% de réussite)
La deuxième semaine Bart a tenté 50 fois la figure avec son skate. Il a réussi 10 fois. (20% de réussite)
Au total, Bart a fait 150 tentatives et en a réussi 70. Il a donc environ 47% de réussite.
La première semaine Lisa a joué 10 morceaux. Elle en a réussi 9. (90% de réussite)
La deuxième semaine Lisa a joué 50 morceaux. Elle en a réussi 15. (30% de réussite)
Au total, Lisa a joué 60 morceaux et en a réussi 25. Elle a donc environ 42% de réussite.
Conclusion : des pourcentages présentés sans le contexte et sans la taille des échantillons testés n’ont que peu de valeur.
En effet, on peut imaginer que la deuxième semaine Lisa a joué des morceaux plus difficiles alors que Bart s’est perfectionné sur des figures de skate plus simples. De ce fait la réussite est à mettre en relation avec la complexité de la tâche a effectuer.
On peut également introduire un facteur de confusion.
Ce sont les vacances, il fait beau, Lisa a du temps et peut ainsi jouer des morceaux plus longs mais aussi plus difficiles à mémoriser. Pendant ce temps Bart profite du temps et du climat pour passer des heures à l’extérieur à répéter ses figures avec moins de risque de glisser compte tenu du temps ensoleillé. Le climat est un facteur de confusion.
Ainsi vous ne regarderez peut-être plus de la même façon les annonces sur les évolutions du chômage en pourcentage.
1982 | 2009 | |
---|---|---|
Population diplomée | 8.6% | 8.9% |
Population non-diplomée | 13.6% | 13.9% |
Population totale | 12.35% | 11.9% |
On voit que la proportion de chômage chez les diplômés augmente, tout comme chez les non-diplômés. Pourtant, la proportion globale de chômage diminue ! Comment est-ce possible ?!
Le facteur de confusion est ici le fait que la proportion de diplômés et non-diplômés a évolué dans la population totale !