Pages

lundi 23 février 2015

Les probabilités

Roulette-finlandsfarja

Les probabilités jouent un rôle important en sciences, au moins depuis la mécanique statistique. On les retrouves dans de nombreuses disciplines (sinon toutes), notamment en biologie, en théorie des jeux ou en sciences humaines, où les outils statistiques sont omniprésents, ou encore en mécanique quantique, au cœur même de notre théorie fondamentale de la matière. Enfin elles ont pu aussi être utilisées en philosophie des sciences, par exemple pour tenter de construire des outils mesurant la crédibilité des théories scientifiques, ou encore pour fonder les rapports de causalité entre événements.

Pourtant leur statut n'est pas clair sur le plan philosophique : que veut-on dire quand on dit qu'un événement a une chance sur deux de se produire ? Ou qu'un hypothèse a 9 chances sur 10 d'être vraie ? Est-ce qu'il existe une interprétation unifiée des probabilités, ou est-ce qu'elles peuvent revêtir plusieurs aspects, parler de différentes choses ?

Les modalités

Essayons déjà de baliser un peu le terrain. En philosophie, on parle de "concept modal" ou de "modalités" à propos de concepts qui parlent de ce qui est possible ou impossible plutôt que de ce qui est actuellement le cas. Parmi eux, on peut trouver : les énoncés au conditionnel (dit "contre-factuels") du type "si tu ne t'étais pas levé, tu aurais raté ton train", ou bien les lois de la nature exprimant des rapports de nécessité (c'est à dire que le contraire est physiquement impossible), ou encore les rapports de causalité et les dispositions, comme la fragilité d'un vase ou la solubilité d'un morceau de sucre. Ce sont des énoncés qui dépassent toujours ce qui est simplement observé, qui semblent affirmer plus que ce qu'il y a actuellement dans le monde. On dira par exemple d'un morceau de sucre qu'il est soluble même si le morceau ne sera, en fait, jamais trempé dans l'eau au cours de son existence... Une possibilité n'est pas forcément manifestée.

Football iu 1996
Les modalités sont très diverses. Ainsi on peut parler de possibilités techniques, logiques, physiques... Mais disons qu'on peut les classer en deux grandes familles : celles qui concernent le monde (les modalités de re), et celle qui concernent seulement notre connaissance des choses ou la façon dont on en parle (les modalités de dicto). Typiquement, on situera un rapport de nécessité physique, comme le fait que les objets pesant qu'on lâche tombent vers le sol, dans le monde (de re). Mais si j'ai raté un match de foot et que j'ignore quelle équipe a gagné, je peux dire "il est possible que mon équipe favorite ait gagnée". Cependant le match a déjà eu lieu : les jeux sont faits. Ce que j'exprime, c'est donc uniquement une possibilité logique correspondant à mon ignorance du résultat du match (de dicto).

Il existe, suivant certaines approches philosophiques, notamment empiristes, une suspicion à l'égard des modalités de re. En effet si les concepts modaux dépassent ce qui est effectivement le cas dans le monde, comment pourrait-on concevoir qu'il y ait des modalités dans le monde ? Certaines de ces approches tentent par exemple de concevoir le monde comme un ensemble de faits actuels, et réduisent toutes les modalités à une question d'ignorance : les possibilités alternatives ne se trouveraient finalement que dans notre esprit, incapable de saisir la totalité du monde. Elles seraient relatives à notre situation. Quant aux les prétendus rapports de nécessité physiques ne seraient que des habitudes de l'esprit qui nous permettent d'appréhender les phénomènes. Mais nous ne nous étendrons pas ici sur cette question.

Les probabilités

Andrej Nikolajewitsch Kolmogorov

A priori, la notion de probabilité semble, elle aussi, modale : elle parle de ce qui est possible ou impossible. De plus, ce qui lui est spécifique est qu'elle tente apparemment de quantifier des degrés de possibilités. Cette quantification se retrouve dans les axiomes de Kolmogorov (formulés en 1933, les plus souvent utilisés, mais il existe d'autres axiomatisations) dont voici une formulation en langage courant :

  • Une probabilité prend une valeur entre 0 et 1
  • Une vérité logique a une probabilité de 1
  • Si deux choses A et B sont logiquement incompatibles, la probabilité de "A ou B" est égale à la somme des probabilités de A et de B ( p(A ou B) = p(A) + p(B) )

Cette axiomatisation ne nous dit pas grand chose sur la façon dont on devrait assigner des probabilités à certaines choses. Dire qu'une chose est possible ou impossible, d'accord... Mais comment quantifier sur ce qui est possible, comment dire qu'une chose est plus ou moins possible ? C'est bien là toute la question, et c'est là qu'interviennent les différentes interprétations des probabilités.

Dans cet article nous allons les examiner unes à unes et voir quelles difficultés elles rencontrent, en commençant par la façon dont les probabilités ont été initialement introduites en mathématique : ce qu'on appelle les probabilités classiques.

Les probabilités classiques

Il faut savoir que l'étude mathématique des probabilités est née au 17ème siècle en France, notamment sous l'impulsion de Pierre de Fermat et Blaise Pascal (puis Bernoulli, Huygens, Laplace...) et a été initialement inspirée par les jeux de hasard.

Blaise Pascal Versailles
L'idée est alors la suivante : on va commencer par s'intéresser à une certaine classe d'événements, qu'on appelle la classe de référence, par exemple des jets de dés. Si nous jetons un dé, nous pouvons envisager 6 résultats possibles, mutuellement incompatibles, correspondant aux 6 faces du dé. Une première façon de quantifier les possibles est de décréter que, puisque nous sommes indifférents vis à vis de ces 6 possibilités, nous devrions leur assigner la même probabilité. C'est ce qu'on appelle le principe d'indifférence, ainsi surnommé, un peu plus tard, par Keynes. En vertu du second et du troisième axiome de Kolmogorov, on peut alors montrer que ça revient à assigner une probabilité de 1/6 à chaque face.

Tout ceci est très intuitif, mais ne va pas sans poser des problèmes. On peut se demander en quelle mesure ceci ne rend pas notre assignation des probabilités relative à la façon dont on se représente le monde. Par exemple affirmer que nous sommes indifférent à propos des faces d'un dé suppose que le dé n'est pas pipé. Mais qu'est-ce qu'un dé qui n'est pas pipé ? Un dé dont toutes les faces sont équiprobables peut-être ? On voit que la définition est circulaire, et le principe d'indifférence semble alors un peu venir de nulle-part. Il doit être fondé sur une connaissance préalable (on sait que les faces d'un dé sont équiprobables) qui requiert déjà l'usage de la notion de probabilité.

Une manière de rendre ce problème plus saillant est le paradoxe de Bertrand. Imaginons qu'une usine fabrique des cubes qui ont tous entre 0 et 1 cm de côté. Choisissons un de ces cubes au hasard, et demandons nous quelle probabilité nous avons que le cube ait plus de 0,5 cm de côté.

VW Wolfsburg
Si l'on applique le principe d'indifférence, on pourrait penser que cette probabilité est de 1/2, puisqu'il y a autant de longueurs possibles inférieures à 0,5 cm que de longueurs supérieures. Fort bien, mais pourquoi appliquer le principe d'indifférence aux longueurs plutôt qu'aux surfaces des faces des cubes ? Dans ce cas, on obtiendrait une probabilité de 3/4, puisqu'il y a trois fois plus de surfaces possibles supérieures à 0,25 cm² qu'inférieures. Et si maintenant on applique le même principe aux volumes, on obtient une probabilité de 7/8 qu'un cube ait plus de 0,5 cm de côté (soit plus de 0,125 cm³ de volume).

Ainsi dans la même situation, suivant la façon dont on applique le principe d'indifférence, on obtiendra des assignations de probabilité différentes ! Il manque apparemment quelque chose à notre principe d'indifférence, une connaissance du monde.

Une autre question est de savoir si tous les cas auxquels on applique des probabilités peuvent être représenté par un ensemble de possibilités équiprobables. Si une pièce asymétrique a une probabilité de 0,6 de tomber sur "face", doit on en déduire qu'il y a en réalité 10 possibilités, dont 6 correspondent à "face" ? Et qu'en est-il en physique ou dans d'autres disciplines scientifiques ? Il n'est pas certain qu'on puisse toujours concevoir les choses en terme de résultats équiprobables.

Les probabilités fréquentistes

Comment se sortir de ce problème ? Peut-être que pour savoir comment assigner des probabilités aux cubes de notre usine, il suffirait, dans l'idéal, de savoir exactement quels cubes ont été fabriqués, et parmi eux, combien ont un côté de plus de 0,5 cm. Plutôt que d'appliquer un principe d'indifférence, on ramènerait les probabilités à un décompte objectif des cas favorables parmi tous les cas actuels.

Dice
Si on applique ça aux jets d'un dé, la probabilité d'obtenir une face donnée serait le nombre de fois où, dans le monde, un jet donne cette face comme résultat, par rapport au nombre total de jets qui ont eu lieu et auront lieu. Si le dé n'est pas pipé, il se peut que ce rapport serait justement de 1/6. On parle alors d'interprétation fréquentiste.

Nous avions dit que les probabilités étaient apparemment un concept modal, mesurant des possibilités. Pour les fréquentistes, ce n'est pas le cas : la probabilité ne mesure pas des possibilités, elle mesure simplement la proportion d'événements favorables parmi un ensemble d'événements actuels. C'est donc une conception des probabilités qui convient parfaitement aux empiristes.

Malheureusement, si on résout certains problèmes des probabilités classiques, on n'échappe pas à de nouvelles difficultés.

D'abord un aspect contre-intuitif est qu'une pièce qui ne serait jamais jetée n'aurait aucune probabilité assignée à ses faces. Peut-être aurait-on envie de dire que si on la jetait, on aurait une chance sur deux d'obtenir "face". Ou encore, une pièce qui ne serait jetée qu'une seule fois aurait une probabilité de 0 ou de 1, mais pas de 1/2. De même pour une pièce qui serait jetée deux fois et donnerait deux fois le même résultat.

On pourrait peut-être s'en sortir en étendant la classe de référence : en considérant les jets de toutes les pièces similaires plutôt que de notre unique pièce. Mais alors on entre dans des complications : à partir de quand une pièce est-elle ou non "similaire" ? De nouveau il peut y avoir une part d'arbitraire dans le choix de la classe de référence. On peut imaginer des cas absurde : soit l'ensemble des objets constitués par moi, la tour Eiffel, et le pied droit de François Hollande : si on choisit cette classe de référence, j'ai une chance sur trois d'être en métal. Oui c'est absurde, mais qu'est-ce qu'une "bonne" classe de référence ? Si je veux calculer ma probabilité d'avoir un cancer, quelle classe de référence choisir : l'ensemble des hommes, des français, de ma classe d'age ? Dois-je tenir compte de mon statut social, de mon métier, de mes habitudes alimentaires ? Si je veux augmenter la précision des résultats, il est possible que la classe de référence se ramène au final à un seul individu : moi même.

Pat Nixon reaches out to young girl
On aboutit alors au problème suivant : que faire des événements uniques, non répétables ? Par exemple, il serait impossible d'assigner une probabilité autre que 0 ou 1 au résultat d'une élection présidentielle, dans la mesure où cette élection n'aura lieu qu'une seule fois...

Un problème lié est que les probabilités, dans ce cas, ne peuvent être que des nombres rationnels, puisqu'il s'agit toujours d'un rapport de deux nombres entiers. Pourtant, la physique contemporaine assigne des probabilités irrationnelles à certains événements. Pourrait-on parler de passage à la limite, en supposant des séquences infinies d'événements dans la classe de référence ? Alors non seulement ça devient hypothétique, et on s'éloigne un peu des motivations empiristes qui animent les fréquentistes, mais se posent de nouveaux problèmes pour le fréquentiste, qui est que les rapports entre des nombres infinis ne sont pas forcément bien déterminés, et que la limite de fréquences dans des séquences est sensible à l'ordre des éléments de cette séquence.

Pour le voir, considérons la suite des nombres entiers. On peut penser que le nombre d'entiers pair est égal au nombre d'entiers impairs, et donc que la probabilité d'un nombre pair est de 1/2. Mais on peut réordonner différemment les nombres entiers pour obtenir un résultat différent : par exemple, suivant la suite : 1, 3, 2, 5, 7, 4, 9, 11, ... On énumère chaque fois deux nombres impairs, puis un nombre pair. Au final, on aura bien énuméré tous les entiers, mais alors la fréquence des nombres pairs, conçue comme limite sur des séquences finies, est de 1/3.

Si on veut résumer les problèmes du fréquentisme, disons que cette interprétation semble trop se focaliser sur des manifestations actuelles dans le monde, quand on peut avoir l'impression que les probabilités nous parlent d'en fait autre chose qui va au delà de ces manifestations : il s'agit bien d'un concept modal.

Les probabilités subjectives

Frank Plumpton Ramsey.JPG
Puisque les deux interprétations précédentes semblent rencontrer des problèmes liés à l'arbitraire qu'il y a à sélectionner une classe de référence, peut-être pourrait-on simplement assumer ce côté arbitraire ? Et si, finalement, les probabilités étaient subjectives ? S'il s'agissait de degrés de croyance (ou de confiance, ou de crédence) ?

Nos croyances respectent-elles les règles du calcul des probabilités ? Ca ne semble pas être toujours le cas, comme le montrent certaines expériences de psychologie. L'idée est plutôt que nos croyances devraient respecter le calcul des probabilités si l'on était parfaitement rationnel. Autrement dit, la théorie des probabilités serait normative, un peu comme la logique prétend décrire la meilleure façon de raisonner. Ce type de position a été développée notamment par Ramsey et de Finetti.

A l'appui de cette interprétation, il y a d'abord le fait qu'on utilise souvent des probabilités pour exprimer notre degré de certitude à propos d'événements déterminés. Ainsi même si un dé a déjà été jeté, et donc si l'issue du lancé est parfaitement déterminée, je pourrais attribuer une probabilité de 1/6 au fait que le dé soit tombé sur une face donnée, tant que j'ignore le résultat. On voit que cette notion de probabilité peut être associé à la notion de pari : des événements seraient équiprobables si je suis prêt à parier autant sur l'un que sur l'autre. Si on m'offrait plus de 6€ de gain pour une mise de 1€ sur une face de dé, il serait raisonnable d'accepter. Suivant cette conception, le hasard ne serait jamais que le fait de notre ignorance, et les probabilités nous indiqueraient comment gérer notre ignorance de la meilleure façon, la plus rationnelle.

5milmkbk
Un argument important en faveur de cette interprétation est l'argument dit du "Dutch Book". Il est possible de montrer que dans un jeu de pari, si on ne respecte pas les axiomes des probabilités, il est toujours possible pour quelqu'un de gagner systématiquement contre nous. Si à l'inverse on respecte les axiomes des probabilités, personne ne peut prétendre gagner systématiquement contre nous. L'argument du Dutch Book montre donc que les axiomes des probabilités correspondent à une manière rationnelle de gérer ses degrés de crédence.

Imaginons un jeu de pile ou face dans lequel le gagnant remporte 10€. Si vous estimez qu'il y a 60% de chance pour pile et 60% pour face (vous violez le troisième axiome des probabilités), alors je peux vous proposer les paris suivant :

  • donnez moi 6€, et si c'est pile, je vous rend 10€
  • donnez moi 6€, et si c'est face, je vous rend 10€

Suivant vos estimations, ces paris sont tous deux acceptables, mais au final, vous m'aurez donné 12€ pour en récupérer 10. Si maintenant vous estimez qu'il y a 40% de chances pour pile et 40% pour face, je vous propose les paris suivant :

  • je vous donne 4€, et si c'est pile, vous me rendez 10€.
  • je vous donne 4€, et si c'est face, vous me rendez 10€.

Encore une fois le pari est acceptable mais au final, je vous donnerai 8€ pour en récupérer 10.

Ce type de conception des probabilités peut ensuite être étendu à l'aide du théorème de Bayes, qui indique comment mettre à jour les degrés de crédence de nos hypothèses face à de nouvelles informations. Dans ce cas, on peut dire que les fréquences favorables des interprétations fréquentistes jouent le rôle d'information pour évaluer a priori ou pour mettre à jour la crédence de certaines hypothèses, par exemple des hypothèses quant à la répartition statistique de certains résultats.

Le problème de ce type d'approche est qu'elles ne résolvent pas vraiment les problèmes de classe de référence évoqué plus haut. Pour savoir comment mettre à jour notre degré de crédence face à une observation, il faut avoir au préalable déterminé : un degré de crédence a priori pour cette hypothèse, et une probabilité a priori pour que l'observation ait eu lieu, indépendamment de cette hypothèse.

Cat-eating-prey
Pour illustrer ce type de problèmes, imaginons que tous les chats que nous avons observé jusqu'à présent sont noirs. Est-ce que ça confirme plutôt l'hypothèse suivant laquelle tous les chats sont noirs, ou celle suivant laquelle tous les chats sont noir avant une certaine date (aujourd'hui) et blanc après cette date (à partir de demain) ? Suivant le théorème de Bayes, ces observations confirment aussi bien chacune des deux hypothèses, et donc nous devons les départager suivant d'autres critères, qui correspondent à leur crédibilité a priori, mais qui ne peuvent être fondés sur les observations. L'hypothèse que tous les chats sont noirs semble plus raisonnable, plus simple, mais cette interprétation des probabilités ne nous dit pas pourquoi et de nouveau il semble y avoir une part d'arbitraire.

De manière générale, on peut se demander si l'ensemble des hypothèses qu'on fait sur le monde est réellement quantifiable. Peut-on attribuer un degré de crédence au fait que le soleil se lèvera demain sur la base du nombre de levés qu'on a observé jusqu'à maintenant ? Peut-être qu'il faudrait aussi tenir compte d'autres paramètres : nos théories mécaniques sur le mouvement des corps célestes par exemple. Mais tout ça devient difficilement quantifiable.

Enfin il n'est pas certain qu'une analyse en terme de paris (ou d'utilité si on veut généraliser sans faire référence à l'argent), est applicable à tous les cas où on utilise des probabilités. Les probabilités subjectives semblent appropriées quand il s'agit de savoir à quel point nos hypothèses scientifiques sont ou non confirmées par de nouvelles expériences, mais est-ce que d'autres principes ne seraient pas plus appropriés quand il s'agit, par exemple, de déterminer a priori la probabilité de tirer un roi de pique d'un jeu de carte, ou encore pour interpréter non pas la crédibilité d'une théorie, mais la probabilité qu'un événement physique se produise, déterminée à partir de cette même théorie ?

En effet dans ce type de cas (par exemple à propos des probabilités de la mécanique quantique), les scientifiques utilisent plus volontiers des méthodes fréquentistes que bayésiennes. Les probabilités d'événements physiques sont calculées sur la base de la théorie, tenue pour acquise, mais ni ces probabilités ni la théorie ne sont mises à jour à chaque fois qu'on fait une expérience. On pourrait alors peut-être être bayésien à propos du degré de confirmation de la théorie, et fréquentiste à propos des probabilités prédites par la théorie. Mais on a vu que les interprétations fréquentistes soulevaient quelques problèmes...

The Cardsharps

Les propensions

Tout ça ne posait pas tant de problème que ça tant que la physique était déterministe. On pouvait toujours penser que les probabilités devraient s'interpréter de manière ultime en terme d'ignorance. Mais comme on le sait, la mécanique quantique a jeté le doute sur ce type d'interprétation(rappelez-vous) ce qui a poussé certains auteurs, notamment Popper ou avant lui Peirce, a envisager une interprétation des probabilités en terme de propensions. Il s'agit alors de situer les probabilités dans le monde.

Revenons sur la distinction entre modalités de re et de dicto. On trouve une distinction similaire à propos des probabilités : on peut parler de probabilités objectives (ou physiques ou ontiques) et de probabilités subjectives (ou épistémiques). Les premières supposent qu'il existe du hasard dans la nature, tandis que les secondes ramènent la notion de probabilité à notre ignorance de l'état du monde.

Les probabilités classiques seraient plutôt épistémiques : le principe d'indifférence semble fondé sur notre ignorance. C'est évidemment le cas aussi des interprétations subjectives. Les interprétations fréquentistes situent quant à elle les probabilités dans le monde. Cependant elles font des probabilités un concept non modal, puisqu'il ne fait que décrire des répartitions statistiques. L'interprétation en terme de propensions choisi quant à elle de prendre au sérieux l'idée de probabilités comme rapports de possibilités situés dans le monde.

12-alimenti,carni bovine,Taccuino Sanitatis, Casanatense 418
L'idée est que les fréquences observées ne seraient que la manifestation de ces propensions physiques. Cette interprétation permet de résoudre le problème des probabilités attribuées à des événements uniques, puisque ceux-ci peuvent bien se voir attribuer des propensions. On résout également au passage le problème de la classe de référence : celle-ci ne serait pas arbitraire, puisqu'elle découlerait de la constitution de la nature. Une bonne classe de référence est simplement une classe qui (pour reprendre l'expression de Platon) découpe la nature "selon les articulations naturelles, en s’efforçant de ne briser aucune partie", comme sait le faire un bon boucher... Enfin le fait qu'il existe du hasard dans le monde pourrait également être à la base des principes de rationalité qui gouvernent les probabilités subjectives.

Bien sûr il reste à élaborer ce rapport entre propensions et fréquences observées, ou même à expliquer en quoi les propensions respecteraient les axiomes des probabilités... Peut-être que le concept de propension est assez intuitif, mais est-ce que ça ne revient pas juste à donner un nom à quelque chose de mystérieux qui se manifesterait par les fréquences observées ? Au fond comme Molière moquait, dans "le malade imaginaire", l'explication suivant laquelle l'opium ferait dormir parce qu'il aurait une "vertu dormitive", il se peut que les propensions n'expliquent pas grand chose.

Pour autant d'autres auteurs défendent l'idée que de concevoir les propriétés physiques comme étant dispositionnelles, et de concevoir le concept de disposition comme un concept primitif, s'avère être une bonne stratégie pour expliquer les choses. Après tout, toute explication doit bien s'arrêter quelque part... Tout comme cet article !

1 commentaire: