Maison / Science / Guide mathématique de l'élection présidentielle de 2020

Guide mathématique de l'élection présidentielle de 2020

TLes candidats démocrates de 2020 sont sortis et les sondeurs ont la parole! Bernie Sanders mène de deux longueurs avec Kamala Harris et Elizabeth Warren juste derrière, mais Cory Booker et Beto O’Rourke vont vite! La saison des courses de chevaux est imminente et je parie que je sais ce que vous pensez: "Arrêtez!"

Chaque élection, nous nous plaignons de couverture des courses de chevaux et nous restons collés à la même chose. Le problème avec ce type de couverture n’est pas qu’il soit sans importance. Qui est à la tête d’une course et quel peut être l’importance d’une personne qui essaie de décider à quel candidat donner de son temps ou de son argent, ou même s’il est intéressant d’apprendre les positions politiques d’un candidat marginal sans aucune chance de gagner. Le problème, c’est l’incitation bien documentée qui incite les médias à rapprocher chaque course de ce qu’elle est, ce que Erika Fry de Revue de journalisme Columbia appelé "enracinement pour la course."

Ceux qui veulent simplement savoir comment se rangent les candidats et qui recherchent une alternative plus objective et plus rigoureuse sur le plan quantitatif à la fantaisie se sont tournés vers des sources de journalisme spécialisé comme DataThirtyEight de Nate Silver. Mais même ceux-ci se sentent brûlés d’ici 2016. Silver, qui a remporté les deux victoires d’Obama, avait Trump comme un lointain défenseur dans la primaire et Clinton comme un favori à 71% pour former le cercle des vainqueurs dans le général. La couverture politique centrée sur les données, dans son ensemble, a pris un coup sérieux.

AI-JE BESOIN D'UN PARAPLUIE AUJOURD'HUI ?: Les prévisionnistes politiques pourraient s'inspirer des météorologues, qui fondent leurs prévisions non sur les fréquences observées, mais sur les conditions du jour même.IgorZh / Shutterstock

Silver a publié un partiel mea culpa pour les prévisions primaires. Mais il a fermement défendu les prévisions des élections générales en affirmant que (1) son modèle donnait à Trump plus de chances que quiconque, et (2) quelque chose qui a 29% de chances de se produire ne veut pas dire que c’est impossible. Peut-être que l'opprimé a eu de la chance. Cette dernière défense a toutefois révélé une vérité déstabilisante sur la nature de telles prévisions qui a surpris de nombreux lecteurs: toutes les prévisions étant probabilistes, ce qui signifie qu'elles ne sont pas tout à fait fausses en cas de victoire surprise, alors en quoi ils ont jamais eu raison?

Cette saison présidentielle, nous avons l'occasion de faire mieux. Cela commence par l'établissement de nouvelles normes. Nous avons besoin d’un moyen d’évaluer les prévisions allant au-delà d’une simple dichotomie bonne et fausse. Surtout, nous devons utiliser les outils mathématiques de probabilité pour nous dire quand un résultat improbable est accablant pour une prévision et quand ce n'est pas le cas. Je me rends compte que le langage des probabilités ne vient pas naturellement à la plupart des gens. À l’exception de rares voyages au casino, nous ne parlons pas souvent en termes probabilistes. Pour vous aider à devenir un consommateur d'informations averti lors des prochaines élections, voici quatre principes clés de probabilité pour vous aider à conserver les prévisions électorales dans leur contexte.

1. Quelque chose d'improbable se produira probablement

Un trope commun parmi les nouvelles des histoires étranges est le Incroyable coïncidence: Un couple a trois enfants qui ont le même anniversaire plusieurs années, un homme et son frère sont tous les deux frappés par des trains alors qu'ils circulent à bicyclette dans différents pays le même jour, etc. Souvent, ces histoires sont accompagnées d'une citation d'un professeur de statistique qui cite les chances qu'une telle chose ne se produise par hasard: entre un million et un milliard, ou comparant de façon colorée la probabilité à d'autres événements rares, comme gagner le loto Powerball. et ensuite être frappé par la foudre sur le chemin du retour.

Ces coïncidences sont beaucoup plus courantes que nous avons tendance à le penser, principalement en raison du grand nombre de possible les chances que chaque coïncidence soit donnée se produise (le grand nombre de familles de trois enfants dans le monde, par exemple) et le nombre d'événements de ce type que nous reconnaîtrions si nous en avions la possibilité (par exemple, nous nous soucierions tout autant de la situation des frères sœurs et si elles avaient été heurtées par des voitures au lieu de trains). Les mathématiciens Persi Diaconis et Frederick Mosteller ont qualifié cette loi de «loi des grands nombres»: avec un échantillon suffisamment grand, toute chose scandaleuse est inévitable. Donc, étant donné le nombre considérable de caucus, de scrutins de paille, de primaires et de scrutins à la baisse dont nous allons être témoins, nous pouvons être certains que des résultats farfelus se produiront. C'est bon.

Vous pouvez facilement produire un résultat jamais vu auparavant dans l'histoire humaine et ne jamais être répété.

Quelque chose n'est pas dit, cependant, est la raison pour laquelle l'apparition de quelque chose de très improbable devrait être intrinsèquement remarquable. Par exemple, voici un moyen de produire un résultat presque certainement jamais vu dans l’histoire de l’humanité et qui ne se reproduira plus jamais: mélanger un jeu de cartes. Le paquet résultant, en supposant que les cartes sont mélangées correctement, ne devrait apparaître qu'en moyenne tous les 52 * 51 * 50 * … * 2 * 1 brassages, car il s'agit du nombre de permutations possibles de 52 cartes, toutes également probables. Ce nombre est incompréhensiblement grand, de l'ordre de 1068ou 100 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000. Chaque personne sur Terre pourrait brouiller les cartes une fois par nanoseconde pour la durée de vie prévue de l'univers et ne pas même en réduire le nombre. Alors, pourquoi n'y a-t-il pas de nouvelles écrites chaque fois qu'un document est mélangé au sujet de l'événement peu probable astronomique qui vient de se produire? Pourquoi les statisticiens ne sont-ils pas invités à dire que c’était comme gagner le Powerball huit fois de suite?

La raison en est que la grande majorité de ces mélanges possibles ne contient aucun produit reconnaissable. modèle cela suggère toute hypothèse alternative autre que le pur hasard. Ces alternatives se cachent souvent à l'arrière-plan en tant que suspects peu probables jusqu'à ce que des données particulièrement improbables les révèlent. Par exemple, dans l’hypothèse où une pièce en particulier est juste, les séquences de 20 lancers de pièces:

HHTHTHTHHHTTTTTHTHHT et HHHHHHHHHHHHHHHHHHHH

ont exactement la même probabilité: ≈ 1 sur 1 million, mais seule cette dernière suggère une hypothèse alternative: la pièce est biaisée, ou a même des têtes des deux côtés, ce qui rend le résultat observé certain.

Cela signifie, pour les prévisions électorales, que quelque chose d’improbable se produit (par exemple, Dwayne «The Rock» Johnson étant le candidat démocrate proposé en 2020 – actuellement, une chance sur 1 pour cent selon PredictIt.org) n’est pas nécessairement intéressant simplement parce que c'était improbable, à moins que cela ne soit considéré comme une preuve contre une hypothèse sous-jacente prise en compte dans l'estimation de probabilité: qu'une pièce de monnaie en particulier est juste ou qu'il est peu probable qu'un grand parti nomme un ancien lutteur sans expérience politique.

L’outil mathématique qui sépare les coïncidences intéressantes des coïncidences insignifiantes est le théorème de Bayes, qui indique exactement comment une observation donnée doit nous amener à mettre à jour notre attribution de probabilité pour une hypothèse donnée parmi une classe d’alternatives. L’intérêt essentiel du théorème, mis au point par Thomas Bayes dans les années 1750, est que la probabilité que nous assignons l’hypothèse à la lumière de l’observation (la probabilité «postérieure») est proportionnelle à la probabilité que nous lui avons donnée avant de faire l’observation (la "Prior") et la probabilité de cette observation si l'hypothèse était vraie (probabilité "conditionnelle").

Ainsi, le raisonnement bayésien peut nous aider à détecter des modèles similaires à ceux décrits ci-dessus, mais uniquement si nous autorisons des alternatives possibles et leurs probabilités antérieures. Par exemple, si nous supposions initialement qu’une pièce de monnaie est très probablement passable mais avait, disons, une chance sur deux d'être double-tête (peut-être avons-nous entendu parler de l'existence de telles pièces mais les considérons comme extrêmement rares), puis après 20 têtes consécutives, la règle de Bayes nous amènerait à comparer les deux quantités:

9999/10000 * (½)20 contre 1/10000 * 1

Et notre assignation de probabilité postérieure pour la théorie de la double-tête serait d'environ 99%. La non-similitude des données sous l'hypothèse du hasard aurait pu faire passer cette théorie de lui-même très peu probable. C'est pourquoi particulier formes les événements improbables sont si remarquables: ils portent une énorme énergie potentielle comme un printemps enroulé qui pourrait être libéré pour lancer une hypothèse alternative improbable, telle que l’idée que autre chose que le hasard est à l’œuvre ou qu’un postulat fondamental sur la politique américaine est faux, dans les hauteurs de la quasi-certitude.

2. Les probabilités peuvent monter et descendre de façon spectaculaire au fur et à mesure que les événements se déroulent

En plus d’avoir appelé les modèles de FiveThirtyEight à s’émousser sur les élections générales de 2016, un certain nombre de critiques se sont attardés sur un second point: que les probabilités prévisionnelles fluctuait trop menant aux élections. Les prévisions de Silver concernant les chances de victoire de Clinton ont peut-être fini à 71%, mais au cours des cinq mois précédant les élections, elles ont rebondi entre 55% et 85%. Selon les critiques, il s’agissait là d’une preuve d’une instabilité fondamentale du modèle ou, pire, d’un échec total dans la capture de l’incertitude de la bonne façon. La fluctuation semble particulièrement criante étant donné que le nombre de ses sondages a été relativement stable au cours de cette période; FiveThirtyEight la montrait comme une favorite régulière de 2 à 6 points à l’échelle nationale. Qu'est ce qui a changé?

Ce qui a principalement changé, c’est la performance de Clinton dans plusieurs États clés comme la Floride, la Pennsylvanie, l’Ohio, le Michigan et le Wisconsin, ainsi que les implications pour le collège électoral. Même si les résultats de ses sondages nationaux indiquaient une marge confortable, les marges de certains des États candidats étaient toujours très minces.

En l'absence d'une échelle quantitative, nous pouvons nous rabattre sur des récits qui écartent les preuves en faveur de nos propres préjugés.

Pour son modèle incapable de maintenir une attitude plus circonspect et de projeter une probabilité constante que Clinton puisse perdre, Silver a été vivement critiqué. Nassim Nicholas Taleb, philosophe mathématique et auteur de Le cygne noir, appelé Silver “ignorant des probabilités," une "fraude," et "un imposteur total. ”Mathématiquement, cependant, il n’ya aucune raison que la probabilité prévue n’ait pas fluctué plus, même compte tenu des variations mineures dans les sondages.

En guise d’expérience de réflexion visant à illustrer le fonctionnement possible de ce processus, imaginons que nous misons sur une séquence de 1 000 monnaies (représentant les fluctuations quotidiennes du nombre de sondages des candidats), et que tout ce qui nous intéresse est de finir avec un bénéfice net à la fin ( représentant une victoire électorale). Nous pouvons choisir le montant de chaque pari, mais ce montant doit être maintenu constant pour tous les retournements. En raison de cette hypothèse, nous remarquons assez rapidement que le montant que nous parions importait peu. Tout ce qui compte est la séquence des têtes et des queues. Plus nous jouons par retournement, plus notre fortune devient volatile, mais si la volatilité passée et future est la même, alors à n'importe quel point médian, disons après le 500e retournement, les chances de terminer mieux que nous avons commencé ne dépendent que de la Jusqu’à présent, les résultats des lancers, ce qui veut dire qu’il y aura une même variabilité, que nous parions 1 $ / tour ou 1 million de dollars.

Au début du jeu, nos chances de gagner sont de 50/50. Les graphiques ci-dessous montrent comment cette chance se déroulerait dans le temps pour une séquence donnée de lancers. Sur la gauche, nous supposons un montant de pari de 1 $; à droite 1 million de dollars. Mais à part la légende, les graphiques sont exactement les mêmes. Dans les deux cas, les probabilités de passer de 20% à 80% ne sont pas du tout improbables.

DES CHEMINS DIFFÉRENTS: Un «processus de marche aléatoire» est un modèle pour une quantité variant de manière aléatoire qui peut monter et descendre au fil du temps en fonction de certaines règles, comme notre destin dans le jeu décrit ci-dessus. Le «prix de l’option binaire» fait référence à nos chances de finir au-dessus du seuil de rentabilité à la fin de la partie. Le comportement de cette chance est indépendant du montant que nous avons parié.

Un phénomène similaire peut se manifester dans les prévisions électorales. Il peut être tout à fait correct que les probabilités de prévision fluctuent autant que celles de FiveThirtyEight en 2016; En gros, il suffit de supposer que la volatilité dans les sondages est constante dans le temps. Si les sondages sont relativement stables, cela signifie que les probabilités de prévision peuvent varier beaucoup plus que les sondages. L'ampleur de ces fluctuations de probabilité sera particulièrement importante lorsque les sondages approcheront 50/50, comme ce fut le cas dans plusieurs des États clés en 2016.

Il est courant de penser que la probabilité est une quantité fixe et mesurable d’un système physique, telle que la masse ou la chaleur spécifique. Le principe important à retenir est que la probabilité est en définitive une information et que, à mesure que de nouvelles informations sont révélées, nos probabilités peuvent et doivent changer en conséquence. Parfois, ces changements peuvent être dramatiques. Dans le cas de Clinton vs. Trump, cela signifiait de grandes oscillations dans les chances de victoire de chacun, malgré (ou, en fait, à cause de) la stabilité dans les sondages. Quand un concours est en équilibre sur un couteau, comme en 2016, tout vacillement mineur pouvait le faire tomber d’un côté ou de l’autre.

3. Certaines probabilités devraient correspondre aux fréquences, mais ce n’est pas tout.

Alors, comment devrions-nous évaluer la qualité des prévisions électorales probabilistes, et en particulier le désastre apparent de 2016? Les modèles de Silver n’auraient-ils pas donné une chance plus raisonnable à Trump?

Qu'est-ce qui compte comme raisonnable? Ce qui différencie la modélisation de phénomènes réels du monde réel par rapport aux simples jeux de dés et de cartes est qu’il n’ya souvent aucun moyen de vérifier qu’une assignation de probabilité était «correcte». Ces événements rares ne sont pas prévisibles comme le fait de multiplier par deux le double, mais peut au contraire dépendre de facteurs qui ne se répéteront jamais et n’auraient peut-être pas été anticipés. On peut soutenir que le choc dans les sondages a été provoqué, par exemple, par la lettre de James Comey 11 jours avant les élections informant le Congrès que le FBI avait découvert de nouvelles preuves dans son enquête sur les courriers électroniques de Clinton, a été incluse dans les modèles FiveThirtyEight; c'était juste un hasard si cela s'est produit quand cela s'est produit et a eu l'effet que cela a eu. Face aux informations disponibles à ce moment-là, cela aurait raisonnablement pu être considéré comme très improbable.


Sapolsky_TH-F1

Cependant, dans de nombreux cas de ce type, si l'imprévu persiste, cela pourrait être la preuve que le modèle est incomplet. Silver a surtout défendu ses probabilités en disant, en effet, que ses modèles ne sont pris au dépourvu que dans la mesure où ils-mêmes le prédisent. Bien qu’il soit impossible de valider une prévision individuelle, selon Silver, si x pour cent des candidats auxquels il donnait une chance de gagner x pour cent continuaient de l'emporter, ses prévisions étaient exactes. Comme il l’a dit sur Twitter: "Ce n’est pas compliqué."

Ce n'est cependant pas si simple.

Premièrement, il y a toujours un problème inhérent à la tentative de validation de la probabilité en utilisant la fréquence. Si vous pensez qu'un tirage au sort équivaut à 50/50, il suffit de retourner la pièce encore et encore, et vous pouvez éventuellement être assez confiant quant au fait que la pièce soit équilibrée. C'est ce qu'on appelle la validation de fréquence, et même les prévisions pour certains systèmes plus complexes tels que les conditions météorologiques peuvent être examinées de cette manière. Etant donné que les conditions et les prévisions changent de jour en jour, il n’est jamais vraiment possible d’évaluer le risque de pluie en répétant ce jour-là plusieurs fois, mais tous les jours sont soumis aux mêmes modèles de systèmes météorologiques sous-jacents. de nombreuses divergences entre les probabilités de prévision et les fréquences observées pourraient indiquer qu'une hypothèse du modèle était fausse. Mais les probabilités pour évidemment une fois les événements, par exemple le risque d’une récession mondiale ou d’une guerre nucléaire en 2019, rendent la validation des fréquences presque sans signification.

Telle est la question à laquelle est confronté un prévisionniste électoral tel que Silver: chaque élection, en particulier une qui met en scène un personnage défiant les normes tel que Trump, est-elle mieux considérée comme un événement ponctuel? Ou, y a-t-il certains facteurs (données démographiques, appartenances à un parti, relation entre le nombre de sondages et le pourcentage de voix) qui peuvent être vérifiés en comparant les probabilités aux fréquences observées? Pour que l'analyse ait un sens, il faut que les événements soient tous ressemblent à certains égards. Mais toutes les élections sont-elles identiques? assez?

Même si nous décidons qu’il est raisonnablement prudent d’appliquer la validation de la fréquence aux élections, l’accord entre la probabilité et la fréquence observée n’est qu’une partie de l’histoire de ce qui rend une prévision valable. Par exemple, un climatologue savait qu'en moyenne, il y avait environ 90 jours de pluie par an (environ 25%) dans votre région. Ils pourraient dire tous les jours que les chances de pluie du lendemain étaient de 25% et qu’elles s’en sortent bien au fil des années; les fréquences observées correspondraient étroitement aux probabilités de prévision. Cependant, ces prévisions seraient pratiquement inutiles pour quelqu'un qui essaierait de décider d'apporter un parapluie un jour donné.

Les meilleures prévisions sont plus spécifiquement basées sur les conditions du jour. En effet, les vrais météorologues mesurent leurs performances avec ce que l’on appelle un «score de Brier», qui récompense non seulement leur «fiabilité» (validation de la fréquence), mais également leur «résolution» (leur variation). afin que les prévisionnistes ne puissent pas tricher en répétant la probabilité moyenne chaque jour. Sans s’embourber dans les formules, l’idée du score de Brier est de punir une prévision en fonction de la différence entre la prévision probabiliste et une prévision parfaitement déterministe qui dit catégoriquement que l’événement observé est certain de se produire. Il récompenserait un prévisionniste électoral pour avoir recherché toutes les informations disponibles et passé des appels audacieux avec des probabilités proches de 100%, en supposant que leur favori choisi l'emportait. En effet, le score de Brier incite les prévisionnistes à essayer de répondre à la question «Que se passera-t-il?» Silver n'a pas publiquement noté ses propres modèles avec les scores de Brier, mais étant donné qu'ils aboutissent généralement à des probabilités supérieures à 95% et sont proches de déterministes, il est probable qu’ils obtiendraient de bons résultats.

4. Les prévisions probabilistes sont imparfaites mais meilleures que l’alternative

La probabilité est le langage mathématique de l’incertitude depuis plus de 300 ans et a montré son utilité dans des contextes très divers, allant des jeux de hasard à la météorologie, à l’économie et aux sciences politiques. Utilisé correctement, il peut nous aider à tirer des leçons de l’observation et à construire de meilleures prévisions de ce qui va arriver. Mais de telles prévisions sont toujours sujettes à des hypothèses de modèle éventuellement erronées. Il y aura toujours place à amélioration. Comme le dit l’aphorisme danois: «Il est difficile de faire des prédictions, en particulier sur l’avenir». Ce que nous a appris l’expérience récente, c’est l’alternative: écouter des porte-parole et des experts rémunérés, souvent partisans du conflit, enclins à raconter contrarie – est pire.

C’est là que les mathématiques de la probabilité peuvent nous offrir la plus grande valeur. En l'absence d'une échelle quantitative d'incertitude, nous pouvons soit nous rabattre sur des récits qui écartent les preuves en faveur de nos propres partis pris, soit nous lever les mains en disant: «Tout est possible». La probabilité nous offre une troisième option: nous pouvons envisager une hypothèse (une pièce a deux têtes; Trump sera élu) est peu probable au début, mais change d’avis après avoir accumulé des preuves en sa faveur. Si nous disposons de suffisamment de preuves, nous pouvons même avancer un peu vers la certitude. Des exemples simples tels que les paris sur les pièces de monnaie servent à avertir que les résultats peuvent être contre-intuitifs. Mais surmonter notre intuition est souvent nécessaire dans un monde complexe et, si cela est bien fait, peut être aussi grisant que le Derby du Kentucky.

Aubrey Clayton est une mathématicienne vivant à Boston.

A propos newstrotteur-fr

Découvrez également

La FDA approuve le premier spray nasal générique de médicament à inversion de surdosage

par Linda A. Johnson Les autorités de réglementation américaines ont approuvé la première version générique …

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *