Méthodologie

On l'entend souvent, les sondages ne sont pas une prédiction mais une capture de l'opinion à un instant donné. Mais cette capture instantanée est imparfaite. D'abord à cause de la nature aléatoire du processus d’échantillonnage lors de l'enquête de terrain, et aussi parce que l'opinion mesurée n'est pas nécessairement la même que celle qui sera exprimée le jour du vote (« ça peut encore changer »). D'autres problèmes viennent perturber la pertinence d'un sondage : le biais de sélection (le fait que les sondages représentent l'opinion… des gens qui répondent aux sondages), la méthodologie des instituts (la méthode des quotas, le rolling) et le fait qu'une partie des sondés ne répondent pas honnêtement.

L'objectif de Depuis 1958 est de prendre en compte ces incertitudes et de les transformer en une prédiction du résultat le jour du vote. Cette prédiction est probabiliste au sens bayésien. C'est à dire qu'elle reflète la quantité d'information disponible pour affirmer un résultat. En effet l'élection présidentielle est déterministe, mais c'est l'observation stochastique faite via les sondages qui est par nature aléatoire.

De plus, l'élection présidentielle en France est particulière parce qu'elle comporte deux tours. Les deux candidats du second tours sont les deux candidats arrivés en tête au premier. Mais comme les votes exprimés au premier et second tours sont issus de distributions différentes, estimer la probabilité finale qu'un candidat gagne l’élection nécessite un calcul de probabilité totale avec simulation Monte-Carlo.

Observations multinomiales

Soit \(\theta = (\theta_1, \theta_2, \ldots \theta_M)\) le vecteur, inconnu, du résultat d'un scrutin uninominal à un tour en votes exprimés. Il y a \(M\) candidats, et on a \(\sum{\theta_i} = 1\).

Un sondage idéal est un tirage :

Dans ce cas parfait \(\theta_i\) est la probabilité qu'un individu pris au hasard réponde en faveur du candidat \(i\). Alors les résultats d'un sondage de taille \(N\) suivent une loi multinomiale :\[ X\,|\,\theta \sim \text{Multinomial}(\theta) \]

\(X = (X_1, X_2, \ldots X_M)\) est le vecteur résultat d'un sondage, en nombres entiers de répondants. On a \(\sum{X_i} = N\), la taille de l'échantillon. En pratique, les trois critères ci-dessus ne sont pas vraiment applicables aux sondages publiés en France. On en fait cependant l'hypothèse ici. Les paramètres finaux du modèle sont adaptés de façon à maîtriser l'erreur introduite par cette simplification.

Une enquête est effectuée à une date précise, et représente donc l'opinion le jour du sondage. Pour traduire les variations temporelles, on pondère \(N\) par un facteur temporel qui dépend du nombre de jours à venir avant le scrutin. Ça n'est pas tout à fait exact, et en théorie on pourrait utiliser un modèle dynamique. En pratique c'est suffisant, car la seule prédiction intéressante c'est celle du jour de l'élection, et les calculs sont très simplifiés. \(N\) est aussi diminué pour prendre en compte la méthode des quotas, qui corrige l'hétérogénéité de la population sondée mais diminue la précision.

Inférence bayésienne

La loi de Dirichlet est l'apriori conjuguée de la loi multinomiale. Ainsi, la distribution aposteriori après observation d'un sondage est donnée par:\[ \theta\,|\,X \sim \text{Dir}(\alpha + x) \] Avec \(\alpha\) les paramètres de Dirichlet, et \(x\) la réalisation de \(X\), le sondage. Typiquement on prend un apriori uniforme \(\alpha = (1, 1, \ldots 1)\).

Ainsi, les votes exprimés sont modélisés par un vecteur aléatoire qui suit une loi de Dirichlet. La dimension de ce vecteur est \(M\) pour le premier tour, et \(2\) pour le second. Pour le premier tour, il est impossible de visualiser graphiquement cette distribution. On peut tout de même se contenter des densités marginales de chaque candidat qui sont des lois bêta.

Premier tour 2017 — Densités marginales aposteriori
Figure a posteriori

Sur cette figure, on observe les densités marginales de résultat au premier tour. C'est à dire les chances de chaque candidat en votes exprimés, en intégrant tous les autres. Il s'agit de lois bêta de paramètres \((\alpha_i, \alpha_0 - \alpha_i)\) avec \(\alpha_0 = \sum_i \alpha_i\). Les traits noirs indiquent les moyennes. On peut faire le même exercice pour l'élection de 2012. Dans ce cas les traits rouges indiquent le résultat officiel :

Premier tour 2012 — Densités marginales aposteriori
Figure a posteriori

Échantillonnage Monte-Carlo

Une fois \(\theta\) mis à jour avec l'addition de tous les sondages observés, on peut l'utiliser pour calculer la probabilité de n'importe quel évènement concernant le premier tour. Par exemple la probabilité qu'il n'y ait pas de second tour. Cependant, au delà de la moyenne, du mode et des paramètres des densités marginales, la loi de Dirichlet n'admet pas beaucoup de solutions analytiques. Qu'à cela ne tienne, on simule plusieurs millions de scrutins et on estime la probabilité empiriquement.

Un de ces évènements exotiques et important, c'est celui qui indique quel second tour aura lieu. C'est à dire la paire non ordonnée des deux candidats en tête. Soit donc \(S_{AB}\) la probabilité que \(A\) affronte \(B\) au second tour.

Probabilités totales

Pour être élu président il faut passer au second tour puis le gagner. On peut calculer la probabilité de cet évènement \(T_A\) pour chaque candidat \(A\) avec une partition sur les \( M(M-1)/2 \) seconds tours possibles :\[ P(T_A) = P(\theta_A \gt 0.5) + \sum_{B} P(S_{AB}) \times P(\pi_{AB} \gt 0.5) \] Avec \(\pi_{AB}\) le vecteur aléatoire représentant la distribution aposteriori des votes exprimés au second tour entre les candidats \(A\) et \(B\), étant donné qu'il a lieu. On utilise le même modèle que pour le premier tour : une loi de Dirichlet avec des observations multinomiales indépendantes. Cela dit les seconds tours sont des élections à deux candidats, et ce cas général se réduit à des loi bêta et binomiales, respectivement. Si aucun sondage n'envisage l'hypothèse \(S_{AB}\) on prend un apriori uniforme (i.e. 50/50).

Depuis 1958 — Modèle graphique
Modèle graphique