R en entreprise

Accueil > Elections présidentielles 2012 - analyse statistique

Elections présidentielles 2012 - analyse statistique

Nous prendrons les élections présidentielles pour montrer les capacités de R (notamment graphique).

Les résultats aux premier et deuxième tours sont disponibles sur le site du ministère de l’intérieur.

Les données sont des pages HTML. Il faut télécharger les pages web, puis les parser pour récupérer les données. R fourni des fonctions pour télécharger les données dans des pages web getUrl du package ’RCurl’ et readHTMLTable du Package ’XML’.

Cela permet de récupérer les données des 36 000+ communes françaises (Note : il en manque quelques unes, dûs aux changements de code INSEE).

Exemple pour une commune (les chiffres indiquent le nombre de votants, ici pour le premier tour) : [1]

(8 candidats + abstention) au premier tour + (2 candidats + abstention) au deuxième = 12 * 36 000 = environ 430 000 données brutes.

Ca n’est pas énorme comme volumétrie, mais c’est déjà trop pour utiliser Excel confortablement.

  • Histogrammes des votes des villes

Un des problèmes principaux de cette étude vient du fait que nous avons les données des votes par villes. Impossible d’utiliser directement les fonctions statistiques usuelles (corrélation, PCA, etc). Il faut toujours pondérer les calculs par le "poids" (= nombre d’inscrits sur les listes électorale) des villes.

En effet, les tailles des communes ne suivent pas une distribution "simple" (ni gaussienne, ni même modale) mais plutôt une distribution de type exponentielle.

En passant au log du nombre d’inscrits, on voit une distribution de type "log-normale" sur cet histogramme.

  • Analyse en composantes principales (PCA) Deux exemples de PCA avec R.
    PNG - 36 000+ communes sur un graphique ACP (deux premières dimensions)
    36 000+ communes sur un graphique ACP (deux premières dimensions)
    (cliquez pour aggrandir) On voit bien les limites de l’affichage .... Cela permet toutefois d’identifier des communes ayant votées ultra-majoritairement pour Le Pen, Sarkozy, ou Hollande.
  • Corrélogrammes

Un corrélogramme est un moyen simple de visualiser les matrices de corrélations : es corrélations positives en bleu, les négatives en rouge.

  • Corrélogrammes (facteurs sociaux)

L’INSEE fournit de nombreuses données sur les caractéres sociaux des villes (âge des habitants, catégories socio-professionelles, chômage, revenus, etc...)
R va nous permettre de calculer les corrélations pondérées.

PNG - Corrélogramme par catégories socio-professionnelles (CSP)
Corrélogramme par catégories socio-professionnelles (CSP)
PNG - Par niveaux d’études
Par niveaux d’études
PNG - Corrélogramme par salaire moyen
Corrélogramme par salaire moyen
  • Cartogrammes

Les cartogrammes représentent les communes avec une surface proportionnelle aux nombres d’habitants. Ce type de représentations est essentiel lorsque vos variables d’intérêts dépendent du nombre d’habitants plutôt que de la géographie (ventes aux clients, etc.). R permet de charger le cartogramme et de le coloriser proportionnellement aux résultats des candidats.

(cliquer sur les images pour les agrandir)

JPEG -  Cartogramme de la France
Cartogramme de la France
La taille est proportionnelle au nombre d’habitants
PNG - Cartogramme de l’abstention
Cartogramme de l’abstention
L’abstention est plus forte dans les villes que dans les campagne
PNG - Vote Hollande
Vote Hollande
Meilleur score dans le Sud ouest et en villes. Mauvais score dans les banlieues aisées de l’ouest parisien, Alsace, Sud est de la France.
PNG - Vote Sarkozy
Vote Sarkozy
PNG - Vote Marine Le Pen
Vote Marine Le Pen
Le vote Le Pen est plus important dans les campagnes et le Sud-Est.

[1

CODGEO 01001 (INSEE)
LIBGEOL’Abergement-Clémenciat
Abstention84
JOLY 13
LE_PEN 126
SARKOZY 159
MELENCHON 25
POUTOU 2
ARTHAUD 2
CHEMINADE 2
BAYROU 54
DUPONT_AIGNAN4
HOLLANDE 112