R en entreprise

Accueil > Pourquoi R ?

Pourquoi R ?

R (http://www.r-project.org/) est un environnement permettant de faire des analyses statistiques et de produire des graphiques évolués.

C’est également un langage de programmation complet et mature.

Enfin, sa licence est opensource, son utilisation est gratuite, même dans le contexte de l’entreprise ou de la formation.

L’environnement R intégre de nombreuses fonctionnalité pour la manipulation de données, et d’affichages graphiques, quelques soit le domaine d’application : données clients, études marketing/webmarketing, business analytics, sondages, biostatistiques, bioinformatique, génétique, mesure de qualité, etc...

Examples de domaines où R est utilisé :

  1. Statistiques bayesiennes (par exemple, plan d’expérience bayesiens)
  2. Econometrie & Finance
  3. Machine Learning
  4. Psychometrics
  5. Plan d’expériences (en industrie, médicaments, etc.)
  6. Statistiques robustes
  7. Analyse de réseaux sociaux
  8. Statistiques spatiales (exploration pétrolière, mines)
  9. Sciences politiques et sociales
  10. Enseignement
  11. ...

Il comporte :

- des fonctionnalités de manipulation et transformation de données (OLAP par exemple)

- des possibilités graphiques professionnelles très étendues

- un langage de programmation qui peut s’interfacer avec les bases de données et les outils de votre entreprise

- des centaines (milliers ?) de fonctions statistiques

- enfin, il est possible de paralléliser les calculs dans le cas de masses de données importantes (Terabytes). C’est un logiciel pilier des thématiques BigData, OLAP, Business analytics et Informatique décisionnelle.

Historiquement, R est une implémentation gratuite du langage S (forte compatibilité entre E et S) et donc un proche concurrent du logiciel S-PLUS (TIBCO Software).

Un rapide comparatif avec les autres logiciels de statistique :

Excel ?
C’est le premier outil qui vient à l’esprit. Excel est un tableur très pratique, mais rapidement limité lorsque le nombre de données devient important. Il devient lent, voir inutilisable au dela d’une certaine limite. Il possède très peu de fonctions statistiques.

R ou MATLAB ?
Cela dépend.
Les licences MATLAB coûtent typiquement plusieurs milliers d’euros par an et par machine. Si vous avez un gros budget, MATLAB est un produit commercial très abouti. Sa documentation est excellente et le fonctionnel de l’application est plus cohérent que R.

R est un produit opensource, donc gratuit. Il est plus complet que MATLAB et offre plus de possibilités, mais sa prise en main est un peu plus difficile.

... ou SAS ?
SAS peut fédérer les données de toutes les activités de l’entreprises. Long à mettre en place. Il requiert des experts pour l’installation et la configuration du logiciel. Le langage de programmation est ancien (conçu dans les années 70). Orienté Business Intelligence pour les (très) grosses entreprises.

Les autres logiciels spécialisés :

IDL / GDL
Utilisé en astronomie, géosciences et imagerie médicale.

Tecplot
De nombreuses possibilités graphiques, mais très cher.

ParaView
Concu pour le calcul parallèle scientifique, de bonnes capacités graphiques également.

Aucun de ces logiciels n’offre une base d’utilisateurs et des possibilités techniques aussi diverses que R.