R en entreprise

Accueil > Big Data : big engineering

Big Data : big engineering

Les marchés financiers produisent des centaines de Gigaoctes par jour. Ainsi, l’historique sur plusieurs années va peser plusieurs Teraoctets. Une étude d’ingénierie est nécessaire avant de pouvoir lancer des calculs d’analyse.

Comment accéder efficacement aux données ? La compression est un élément de réponse pour accéder plus rapidement aux données mais d’autres questions subsistent.

Hadoop (HDFS) est un systéme de fichiers distribué qui peut être installé sur des ordinateurs standards.

Mais de quels types ? Quel sont les quantités de RAM et les fréquences CPU nécessaires ? Quel est le facteur limitant du problème ?
Quel configuration réseau ? En fibre optique ou en Ethernet.
Quelle version de Linux ? Debian, Centos ?
Quelle version de Hadoop ? Apache, Cloudera, MapR ?
Quelle configuration pour le cluster ? Comment l’administrer ? CM ? Zookeeper ?
Quelle software installer ? Hive ? Hbase ? Pig ? Mahout ?
Quels outils pour exploiter au mieux les données (des scripts Linux scripts, du Java, R, C++, Hbase ? un mix de tout ça ?)

... et surtout : est ce que le calcul est scalable. Si on double le nombre de machines, parvient-on à analyser deux fois plus de données ? (ou à réduire le temps de calcul par deux). La scalabilité doit être toujours garder à l’esprit pendant la phase de développmement.

Il n’y a pas de réponse toute faite. Cela dépend de vos données, et du type d’analyse. Différent problèmes, différent goulots d’étranglements (RAM, données, CPU, temps ...).
Il ne suffit pas d’acheter une solution clef-en-mains : elles n’exsitent pas. Les technos Hadoop sont puissantes, mais elles doivent être soigneusement paramétrées à votre besoin.

Une analyse préalable du problème, ainsi que l’installation d’un petit prototype pourront valider la faisabilité de la solution finale, qui sera alors simple à mettre en oeuvre.