Technologies informatiques du Big Data

Responsable(s) : Daniel MULLER, Mohsen ARDABILIAN, Stéphane DERRODE

Objectifs de la formation

Dans de nombreux domaines scientifiques, tels que la biologie ou les sciences de l'environnement, l'évolution rapide des instruments scientifiques, ainsi que le recours intensif à la simulation informatique, ont conduit à une production importante de données ces dernières années. Les applications scientifiques sont aujourd'hui confrontées à de nouveaux problèmes liés au stockage et à l'exploitation de ces grands volumes de données. La problématique est sensiblement la même dans le cadre de la gestion des données collectées par les réseaux sociaux, avec cette fois-ci des objectifs d'optimisation commerciale.

L’enseignement proposé permettra de découvrir 3 grandes technologies emblématiques du traitement des big-data (MongoDB, Hadoop et Spark), qui sont largement utilisées par les entreprises ou les institutions qui ont à gérer de telles volumes de données.

Mots-clés

Big Data, NoSQL, MongoDB, Hadoop, Spark, python

Programme

  • 3 séances de cours de 2h portant sur MongoDB, Hadoop et Spark.
  • 3 séances de TP de 4h sur MongoDB, Hadoop et Spark.
  • 1 séance de TP de 2h sur Spark MLlib.

Compétences visées

  • - Savoir manipuler des bases de données No-SQL avec MongoDB
  • - Savoir écrire un algorithme map-reduce avec Hadoop avec Python, dans un environnement de stockage de type HDFS
  • - Savoir écrire un algorithme en langage Spark avec Python, dans un environnement de stockage de type HDFS

Contrôle des connaissances

La moyenne de notes obtenues sur les compte-rendus de 3 TP.