M2 DataScience Polytechnique – Infrastructure de données
Dans le cadre du double diplôme co-habilité avec Polytechnique : M2 DataScience
Cette page contient l’ensemble du matériel de cours Infrastructure de Données dédié à la conception de bases de données NoSQL et de systèmes d’information pour le BigData. Bien que ces termes soient très à la mode et attractifs, je précise que nous allons nous focaliser sur :
- L’univers du NoSQL : pourquoi ? comment ? quels sont les contraintes ? quelles sont les solutions ? Quelles sont les problématiques
- Comprendre les techniques de sharding : Cluster (Hadoop, Spark), Indexation (MongoDB), Hachage (Cassandra)
- Savoir modéliser les données pour le NoSQL et dénormaliser un schéma relationnel
- Pratique du NoSQL d’un point de vue interrogation (requêtes) : MongoDB
Transparents de cours
- Introduction au NoSQL, la problématique du choix d’optimisation
- JSON, Jointures et dénormalisation
- MongoDB
- Le hachage dynamique et la DHT
- Les indexes distribués et Hadoop
- Cassandra
Exercices et Travaux Pratiques
- Exercices: JSON, Dénormalisation et jointures
- Projet d’Infrastructure de données
- Hachage linéaire, DHT
- TP MongoDB : Interrogation
Matériel supplémentaire
- Mon cours sur OpenClassrooms
- DynamoDB (Amazon)
- Spark (b3d.bdpedia.fr)
- Pig Latin (b3d.bdpedia.fr) et TP
- Le framework Map/Reduce (source b3d.bdpedia.fr conjointement avec Philippe Rigaux)
- TP MongoDB : Réplication & Distribution
- Jeux de données au format JSon pour les projets
- TP Cassandra : Modélisation & Interrogation
- TP Elasticsearch : Interrogation
Laisser un commentaire