- A Multidimensional Cost Model for Data Models Denormalization
Traditional joins in the relational world are problematic in NoSQL. The fact that data is distributed over the network creates considerable network communications that did not exist in a centralized system.
The aim of these exercises is to show how important it is to model data collections correctly in a distributed context. Schema denormalization is particularly ...
- Graph Mining with Neo4j
I teach this course at ESILV (5th year), M2 DataScience at Polytechnic and MS SIO at CentraleSupelec.
You will find above the slides and exercices (corrections not provided).
Find also the datasets on Neo4Tourism I provide for this practice work.
Graph Datasets for Practice Works
bi-partite_graphTélécharger
mono-partite_graphTélécharger
- TP – Elasticsearch
Le logiciel elasticsearch est très facile d’installation et de déploiement dans un environnement distribué.Son but est d’intégrer du contenu semi-structuré (JSon) orienté texte et de permettre son interrogation.
Pour ce TP, vous trouverez un guide d’installation, un jeu de données et un TP de requêtes.
Développement d’un cluster Elasticsearch – Kibana pour Docker ARM64:
docker-compose.yaml_Télécharger
- Spark + SQL + MongoDB
Spark est un Framework d’exécution distribué extrêmement puissant grâce à sa notion de RDD permettant de maximiser les ressources mémoires (RAM).
Voici mes transparents de cours sur Spark avec ses liens avec Spark SQL pour la gestion de DataFrame.
En plus, vous trouverez les Travaux Pratiques associés que nous effectuons dans un environnement Cloud Azure.
- Bloom Filters
Le Bloom Filters est une structure de données optimisée permettant de déterminer en temps constant la présence d’une donnée à l’intérieur d’un fichier volumineux.Ce cours permet de présenter ce concept utilisé dans de nombreuses applications, notamment les bases de données relationnelles et NoSQL.
- Introduction to Neo4j : Practice Works
Neo4j is a graph-oriented NoSQL database for scaling to large graphs. One of the advantages of Neo4j is its ease of use and its Cypher query language.
Here you’ll find practical exercises to help you explore the key concepts of a graph database: graph modeling and querying.
Neo4j datasetTélécharger
- Neo4j slides & videos
Here are the slides and videos (on Youtube) on my course on Neo4j
https://www.youtube.com/watch?v=SOBQFJ5_1kc&list=PLFV49Ra12CkYKOJuJIGNaIG0TGuGwyED2https://www.youtube.com/watch?v=SOBQFJ5_1kc&list=PLFV49Ra12CkYKOJuJIGNaIG0TGuGwyED2
- Projet Infrastructure de données: M2 Polytechnique
Dans le cadre du cours « Infrastructure de données » dans le M2 DataScience de Polytechnique, vous trouverez ci-joint le sujet de projet à produire et à présenter en classe.
Ce projet particulièrement sur la spécification des besoins pour la conception d’une infrastructure de données et la manière de dénormalisation un schéma relationnel pour optimiser le Système d’Information ...
- Introduction to Elasticsearch: videos
https://www.youtube.com/playlist?list=PLFV49Ra12CkZ5lJJinfL4nTsj0yjmTNlS
My introduction videos on Elasticsearch and ELK stack.
- Elasticsearch – Slides & Videos
Here is a course on Elasticsearch, what is it, what for, where does it come from, etc. We will see how to query this NoSQL database.
https://www.youtube.com/watch?v=gXcKIpwSCe0&list=PLFV49Ra12CkZ5lJJinfL4nTsj0yjmTNlS
Laisser un commentaire