You will find above the slides and exercices (corrections not provided).
Télécharger : Neo4j_graphMining_en.pdf (PDF, 2.61Mo)
Télécharger : GraphMining_TPv2.1.pdf (PDF, 674KB)
Here are the dataset on Neo4Tourism I provide for this practice work.
NeoMaPy is based on a Temporal Markov Logic Networks (TMLN) model which extends the Markov Logic Networks (MLN) model with uncertain temporal facts and rules. Total and partial tem- poral (in)consistency relations between sets of temporal formulae are examined. We have proposed a new Temporal Parametric Semantics (TPS) which allows combining several sub-functions leading to different assessment strategies.
We have developed the new NeoMaPy tool (Github link) which computes the MAP inference on MLNs and TMLNs with several TPS. To enhance the graph visualisation, we used GraphStream.
This work has been published at IJCAI’23 (demo) and CIKM’23 (long paper). The work done in collaboration with Victor David (INRIA Sophia Antipolis) and Raphaël Fournier (CNAM). The work was funded by the ANR DAPHNE project.
>The NeoMaPy Framework – a demonstration for IJCAI23>>
]]>]]>The online display advertising market is growing rapidly and is becoming the most important distribution channel in terms of value. Among the advertising mechanisms on the Internet, Real-Time Bidding (RTB) is the most widely used. This method automates the buying and selling of adverti- sements between websites and advertisers through an auction mechanism. This allows for individual display of advertisement to visitors and thus a fine targeting, explaining the great popularity of this approach. The RTB mechanism is based on the auctioning of available ad slots on the web pages. These auctions are organized in a standardized way during the loading of the web page. Bidding algorithms are responsible for placing the bids in order to guarantee the advertisers the best possible revenue. In this document, we present our work on the study and improvement of real-time bidding ap- proaches carried out during the three years of this Ph.D. The RTB problem (on the advertiser side) consists in a constrained optimization problem : we want to develop an algorithm that maximizes the number of clicks obtained during the display advertising campaign under the constraint of a limited budget. This work led us to consider the problem through two main issues : the prediction of the clicks probability to obtain an estimate of the value of a given ad slot, and the optimization of the bidding campagn which, based on this estimate, should regulate the bids and the budget in order to maximize the number of clicks. Click probability prediction hence plays a crucial role in enabling the utility estimation of an impression. With only about one clicked ad per thousand impressions, this binary classification problem falls into the rare event prediction domain. The prediction of such events requires the use of specific models and evaluation functions. We thus present a study on the performances and biases of classical classification models and we explore ways of reducing these biases. To this end, we compare theperformance of three models : classical logistic regression, weighted logistic regression for rare events, and a reference deep learning model. We study these performances under several evaluation functions allowing us to show some biases induced by classical performance measures. We present a performance measure specific to RTB to correct these biases but also to give indications on the profitability of ad display campaigns in order to help decision making. Using this work on click probability prediction, we study the optimization of real-time bidding campaigns. We formulate this problem as a Markov decision process and develop several bidding strategies : the naive constant bidding strategy, the linear bidding strategy consisting in bidding proportionally to the click probability and its variant, the linear bidding with budget pacing. We also study a deep reinforcement learning strategy theoretically enabling to learn a dynamic bidding strategy, adapting to the conditions of the campaign continuously. We study the performance of these strategies on a benchmark dataset and show that despite its great popularity in the RTB research community, reinforcement learning does not bring significant improvement compared to other approaches, amongst others because of the convergence and stability issues of this type of approach, notably due to the formulation of the states of the Markovian decision process. We finally present a study on the convergence of reinforcement learning and state formulation learning using a game as a simplified simulation of RTB. We explore the use of autoencoders to learn a state formulation that would allow better convergence of reinforcement learning.
Pour ce TP, vous trouverez un guide d’installation, un jeu de données et un TP de requêtes.
Télécharger : elasticsearch_guide-1.pdf (PDF, 150KB)
Télécharger : ES_subject.pdf (PDF, 139KB)
Les traces numériques laissées sur les réseaux sociaux sont devenues un moyen populaire d’analyser le comportement des touristes. Toutefois, la grande quantité de données générées par les touristes constitue un indicateur clé pour comprendre leur comportement. Les analyses des déplacements des touristes ont un rôle crucial dans le marketing touristique pour l’aide à la décision. Ces acteurs sont confrontés à la nécessité de discerner la circulation des touristes de manière quantitative et qualitative.
Ainsi, ce travail présente le framework Neo4Tourism d’analyse de la circulation à l’aide d’une base de données orientée graph : Neo4j. Avec une approche BDD, nous définissons des transformations du graphe en y associant des aspects géodésiques et cartographiques. Cela a pour but de produire de nouveaux graphes utiles pour les étapes d’analyse. Ensuite, nous proposons de nouvelles méthodes d’analyse de la circulation touristique basées sur la centralité ou la propagation. Celles-ci intégrent cette dimension géodésique, mais également les manipulations multiéchelles.
Nous avons pu tester notre approche sur les données provenant de Tripadvisor à l’échelle nationale.
Nous avons effectués ces travaux de recherche au DVRC, en convention avec Bordeaux et Lille, ainsi qu’un partenariat avec le laboratoire EIREST.
]]>Les réseaux sociaux sont devenus des outils de communication primordiaux et sont utilisés quotidiennement par des centaines de millions d’utilisateurs. Tous ces utilisateurs n’ont pas le même comportement sur ces réseaux. Si certains ont une faible activité, publient rarement des messages et suivent peu d’utilisateurs, d’autres, à l’opposé, ont une activité importante, avec de nombreux abonnés et publient très régulièrement. Le rôle important de ces utilisateurs influents en font des cibles intéressantes pour de nombreuses applications, comme pour la surveillance ou la publicité. Après une étude des méta-données de ces utilisateurs, afin de détecter des comptes anormaux, nous présentons une approche permettant de détecter des utilisateurs devenant populaires. Notre approche s’appuie sur une modélisation de l’évolution de la popularité sous la forme de motifs fréquents. Ces motifs décrivent les comportements de gain en popularité. Nous proposons un modèle de matching des motifs permettant d’être utilisé avec un flux de données et, nous montrons sa capacité à passer à l’échelle en le comparant à des modèles classiques. Enfin, nous présentons une approche de clustering basé sur le PageRank. Ces travaux permettent d’identifier des groupes d’utilisateurs partageant le même rôle, en utilisant les graphes d’interactions qu’ils génèrent.
]]>There is an increasing demand for practical tools to explore the evolution of scientific research published in bibliographic archives such as the Web of Science (WoS), arXiv, PubMed or ISTEX. Revealing meaningful evolution patterns from these document archives has many applications and can be extended to synthesize narratives from datasets across multiple domains, including news stories, research papers, legal cases and works of literature. In this thesis, we propose a data model and query language for the visualization and exploration of topic evolution graphs. Our model is independent of a particular topic extraction and alignment method and proposes a set of semantic and structural metrics for characterizing and filtering meaningful topic evolution patterns. These metrics are particularly useful for the visualization and the exploration of large topic evolution graphs. We also present a prototype implementation of our model on top of Apache Spark and experimental results obtained for four real-world document archives.
]]>Ces dernières années, l’avancée radicale des technologies a donné lieu à une abondance d’applications logicielles, de médias sociaux et d’appareils intelligents tels que les smart- phones, les capteurs, etc. Une utilisation intensive de ces applications et outils dans divers domaines industriels a conduit à un déluge de données , ce qui a engendré d’énormes défis et opportunités. Cependant, ce n’est pas seulement le volume des données, mais aussi la vitesse, la variété et l’incertitude, qui posent d’énormes défis aux technologies traditionnelles telles que les entrepôts de données. Ces caractéristiques diverses et sans précédent ont engendré la notion de «Big Data». Les industries à forte intensité de données ont été confrontées à une grande variété de défis en terme de traitement, de gestion et d’analyse des données. Parmi ces défis majeurs, la «variété» reste celui qui est le moins abordé par les architectures d’analyse de données. À cet égard, le COVID-19 est apparu avec des conséquences graves et inquiétantes. L’intégration efficace des données relatives à cette maladie infectieuse provenant de sources du monde entier peut être la pierre angulaire d’un système d’alerte épidémiologique et de santé de la population à une échelle mondiale. De plus, pour une analyse efficace, l’intégration des données est sine qua non, car elle fournit une vue unifiée qui permet aux professionnels de la santé d’extraire des informations significatives des données collectées à partir de diverses sources. En effet, selon les recherches les plus récentes, le secteur de la santé est confronté à des difficultés d’intégration ou de mise en relation de diverses données médicales issues de multiples sources hétérogènes.
Par exemple, l’adoption plus large des dossiers médicaux électroniques (DME), dans les établissements de santé, a produit des données cliniques massives ayant différents types, formats et variations sémantiques. L’intégration de ces données de DME provenant de di- verses sources de données, ainsi que leur lien avec la recherche clinique, offre des possibilités d’améliorer les soins offerts aux patients, d’intégrer les mesures de performance des essais cliniques dans la pratique clinique et de faciliter la recherche clinique. Cette thèse présente la conception et le développement de diverses stratégies d’intégration des données de santé. L’hypothèse que nous cherchons à prouver avec les contributions résumées dans cette thèse est que: la combinaison du Web sémantique, des techniques d’extraction d’informations et du machine learning sous l’égide des normes de données de santé peut améliorer l’intégration et la liaison des données; Les Techniques sémantiques, en tant que moyen d’intégrer et de coordonner des systèmes hétérogènes, peuvent aider à gérer la terminologie et les relations dans le cadre des données de santé massives afin de relier ces données diverses et variées provenant de sources de données hétérogènes. L’Extraction d’informations et le machine learning ont le potentiel d’automatiser des parties de différentes tâches d’intégration telles que la compréhension sémantique, l’extraction de données et l’alignement d’entités, vu que dans certains cas, ces tâches d’intégration peuvent s’avérer problématiques pour les techniques traditionnelles. Les normes de santé, telles que les terminologies, les ontologies et les modèles d’information, sont le principal moteur de l’interopérabilité des données à différentes étapes de l’intégration des données. À cette fin, deux principaux défis d’intégration des données de recherche ont été abordés dans le développement des contributions de cette thèse: les variations de format et les variations sémantiques.
Dans cette thèse, plusieurs cadres d’intégration de données de santé ont été largement étudiés, ce qui a finalement permis d’analyser et de trouver les points forts et les points faibles des différentes méthodologies d’intégration de données. Cette étude a été la motivation derrière l’introduction d’un nouveau cadre méthodologique pour l’intégration des données de santé. Le concept central de ce cadre méthodologique est de construire un flux de travail qui investit de nombreux outils et technologies nécessaires afin de relever les défis et les complexités de l’intégration des données de santé. Le cadre proposé se compose d’un ensemble de composants séparés et de composants transversaux comprenant; approche, technologie, flux de travail, normes, outils, sécurité et applications. Nous avons illustré l’utilisation flexible de ce cadre méthodologique en proposant et en mettant en œuvre les deux solutions principales suivantes:
Tout d’abord, nous avons implémenté un moteur sémantique pour l’intégration des données DME, nommé SeDIE, afin de reformuler un dossier médical complet d’un patient et d’interroger les données patient à travers différentes sources de données. Deuxièmement, nous avons implémenté une plate-forme basée sur un espace vectoriel, nommé EMR2vec, pour la liaison de données de santé. EMR2vec permet aux chercheurs en soins de santé de faire correspondre, lier et interroger deux systèmes différents mais complémentaires, les données DME et les essais cliniques.