Healthcare Data Integration and Linkage in the Age of Data Variety

Soutenue par Houssein Dhayne, à L’Ecole Supérieure d’Ingénieurs de Beyrouth (ESIB – Liban) le 22/12/2020. Encadrée par Rima Kilany. J’ai participé en tant que président du jury de thèse.

Ces dernières années, l’avancée radicale des technologies a donné lieu à une abondance d’applications logicielles, de médias sociaux et d’appareils intelligents tels que les smart- phones, les capteurs, etc. Une utilisation intensive de ces applications et outils dans divers domaines industriels a conduit à un déluge de données , ce qui a engendré d’énormes défis et opportunités. Cependant, ce n’est pas seulement le volume des données, mais aussi la vitesse, la variété et l’incertitude, qui posent d’énormes défis aux technologies traditionnelles telles que les entrepôts de données. Ces caractéristiques diverses et sans précédent ont engendré la notion de «Big Data». Les industries à forte intensité de données ont été confrontées à une grande variété de défis en terme de traitement, de gestion et d’analyse des données. Parmi ces défis majeurs, la «variété» reste celui qui est le moins abordé par les architectures d’analyse de données. À cet égard, le COVID-19 est apparu avec des conséquences graves et inquiétantes. L’intégration efficace des données relatives à cette maladie infectieuse provenant de sources du monde entier peut être la pierre angulaire d’un système d’alerte épidémiologique et de santé de la population à une échelle mondiale. De plus, pour une analyse efficace, l’intégration des données est sine qua non, car elle fournit une vue unifiée qui permet aux professionnels de la santé d’extraire des informations significatives des données collectées à partir de diverses sources. En effet, selon les recherches les plus récentes, le secteur de la santé est confronté à des difficultés d’intégration ou de mise en relation de diverses données médicales issues de multiples sources hétérogènes.
Par exemple, l’adoption plus large des dossiers médicaux électroniques (DME), dans les établissements de santé, a produit des données cliniques massives ayant différents types, formats et variations sémantiques. L’intégration de ces données de DME provenant de di- verses sources de données, ainsi que leur lien avec la recherche clinique, offre des possibilités d’améliorer les soins offerts aux patients, d’intégrer les mesures de performance des essais cliniques dans la pratique clinique et de faciliter la recherche clinique. Cette thèse présente la conception et le développement de diverses stratégies d’intégration des données de santé. L’hypothèse que nous cherchons à prouver avec les contributions résumées dans cette thèse est que: la combinaison du Web sémantique, des techniques d’extraction d’informations et du machine learning sous l’égide des normes de données de santé peut améliorer l’intégration et la liaison des données; Les Techniques sémantiques, en tant que moyen d’intégrer et de coordonner des systèmes hétérogènes, peuvent aider à gérer la terminologie et les relations dans le cadre des données de santé massives afin de relier ces données diverses et variées provenant de sources de données hétérogènes. L’Extraction d’informations et le machine learning ont le potentiel d’automatiser des parties de différentes tâches d’intégration telles que la compréhension sémantique, l’extraction de données et l’alignement d’entités, vu que dans certains cas, ces tâches d’intégration peuvent s’avérer problématiques pour les techniques traditionnelles. Les normes de santé, telles que les terminologies, les ontologies et les modèles d’information, sont le principal moteur de l’interopérabilité des données à différentes étapes de l’intégration des données. À cette fin, deux principaux défis d’intégration des données de recherche ont été abordés dans le développement des contributions de cette thèse: les variations de format et les variations sémantiques.
Dans cette thèse, plusieurs cadres d’intégration de données de santé ont été largement étudiés, ce qui a finalement permis d’analyser et de trouver les points forts et les points faibles des différentes méthodologies d’intégration de données. Cette étude a été la motivation derrière l’introduction d’un nouveau cadre méthodologique pour l’intégration des données de santé. Le concept central de ce cadre méthodologique est de construire un flux de travail qui investit de nombreux outils et technologies nécessaires afin de relever les défis et les complexités de l’intégration des données de santé. Le cadre proposé se compose d’un ensemble de composants séparés et de composants transversaux comprenant; approche, technologie, flux de travail, normes, outils, sécurité et applications. Nous avons illustré l’utilisation flexible de ce cadre méthodologique en proposant et en mettant en œuvre les deux solutions principales suivantes:
Tout d’abord, nous avons implémenté un moteur sémantique pour l’intégration des données DME, nommé SeDIE, afin de reformuler un dossier médical complet d’un patient et d’interroger les données patient à travers différentes sources de données. Deuxièmement, nous avons implémenté une plate-forme basée sur un espace vectoriel, nommé EMR2vec, pour la liaison de données de santé. EMR2vec permet aux chercheurs en soins de santé de faire correspondre, lier et interroger deux systèmes différents mais complémentaires, les données DME et les essais cliniques.

Laisser un commentaire