Indexation pour la recherche par le contenu textuel de flux RSS

Par Zeinab Hmedeh, thèse du CNAM soutenue le 13/12/2013, co-encadrée avec Michel Scholl et Cédric du Mouza

Afin de réduire l’intervalle de temps nécessaire entre la publication de l’information sur le Web et sa consultation par les utilisateurs, les sites Web reposent sur le principe de la Syndication Web. Les fournisseurs d’information diffusent les nouvelles informations à travers des flux RSS auxquels les utilisateurs intéressés peuvent s’abonner. L’objectif de la thèse est de proposer un système de notification passant à l’échelle du Web, prenant en considération le grand nombre d’utilisateurs et le débit élevé d’items. Nous proposons un index basé sur les mots-clés des requêtes utilisateurs permettant de retrouver ceux-ci dans les items des flux. Trois structures d’indexation de souscriptions sont présentées. Un modèle analytique pour estimer le temps de traitement et l’espace mémoire de chaque structure est détaillé. Nous menons une étude expérimentale approfondie de l’impact de plusieurs paramètres sur ces structures. Pour les souscriptions jamais notifiées, nous adaptons les index étudiés pour prendre en considération leur satisfaction partielle. Afin de réduire le nombre d’items reçus par l’utilisateur, nous intégrons une deuxième phase de filtrage par nouveauté et diversité considérant l’ensemble d’items déjà reçus par l’utilisateur.

Laisser un commentaire