RoSeS : Un moteur de requêtes continues pour l’aggrégation de flux RSS à large échelle

Par Jordi Creuse Tomàs, soutenue à Sorbonne Université le 10/12/12, co-encadrée avec Bernd Amann et Dan Vodislav

Les formats RSS et Atom sont moins connus du grand public que le format HTML pour la publication d’informations sur le Web. Néanmoins les flux RSS sont présents sur tous les sites qui veulent publier des flux d’informations évolutives et dynamiques. Ainsi, les sites d’actualités publient des milliers de fils RSS/Atom, souvent organisés dans différentes thématiques (politique, économie, sports, société…). Chaque blog possède son propre flux RSS, et des sites de micro-blogage comme Twitter ou de réseaux sociaux comme Facebook publient les messages d’utilisateurs sous forme de flux RSS. Ces immenses quantités de sources de données continues sont accessibles à travers des agrégateurs de flux comme Google Reader, des lecteurs de messages comme Firefox, Thunderbird, mais également à travers des applications mash-up comme Yahoo! pipes, Netvibes ou Google News. Dans cette thèse, nous présentons ROSES -Really Open Simple and Efficient Syndication-, un modèle de données et un langage de requêtes continues pour des flux RSS/Atom. ROSES permet aux utilisateurs de créer des nouveaux flux personnalisés à partir des flux existants sur le web à travers un simple langage de requêtes déclaratif. ROSES est aussi un système capable de gérer et traiter des milliers de requêtes d’agrégation ROSES en parallèle et un défi principal traité dans cette thèse est le passage à l’échelle par rapport au nombre de requêtes. En particulier, on propose une nouvelle approche d’optimisation multi-requête fondée sur la factorisation des filtres similaires. Nous proposons deux algorithmes de factorisation: (i) STA, une adaptation d’un algorithme d’approximation pour calculer des arbres de Steiner minimaux [CCC+98], et (ii) VCA, un algorithme glouton qui améliore le coût CPU d’optimisation du précédant. Nous avons validé notre approche d’optimisation avec un important nombre de tests sur des données réelles.

Laisser un commentaire