Réponses approchées de résultat de requêtes par classification dans des bases de données volumineuses et distribuées /

Les utilisateurs des bases de données doivent faire face au problème de surcharge d’information lors de l’interrogation de leurs données, qui se traduit par un nombre de réponses trop élevé à des requêtes exploratoires. Pour remédier à ce problème, nous proposons un algorithme efficace et rapide, ap...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal : Bechchi, Mounir (1979-....) (Auteur)
Collectivités auteurs : Université de Nantes. Faculté des sciences et des techniques (Autre partenaire associé à la thèse), Université de Nantes (1962-2021) (Organisme de soutenance), Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes) (Laboratoire associé à la thèse), École doctorale sciences et technologies de l'information et des matériaux (Nantes) (Ecole doctorale associée à la thèse)
Autres auteurs : Mouaddib, Noureddine (Directeur de thèse), Raschia, Guillaume (Directeur de thèse)
Format : Thèse Livre
Langue :anglais
français
Publié : [S.l.] : [s.n.], 2009.
Sujets :
Description
Résumé :Les utilisateurs des bases de données doivent faire face au problème de surcharge d’information lors de l’interrogation de leurs données, qui se traduit par un nombre de réponses trop élevé à des requêtes exploratoires. Pour remédier à ce problème, nous proposons un algorithme efficace et rapide, appelé ESRA (Explore-Select-Rearrange Algorithm), qui utilise les résumés SAINTETIQ pré-calculés sur l’ensemble des données pour regrouper les réponses à une requête utilisateur en un ensemble de classes (ou résumés) organisées hiérarchiquement. Chaque classe décrit un sous-ensemble de résultatsdont les propriétés sont voisines. L’utilisateur pourra ainsi explorer la hiérarchie pour localiser les données qui l’intéressent et en écarter les autres. Les résultats expérimentaux montrent que l’algorithme ESRA est efficace et fournit des classes bien formées (i.e., leur nombre reste faible et elles sont bien séparées). Cependant, le modèle SAINTETIQ, utilisé par l’algorithme ESRA, exige que les données soient disponibles sur le serveur des résumés. Cette hypothèse rend inapplicable l’algorithme ESRA dans des environnements distribués où il est souvent impossible ou peu souhaitable de rassembler toutes les données sur un même site. Pour remédier à ce problème, nous proposons une collection d’algorithmes qui combinent deux résumés générés localement et de manière autonome sur deux sites distincts pour en produire un seul résumant l’ensemble des données distribuées, sans accéder aux données d’origine. Les résultats expérimentaux montrent que ces algorithmes sont aussi performants que l’approche centralisée (i.e., SAINTETIQ appliqué aux données après regroupement sur un même site) et produisent des hiérarchies très semblables en structure et en qualité à celles produites par l’approche centralisée.
Database systems are increasingly used for interactive and exploratory data retrieval. In such retrievals, users queries often result in too many answers, so users waste significant time and efforts sifting and sorting through these answers to find the relevant ones. In this thesis, we first propose an efficient and effective algorithm coined Explore-Select-Rearrange Algorithm (ESRA), based on the SAINTETIQ model, to quickly provide users with hierarchical clustering schemas of their query results. SAINTETIQ is a domain knowledge-based approach that provides multi-resolution summaries of structured data stored into a database. Each node (or summary) of the hierarchy provided by ESRA describes a subset of the result set in a user-friendly form based on domain knowledge. The user then navigates through this hierarchy structure in a top-down fashion, exploring the summaries of interest while ignoring the rest. Experimental results show that the ESRA algorithm is efficient and provides well-formed (tight and clearly separated) and well-organized clusters of query results. The ESRA algorithm assumes that the summary hierarchy of the queried data is already built using SAINTETIQ and available as input. However, SAINTETIQ requires full access to the data which is going to be summarized. This requirement severely limits the applicability of the ESRA algorithm in a distributed environment, where data is distributed across many sites and transmitting the data to a central site is not feasible or even desirable. The second contribution of this thesis is therefore a solution for summarizing distributed data without a prior “unification” of the data sources.We assume that the sources maintain their own summary hierarchies (local models), and we propose new algorithms for merging them into a single final one (global model). An experimental study shows that our merging algorithms result in high quality clustering schemas of the entire distributed data and are very efficient in terms of computational time.
Description :Thèse en anglais avec résumé étendu en français. La p. de couv. porte : Clustering-based approximate answering of query result in large and distributed databases.
Description matérielle :1 vol. (164 f.) : ill. ; 30 cm.
Bibliographie :Bibliogr. f. 151-164.