TAKTAK Hela

Approche orientée services sémantiques pour l'intégration de données massives et multi-sources pour la détection des catastrophes naturelles

Publié le 22 ao?t 2024 – Mis à jour le 2 avril 2025

Thèse en informatique, soutenue le 25 janvier 2024.

De nos jours, le nombre de sources de données environnementales ne cesse de cro?tre et les programmes d'observation environnementaux sont en plein essor gr?ce au développement de capteurs connectés et de satellites pour la météorologie. L'exploitation des connaissances extraites des données de plusieurs sources de données environnementales en temps réel soulèvent de multiples défis. En effet, l'exploitation de ces données reste un défi majeur, en raison de l'hétérogénéité des sources de données de différents types. De ce fait, nous nous sommes intéressés dans cette thèse à la problématique générale de comment capitaliser sur les données initialement récupérées des différentes sources de données, les connaissances à valeur ajoutée extraites de ces données, dans le but de prédire d'éventuelles catastrophes naturelles. La contribution générale se résume en une intégration traduite par une composition dynamique de services qui soit guidée par les connaissances. Dans un premier temps, nous nous sommes intéressés au problème de l'intégration des données et particulièrement à l'hétérogénéité liée aux sources de données environnementales. Pour cela, nous avons proposé une approche basée sur l'ingénierie dirigée par les modèles combinée à des annotations sémantiques. Ceci est dans le but d'automatiser le développement de services d’architecture REST pour un accès unifié aux sources de données. Notre solution appliquée à la prédiction des catastrophes naturelles fournit : 1) une modélisation appropriée des sources de données et des services pour appliquer des transformations modèle-texte et 2) une génération automatique du code de service d’accès REST. De plus, afin de remédier au problème d'hétérogénéité sémantique liée aux services d'accès REST, nous avons réutilisé l'ingénierie dirigée par les modèles pour proposer une approche de génération automatique de descripteurs annotés sémantiquement. Cette solution fournit : 1) une modélisation appropriée des descripteurs des services et 2) une génération automatique du code d'un descripteur de service annoté sémantiquement. Dans un deuxième temps, nous nous sommes intéressés à l'évaluation faite sur la qualité des sources de données, en complément des évaluations relatives à la qualité des services. Pour cela, nous avons proposé une ontologie modulaire de source de données impliquant un ensemble de dimensions qualifiant les sources et leurs données (comme la précision, la fra?cheur des données, etc.). De plus, à travers les qualités de services (QoS) et les qualités décrites dans l'ontologie de sources (QoDS), nous nous sommes intéressés à assurer une sélection optimale des services d’accès, en fonction de ces qualités. En effet, les dits services peuvent être fonctionnellement similaires, mais avec des qualités différentes. Par conséquent, les sources de données environnementales sont en concurrence pour fournir des services avec différents niveaux de qualité liés aux services (QoS) et aux sources (QoDS). Pour cela, nous avons proposé une approche pour répondre aux exigences de classement (Ranking) des services et de la sélection des services optimaux en fonction des dites qualités. Ceci est dans le but de sélectionner un service optimal participant dans une composition de services. Dans un troisième temps, nous nous sommes intéressés à proposer une construction dynamique des schémas de composition guidée par les connaissances. En effet, l'automatisation et la composition dynamique des services, tout en tenant compte des connaissances antérieures du domaine, restent un défi permanent. Pour cela, nous avons proposé une approche d'apprentissage automatique basée sur les connaissances extraites des données historiques liées aux observations d'incendies de forêt. Cette approche a pour objectif d'identifier les corrélations cachées dans les observations environnementales et de composer dynamiquement et en temps réel des services déclenchant des alertes.

Mots-clés : Informatique de services ; Apprentissage automatique ; Prédiction des incendies ; Orientée connaissances ; Composition de services.

The number of environmental data sources continues to grow, and environmental observation programs are thriving thanks to the development of connected sensors and satellites for meteorology. Exploiting knowledge extracted from multiple real-time environmental data sources poses multiple challenges. Indeed, the exploitation of this data remains a major challenge, due to the heterogeneity of the data sources. Therefore, the general problem of this thesis is how to capitalize on the data initially retrieved from different data sources, the value-added knowledge extracted from this data, to predict possible natural disasters. The general contribution can be summarized as an integration translated by a dynamic composition of services guided by knowledge. Initially, we were interested in the problem of data integration and particularly in the heterogeneity linked to environmental data sources. For this, we proposed an approach based on model-driven engineering combined with semantic annotations. This is to automate the development of REST architectural services for unified access to the data sources. Our solution applied to natural disaster prediction provides 1) appropriate modelling of data sources and services to apply model-to-text transformations and 2) automatic generation of REST access service code. Furthermore, to remedy the problem of semantic heterogeneity linked to REST access services, we reused model-driven engineering to propose an approach for the automatic generation of semantically annotated descriptors. This solution provides 1) appropriate modeling of service descriptors and 2) automatic generation of the code for a semantically annotated service descriptor. Secondly, we were interested in the evaluation carried out on the quality of the data sources, in addition to the evaluations relating to the quality of services. To this end, we proposed a modular data source ontology involving a set of dimensions qualifying the sources and their data (such as precision, data freshness, etc.). Furthermore, through the qualities of services (QoS) and the qualities described in the source ontology (QoDS), we were interested in ensuring optimal selection of access services, based on these qualities. Indeed, the services may be functionally similar, but with different qualities. Therefore, environmental data sources compete to provide services with different levels of service-related (QoS) and source-related quality (QoDS). Consequently, we proposed an approach to meet the requirements for ranking services and selecting optimal services based on the said qualities. This is to select the optimal services participating in a service composition. Thirdly, we were interested in proposing a dynamic construction of service composition schema guided by knowledge. Indeed, automation and dynamic composition of services, while taking into account prior domain knowledge, remain an ongoing challenge. Henceforth, we proposed a machine-learning approach based on knowledge extracted from historical data related to forest fire observations. This approach aims to identify hidden correlations in environmental observations and to dynamically compose services triggering real-time alerts.

Keywords: Service Computing ; Machine Learning ; Fire Prediction ; Knowledge-driven ; Service Composition

Directeur de thèse : Ons Chirine GHEDIRA GUEGAN et Faiez GARGOURI

Membres du jury :

- Mme GHEDIRA GUEGAN Ons Chirine, Directrice de thèse, Professeure des universités, Université Jean Moulin Lyon 3, France,
- M. GARGOURI Faiez, Co-directeur de thèse, Professeur, Institut Supérieur d'Informatique et de Multimédia, Sfax, Tunisie,
- Mme BENBERNOU Salima, Rapporteure, Professeure des universités, Université Paris Descartes, France,
- Mme KHEMAJA Maha, Rapporteure, Ma?tre de conférences habilitée à diriger des recherches, Institut supérieur des sciences appliquées et des technologies de l'Université de Sousse, Tunisie,
- Mme BELLAMINE BEN SAOUD Narjes, Professeur des universités, Ecole Nationale des Sciences de l'Informatique, Tunisie,
- M. DRIRA Khalil, Directeur de recherche, LAAS-CNRS, INSA, Toulouse, France.

Président du jury : Khalil DRIRA

Mise à jour : 2 avril 2025

Nos engagements

TAKTAK Hela

Documentation

Dans la même rubrique