DALGOCOL : Fouille de Données et ALGOrithmes de prédiction de l’état des COLlections
Budget
105 000 €
- Université de Versailles Saint-Quentin-en-Yvelines : Zoubida Kedad : directrice de thèse
- service central : partenaire
- Philippe VALLAS (département de la Conservation) : chef de projet, pilote
- Arnaud BACOUR (service central) : membre groupe de travail
- Célia CABANE (service central) : membre groupe de travail
Description
La Bibliothèque national de France (BNF) s’est fixée pour objectif d’améliorer la connaissance globale de l’état sanitaire des différentes collections qu’elle conserve, afin d’optimiser les besoins de conservations. Depuis plus d'une décennie, de nombreuses données sont produites et archivées concernant la communication des ouvrages, l'état des documents, ou encore l'historique des traitements de conservation. Isolées, ces différentes sources de données sont exploitées de façon indépendante.
L’extraction et l’intégration des données sont les premiers objectifs du projet, ces données pouvant présenter des hétérogénéités de différente nature, tant au niveau des formats qu’au niveau du contenu. Il s’agit de fournir les outils pouvant résoudre l’hétérogénéité des sources et les réconcilier, et fournir une interface d’accès uniforme pour l’interrogation de ces données provenant de sources multiples. Un résultat important en lien avec ces problématiques est la production d’une cartographie de l’ensemble des données de conservation disponibles. Après l’extraction des données, vient le rôle de l’extraction de connaissances à partir de différentes algorithmes, tels que la classification et l’extraction de règles. Cette dernière peut aider à la décision et la prédiction des interventions en fonctions des informations disponibles sur l’état sanitaire d’un ouvrage ou d’une collection. L’un des objectifs est de fournir un support pour assurer la traçabilité des règles : connaissances extraites, ainsi qu’une façon de caractériser le degré de confiance associé à chacune, en fonction des données utilisées pour les extraire.
Le projet de thèse vise à croiser toutes les données en conservation-restauration disponibles pour avoir une cartographie de l’existant et des synthèses statistiques, puis à analyser et à fouiller ces données afin d’en extraire des connaissances, et notamment pour permettre d’en dériver des prédictions sur les actions à mener.
Les objectifs spécifiques du projet sont les suivants : l’extraction et l’intégration de données, l’enrichissement des données à l’aide de connaissances externes, l’extraction des connaissances et l’exploitation et l’interprétation des données.
Documents disponibles
- Alaa Zreik ; Zoubida Kedad, « Matching Conservation-Restoration Trajectories », Data & Knowledge Engineering, 2022, May, Vol. 139. DOI : https://doi.org/10.1016/j.datak.2022.102015. URL : https://www.sciencedirect.com/science/article/abs/pii/S0169023X2200026X#!