Données liées et données à lier : quels outils pour quels alignements ?
- direction des Services et des réseaux : organisateur
- Eleonora MOIRAGHI (direction des Services et des réseaux) : organisateur, co-organisateur
- Emmanuelle BERMES (direction des Services et des réseaux) : chef de projet, pilote
- Aude LE MOULLEC-RIEU (service Diffusion des métadonnées) : organisateur, co-organisateur
- Etienne CAVALIÉ (service Ingénierie des métadonnées) : contribution avec communication - Bibliostratus, l’outil d’alignement développé par le groupe Systèmes et Données du programme national Transition bibliographique
- Sébastien PEYRARD (service Ingénierie des métadonnées) : contribution avec communication - Utilisation d’algorithmes de regroupement dans le logiciel Robot-Données
Description
Une des promesses de la publication de données en ligne ouvertes est la possibilité de tisser des liens entre jeux de données de nature différente pour en enrichir les réutilisations. La mise en œuvre de ces alignements fait appel à des approches très diverses. Un cas d’usage en bibliothèque est la création d’entités exploitables sur le web à partir de données bibliographiques structurées (Logilab). La comparaison de chaînes de caractères ne peut suffire à aligner des concepts, pour lesquels entrent en jeu l’analyse de la structure des référentiels où ils sont décrits ou l’exploitation de liens à une référence partagée. Une méthode telle que l’extraction de clés liage permet de proposer des mesures de similarité à partir de la comparaison de deux jeux de données sans en connaître la sémantique (ELKER). Des outils peuvent aussi aider à la décision pour faciliter le travail manuel, voire le crowdsourcing de la part de communautés identifiées (Projet Foucault Fiches de Lecture, Wikidata Mix’n’Match). Ces liens servent enfin à enrichir des données peu structurées, comme le propose la résolution d’entités nommées pour le plein texte (REDEN).
Programme
- Emmanuelle Bermès (BnF) et Aude Le Moullec-Rieu (BnF) introduiront la matinée
- Adrien Di Mascio (Logilab) et Sébastien Peyrard (BnF) présenteront l’utilisation d’algorithmes de regroupement dans le logiciel Robot-Données
- Etienne Cavalié (BnF) présentera Bibliostratus, l’outil d’alignement développé par le groupe Systèmes et Données du programme national Transition bibliographique
- Jérôme David et Manuel Atencia (équipe MOEX, Inria & LIG) : présenteront le projet ANR ELKER sur l’extraction et le raisonnement avec clés de liage
- Carmen Brando (EHESS) présentera l’algorithme REDEN
- Antoine Isaac (Europeana) présentera les outils CULTUURLINK et Wikidata Mix’n’Match
- Vincent Ventresque et Laurent Dartigues (TRIANGLE/ ENS Lyon) présenteront le projet ANR Foucault Fiches de Lecture
10 juillet 2018, 9h30 – 13h
Bibliothèque nationale de France, site François-Mitterrand (Quai François Mauriac, 75013 Paris), salle 70.
- 01/01/2016 - 31/12/2019 Préfiguration d'un service de fourniture de corpus numériques à destination de la recherche
- 10/07/2018 - 10/07/2018 . . Données liées et données à lier : quels outils pour quels alignements ?
- 16/10/2017 - 16/10/2017 . . Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats, outils
- 30/11/2017 - 30/11/2017 . . Géolocalisation et spatialisation de documents patrimoniaux
- 31/01/2018 - 31/01/2018 . . Etude prospective sur les besoins et les attentes des futurs usagers du Laboratoire d’étude et d’analyse de corpus numériques