Données liées et données à lier : quels outils pour quels alignements ?

Les services BnF et leurs rôles
Les acteurs BnF et leurs rôles

Description

Dans le cadre du projet Corpus, inscrit au plan quadriennal de la recherche de la Bibliothèque nationale de France 2016-2019, des ateliers thématiques sont organisés régulièrement afin d’inciter les échanges entre le milieu académique et le monde des bibliothèques dans le domaine des humanités numériques. Cet atelier porte sur différentes méthodes et outils d’alignement de données.

Une des promesses de la publication de données en ligne ouvertes est la possibilité de tisser des liens entre jeux de données de nature différente pour en enrichir les réutilisations. La mise en œuvre de ces alignements fait appel à des approches très diverses. Un cas d’usage en bibliothèque est la création d’entités exploitables sur le web à partir de données bibliographiques structurées (Logilab). La comparaison de chaînes de caractères ne peut suffire à aligner des concepts, pour lesquels entrent en jeu l’analyse de la structure des référentiels où ils sont décrits ou l’exploitation de liens à une référence partagée. Une méthode telle que l’extraction de clés liage permet de proposer des mesures de similarité à partir de la comparaison de deux jeux de données sans en connaître la sémantique (ELKER). Des outils peuvent aussi aider à la décision pour faciliter le travail manuel, voire le crowdsourcing de la part de communautés identifiées (Projet Foucault Fiches de Lecture, Wikidata Mix’n’Match). Ces liens servent enfin à enrichir des données peu structurées, comme le propose la résolution d’entités nommées pour le plein texte (REDEN).

Programme

  • Emmanuelle Bermès (BnF) et Aude Le Moullec-Rieu (BnF) introduiront la matinée
  • Adrien Di Mascio (Logilab) et Sébastien Peyrard (BnF) présenteront l’utilisation d’algorithmes de regroupement dans le logiciel Robot-Données
  • Etienne Cavalié (BnF) présentera Bibliostratus, l’outil d’alignement développé par le groupe Systèmes et Données du programme national Transition bibliographique
  • Jérôme David et Manuel Atencia (équipe MOEX, Inria & LIG) : présenteront le projet ANR ELKER sur l’extraction et le raisonnement avec clés de liage
  • Carmen Brando (EHESS) présentera l’algorithme REDEN
  • Antoine Isaac (Europeana) présentera les outils CULTUURLINK et Wikidata Mix’n’Match
  • Vincent Ventresque et Laurent Dartigues (TRIANGLE/ ENS Lyon) présenteront le projet ANR Foucault Fiches de Lecture
Modalités pratiques

10 juillet 2018, 9h30 – 13h
Bibliothèque nationale de France, site François-Mitterrand (Quai François Mauriac, 75013 Paris), salle 70.