Données liées et données à lier : quels outils pour quels alignements ?

Les services BnF et leurs rôles

direction des Services et des réseaux : organisateur

Les acteurs BnF et leurs rôles

Eleonora MOIRAGHI (direction des Services et des réseaux) : organisateur, co-organisateur
Emmanuelle BERMES (direction des Services et des réseaux) : chef de projet, pilote
Aude LE MOULLEC-RIEU (service Diffusion des métadonnées) : organisateur, co-organisateur
Etienne CAVALIÉ (service Ingénierie des métadonnées) : contribution avec communication - Bibliostratus, l’outil d’alignement développé par le groupe Systèmes et Données du programme national Transition bibliographique
Sébastien PEYRARD (service Ingénierie des métadonnées) : contribution avec communication - Utilisation d’algorithmes de regroupement dans le logiciel Robot-Données

Description

Dans le cadre du projet Corpus, inscrit au plan quadriennal de la recherche de la Bibliothèque nationale de France 2016-2019, des ateliers thématiques sont organisés régulièrement afin d’inciter les échanges entre le milieu académique et le monde des bibliothèques dans le domaine des humanités numériques. Cet atelier porte sur différentes méthodes et outils d’alignement de données.

Une des promesses de la publication de données en ligne ouvertes est la possibilité de tisser des liens entre jeux de données de nature différente pour en enrichir les réutilisations. La mise en œuvre de ces alignements fait appel à des approches très diverses. Un cas d’usage en bibliothèque est la création d’entités exploitables sur le web à partir de données bibliographiques structurées (Logilab). La comparaison de chaînes de caractères ne peut suffire à aligner des concepts, pour lesquels entrent en jeu l’analyse de la structure des référentiels où ils sont décrits ou l’exploitation de liens à une référence partagée. Une méthode telle que l’extraction de clés liage permet de proposer des mesures de similarité à partir de la comparaison de deux jeux de données sans en connaître la sémantique (ELKER). Des outils peuvent aussi aider à la décision pour faciliter le travail manuel, voire le crowdsourcing de la part de communautés identifiées (Projet Foucault Fiches de Lecture, Wikidata Mix’n’Match). Ces liens servent enfin à enrichir des données peu structurées, comme le propose la résolution d’entités nommées pour le plein texte (REDEN).

Programme

Emmanuelle Bermès (BnF) et Aude Le Moullec-Rieu (BnF) introduiront la matinée
Adrien Di Mascio (Logilab) et Sébastien Peyrard (BnF) présenteront l’utilisation d’algorithmes de regroupement dans le logiciel Robot-Données
Etienne Cavalié (BnF) présentera Bibliostratus, l’outil d’alignement développé par le groupe Systèmes et Données du programme national Transition bibliographique
Jérôme David et Manuel Atencia (équipe MOEX, Inria & LIG) : présenteront le projet ANR ELKER sur l’extraction et le raisonnement avec clés de liage
Carmen Brando (EHESS) présentera l’algorithme REDEN
Antoine Isaac (Europeana) présentera les outils CULTUURLINK et Wikidata Mix’n’Match
Vincent Ventresque et Laurent Dartigues (TRIANGLE/ ENS Lyon) présenteront le projet ANR Foucault Fiches de Lecture

Modalités pratiques

10 juillet 2018, 9h30 – 13h
Bibliothèque nationale de France, site François-Mitterrand (Quai François Mauriac, 75013 Paris), salle 70.

01/01/2016 - 31/12/2019 Préfiguration d'un service de fourniture de corpus numériques à destination de la recherche
10/07/2018 - 10/07/2018 . . Données liées et données à lier : quels outils pour quels alignements ?
16/10/2017 - 16/10/2017 . . Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats, outils
30/11/2017 - 30/11/2017 . . Géolocalisation et spatialisation de documents patrimoniaux
31/01/2018 - 31/01/2018 . . Etude prospective sur les besoins et les attentes des futurs usagers du Laboratoire d’étude et d’analyse de corpus numériques

Consulter

Compléments

Date
07/10/2018
Localisation
Paris
Domaine
Humanités numériques
Nature
emprunt de documents
Type d'activité
organisée ou co-organisée par la BnF, animée par des agents de la BnF, suivie par des agents de la BnF
Lieu
à la BnF