Géolocalisation
- Orange : partenaire
- pôle Modélisation fonctionnelle : pilote
- Anila ANGJELI (pôle Modélisation fonctionnelle) : chef de projet, pilote
Description
Financement : BnF sur ses ressources.
Dates : 2010-2012.
Objectif :
Les enjeux de ce projet de « Reconnaissance d'entités nommées géographiques et géolocalisation » sont d’améliorer l’accès au contenu des documents numériques, de valoriser des référentiels « métiers », d’améliorer les mécanismes industriels pour enrichir les bases de connaissances, d’améliorer les logiciels de reconnaissance d’entités nommées.
Bilan 2012 :
Une exploitation des données d’un corpus de documents de Gallica par des outils de TAL (Traitement automatisé de la langue) a permis la détection des entités nommées pour en extraire les hypothèses de lieux, personnes ou organisations. Les différents référentiels de la BnF ainsi que du référentiel Geonames ont été mis à contribution pour désambiguïser les détections et permettre une première modélisation des données. Afin de visualiser les résultats de ces analyses, une interface web a été développée.
Si l’objectif initial était de construire un prototype de géolocalisation, au cours des itérations successives du projet, il s’est avéré que l’expérience dépassait le simple objectif de réalisation d’un prototype. D’un commun accord, l’étude conjointe a ainsi été réorientée vers l’approfondissement des travaux sur la valorisation des données sémantiques (référentiels) en utilisant les techniques du Web Sémantique pour l’enrichissement des données et l'amélioration notamment de la modélisation de TiLT (logiciel de traitement de la langue de France Télécom). Un premier rapprochement du référentiel interne « noms géographiques » de la BnF avec le référentiel Geonames a été réalisé. L’étude a également montré la nécessité d’une meilleure sémantisation des données du référentiel BnF. Concernant les documents numérisés de Gallica, l’étude a montré la nécessité de mise en valeur des éléments structurant des pages pour une exploitation automatique des données textuelles.
La réflexion initiale sur le service à rendre, les problématiques de structuration des documents, les besoins de typages des référentiels utilisés, ont permis à la BnF de conforter ses préconisations et de progresser dans son expression de besoins pour la mise en valeur de ses fonds documentaires. Ce projet a contribué au lancement d’une étude transversale sur la problématique de la géolocalisation – objet d’un stage ENSSIB (février – mai 2013). De son côté, France Télécom a pu améliorer ses solutions logicielles en les confrontant à de nouveaux scénarios d’usages.
Ce projet est achevé depuis décembre 2012.