DIGIDOC : Document Image diGitisation with Interactive DescriptiOn Capability

Les entités participant au financement
Les partenaires et leurs rôles
Les services BnF et leurs rôles
Les acteurs BnF et leurs rôles
Les groupements

Description

Objectif : le projet se focalise sur l'étape d'acquisition des images numériques de documents pour améliorer et simplifier leur utilisation ultérieure (archivage, reconnaissance de texte, extraction de document, etc). Le but est de conditionner la phase de production des images en considérant à la fois des connaissances a priori sur les caractéristiques des documents à numériser et des connaissances sur l'utilisation qui en sera faite. Les objectifs du projet visent concevoir un nouveau format de description des contenus de documents numérisés afin de simplifier et d'améliorer leur archivage, leur traitement, leur comparaison et leur indexation.

Le projet Digidoc a pour but de définir les résultats de la reconnaissance optique de caractères dès la capture de l’image du document. Il vise à terme à incorporer dans les scanners un logiciel permettant d’obtenir cette fonctionnalité. Au-delà de la BnF qui met à disposition ses corpus, les partenaires du projet sont les principaux laboratoires français impliqués dans l’amélioration de la reconnaissance optique de caractères ainsi que des industriels du secteur.

Soumis fin 2009, le programme a été retenu par l’ANR ; il bénéficie d’une aide de 866 160 €.

Contribution BnF
: réaliser une plateforme d'évaluation de résultats d'OCR sur des données validées par les utilisateurs finaux (BnF) ; définir un ensemble de caractéristiques images permettant de décrire différents états de dégradation des documents (support, caractères) ou des typicalités spécifiques aux documents anciens (polices anciennes, etc.) ; analyser ces caractéristiques images au regard des critères de qualité OCR établis précédemment sur les même documents.

En savoir plus : Présentation sur le site de l'ANR (p. 20)

Bilan 2012 :

Le projet a été lancé en mars 2012 pour une durée de 3 ans et demi. Il s’agit de travailler avec des universitaires spécialistes du traitement d’image et des industriels commercialisant des scanners pour :
- la définition d'un format stockant les informations de numérisation et des informations de prétraitement réalisé au moment de la numérisation ;
- la pré-configuration d'un "scanner intelligent" capable de déclencher des alertes en cas de problèmes lors de la numérisation.

Le département de la Conservation participe à la réunion trimestrielle du projet Digidoc. Il assure le suivi de l’avancée des Work Packages. À la demande des partenaires du projet, le département a enquêté sur l’existence d’un travail de normalisation à l’AFNOR qui recouvrirait les objectifs de Digidoc. De fait, ce projet pourrait être accueilli par la commission AFNOR CN 171 qui concerne la « qualification de la capacité du système d'imagerie pour l'enregistrement et l'approbation des archives ».

Le projet Digidoc est à mi-parcours et tient son planning. Quelques résultats prometteurs ont été obtenus en laboratoire.