DIGIDOC : Document Image diGitisation with Interactive DescriptiOn Capability
Les entités participant au financement- Laboratoire Bordelais de Recherche en Informatique : pilote
- Laboratoire d'informatique de Tours : partenaire
- Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes : partenaire
- Laboratoire Informatique, Image et Interaction : partenaire
- i2S Innovative Imaging Solutions : partenaire
- Arkhênum : partenaire
- service Numérisation : partenaire
- Laurent DUPLOUY (service Numérisation) : correspondant BnF
Description
Le projet Digidoc a pour but de définir les résultats de la reconnaissance optique de caractères dès la capture de l’image du document. Il vise à terme à incorporer dans les scanners un logiciel permettant d’obtenir cette fonctionnalité. Au-delà de la BnF qui met à disposition ses corpus, les partenaires du projet sont les principaux laboratoires français impliqués dans l’amélioration de la reconnaissance optique de caractères ainsi que des industriels du secteur.
Soumis fin 2009, le programme a été retenu par l’ANR ; il bénéficie d’une aide de 866 160 €.
Contribution BnF : réaliser une plateforme d'évaluation de résultats d'OCR sur des données validées par les utilisateurs finaux (BnF) ; définir un ensemble de caractéristiques images permettant de décrire différents états de dégradation des documents (support, caractères) ou des typicalités spécifiques aux documents anciens (polices anciennes, etc.) ; analyser ces caractéristiques images au regard des critères de qualité OCR établis précédemment sur les même documents.
En savoir plus : Présentation sur le site de l'ANR (p. 20)
Bilan 2012 :
Le projet a été lancé en mars 2012 pour une durée de 3 ans et demi. Il s’agit de travailler avec des universitaires spécialistes du traitement d’image et des industriels commercialisant des scanners pour :
- la définition d'un format stockant les informations de numérisation et des informations de prétraitement réalisé au moment de la numérisation ;
- la pré-configuration d'un "scanner intelligent" capable de déclencher des alertes en cas de problèmes lors de la numérisation.
Le département de la Conservation participe à la réunion trimestrielle du projet Digidoc. Il assure le suivi de l’avancée des Work Packages. À la demande des partenaires du projet, le département a enquêté sur l’existence d’un travail de normalisation à l’AFNOR qui recouvrirait les objectifs de Digidoc. De fait, ce projet pourrait être accueilli par la commission AFNOR CN 171 qui concerne la « qualification de la capacité du système d'imagerie pour l'enregistrement et l'approbation des archives ».
Le projet Digidoc est à mi-parcours et tient son planning. Quelques résultats prometteurs ont été obtenus en laboratoire.