Caractérisation des documents numérisés et prédiction de performances des techniques d’OCR et d’Indexation : élaboration d’un logiciel de recommandation pour les organismes de préservation et prestataires

Les entités participant au financement
Les partenaires et leurs rôles
Les services BnF et leurs rôles
Les groupements

Description

Objectif :

Améliorer les méthodes et outils à appliquer en fonction des fonds concernés afin de mieux prédire l’adéquation des documents à convertir aux systèmes d’OCR ; recommander les taux d’OCR par types de documents afin de rendre l’indexation et la recherche de documents performantes.
Élaboration d'un logiciel de recommandation pour les organismes de préservation et prestataires
La typologie de documents ainsi établie offrirait la possibilité de n’envoyer dans les marchés de conversion que les documents susceptibles de fournir des résultats suffisants pour l’indexation, l’affichage et l’exploitation sur des médias divers. Ce serait une aide à la sélection et un facteur de réduction des coûts.

Permettre une préconisation des meilleurs outils et méthodes à appliquer en fonction des fonds concernés afin de prédire l'adéquation des documents à convertir aux systèmes d'OCR. Elle doit également présenter les taux d'OCR recommandés selon les types de documents afin de rendre l'indexation et la recherche de document performante. La typologie de document ainsi établie offrirait la possibilité de n'envoyer dans les marchés de conversion que les documents susceptibles de fournir des résultats suffisants pour l'indexation, l'affichage et l'exploitation sur des médias divers. Ce serait une aide à la sélection et un facteur de réduction des coûts puisque la BnF éviterait ainsi de payer une prestation fournissant des résultats inexploitables du fait d'une qualité de reconnaissance trop basse.

Comité scientifique :
Extérieur : Jean-Marc Ogier (Laboratoire d’Informatique, Images et Interactions), Thierry Paquet (Laboratoire d’Informatique, Traitement de l’Information et des Systèmes), Nicolas Ragot (Laboratoire d’Informatique de Tours) ;
BnF : Laurent Duplouy, Ahmed Ben Salah, Isabelle Dussert-Carbone, Philippe Vallas, Catherine Dhérent (DSR), Régis-François Stauder (MCO), Thierry Pardé, Olivier Jacquot (DSG).

Bilan 2012 :

Les résultats des travaux réalisés au cours de l’année par le doctorant Ahmed Ben Salah s’avèrent tangibles. Le programme a relevé les insuffisances de l’opération de contrôle de l’OCR par manque d’outils de vérification automatique et par incapacité à déterminer les vrais taux d’erreur dans les documents livrés par les prestataires. Des vérifications automatiques des résultats de l’OCR (présence des éléments manquants non détectés par l’OCR ; exactitude des mots reconnus) ont été menées et un outil d’appui pour l’évaluation a été construit. Il permet de suivre les modifications apportées à deux versions d’un fichier ALTO, d’effectuer des contrôles manuels sur les résultats de l’OCR et de fournir les moyens du calcul des performances du système de vérification de l’OCR.

Au terme de cette recherche, la BnF devrait disposer des moyens de procéder à une vérification automatique des résultats de l’OCR, de déterminer des zones d’échecs potentiels, d’estimer le taux de reconnaissance réel, de définir des métriques pour évaluer la qualité des documents numériques et permettre au service de numérisation de définir une nouvelle norme de contrôle.

Au vu des résultats, il a été jugé souhaitable :
- d’organiser la soutenance de thèse, fin 2013, dans les locaux de la BnF ;
- de tenir en 2013, après la soutenance de la thèse d’Ahmed Ben Salah, une commission d’évaluation finale du programme qui, de fait, se continue car la convention signée en 2012 avec l’université de Rouen porte également sur l’exercice 2013.