Post-correction d’OCR pour les ouvrages anciens en exploitant les associations lexicales de l’OCR bruité

Les services BnF et leurs rôles
Les acteurs BnF et leurs rôles
Les groupements

Description

Ce projet vise à améliorer la qualité du texte des documents numérisés dans les programmes de numérisation patrimoniale de la BnF en améliorant leur couche texte via des algorithmes de traitement automatisé de la langue.

En effet, du fait même de la nature des collections patrimoniales de la BnF, l’OCR appliqué à ces documents conduit à une transcription du texte de qualité variable, en particulier sur les documents anciens (antérieurs au XVIIIe siècle) ou les documents multilingues (notamment français-latin, français et autres langues romanes).

Des actions d’amélioration peuvent être menées sur le processus OCR lui-même, mais une action corrective post-OCR est également envisageable, mettant en jeu soit une intervention humaine, soit un traitement informatique. Le projet AMELIOCR se place dans le second cas et ambitionne de fournir des outils de correction automatique ou semi-automatique de la couche texte des documents numériques délivrés à la BnF par ses prestataires de numérisation.