Post-correction d’OCR pour les ouvrages anciens en exploitant les associations lexicales de l’OCR bruité
- service Numérisation : pilote
- Jean-Philippe MOREUX (service Numérisation) : chef de projet, pilote
Description
En effet, du fait même de la nature des collections patrimoniales de la BnF, l’OCR appliqué à ces documents conduit à une transcription du texte de qualité variable, en particulier sur les documents anciens (antérieurs au XVIIIe siècle) ou les documents multilingues (notamment français-latin, français et autres langues romanes).
Des actions d’amélioration peuvent être menées sur le processus OCR lui-même, mais une action corrective post-OCR est également envisageable, mettant en jeu soit une intervention humaine, soit un traitement informatique. Le projet AMELIOCR se place dans le second cas et ambitionne de fournir des outils de correction automatique ou semi-automatique de la couche texte des documents numériques délivrés à la BnF par ses prestataires de numérisation.