Des chercheurs français retranscrivent 32 000 manuscrits médiévaux grâce à l’IA
La numérisation des archives médiévales a progressé ces dernières décennies, mais la retranscription des textes demeure un défi majeur : des milliers de documents numérisés restent illisibles pour les machines et inaccessibles aux chercheurs en raison de la complexité des écritures anciennes. Des chercheurs de l’Institut national de recherche en sciences et technologies du numérique (Inria) ont développé une intelligence artificielle (IA) capable de lire ces écritures à une vitesse sans précédent, ouvrant ainsi de nouvelles perspectives pour l’étude de ces textes.
Un corpus de 3 milliards de mots
Le projet CoMMa (Corpus of Multilingual Medieval Archives), dirigé par Thibault Clérice, chercheur en humanités computationnelles à Inria Paris, a permis de créer un corpus unique de plus de 3 milliards de mots, principalement en latin et en ancien français, couvrant une période allant du IXe au XVIe siècle. Pour l’ancien français, ce corpus est désormais quarante fois plus volumineux qu’avant le projet.
L’IA a retranscrit et traduit 32 000 manuscrits, un travail qui a pris seulement quatre mois après deux années de développement et d’entraînement du modèle. Cette avancée est d’autant plus significative que les modèles grand public, tels que ChatGPT, ne sont pas adaptés à la complexité des écritures médiévales, qui peuvent varier considérablement d’une copie à l’autre.
Méthodologie et résultats
L’équipe a choisi une approche basée sur la reconnaissance graphique caractère par caractère, utilisant des outils open source comme Kraken et eScriptorium. Cette méthode privilégie l’erreur de reconnaissance plutôt que l’invention de mots, ce qui est crucial pour la recherche historique. Les transcriptions produites sont brutes, avec un taux d’erreur moyen de 9,7 %, mais souvent, plus de 80 % des lignes sont correctement reconnues.
Le corpus CoMMa est désormais librement accessible en ligne, offrant aux chercheurs et passionnés d’histoire médiévale un accès direct à des textes qui étaient jusqu’alors inaccessibles dans des bibliothèques.
Conclusion
Cette avancée technologique représente une étape importante dans la préservation et l’étude des archives médiévales, permettant de lever un verrou qui entravait l’accès à ces précieux documents.
(Source : Futura Sciences)