Voici comment des chercheurs français ont réussi à retranscrire 32 000 manuscrits médiévaux grâce à l'IA

Des chercheurs français retranscrivent 32 000 manuscrits médiévaux grâce à l’IA

La numérisation des archives médiévales a progressé ces dernières décennies, mais la retranscription des textes demeure un défi majeur : des milliers de documents numérisés restent illisibles pour les machines et inaccessibles aux chercheurs en raison de la complexité des écritures anciennes. Des chercheurs de l’Institut national de recherche en sciences et technologies du numérique (Inria) ont développé une intelligence artificielle (IA) capable de lire ces écritures à une vitesse sans précédent, ouvrant ainsi de nouvelles perspectives pour l’étude de ces textes.

Un corpus de 3 milliards de mots

Le projet CoMMa (Corpus of Multilingual Medieval Archives), dirigé par Thibault Clérice, chercheur en humanités computationnelles à Inria Paris, a permis de créer un corpus unique de plus de 3 milliards de mots, principalement en latin et en ancien français, couvrant une période allant du IXe au XVIe siècle. Pour l’ancien français, ce corpus est désormais quarante fois plus volumineux qu’avant le projet.

L’IA a retranscrit et traduit 32 000 manuscrits, un travail qui a pris seulement quatre mois après deux années de développement et d’entraînement du modèle. Cette avancée est d’autant plus significative que les modèles grand public, tels que ChatGPT, ne sont pas adaptés à la complexité des écritures médiévales, qui peuvent varier considérablement d’une copie à l’autre.

Méthodologie et résultats

L’équipe a choisi une approche basée sur la reconnaissance graphique caractère par caractère, utilisant des outils open source comme Kraken et eScriptorium. Cette méthode privilégie l’erreur de reconnaissance plutôt que l’invention de mots, ce qui est crucial pour la recherche historique. Les transcriptions produites sont brutes, avec un taux d’erreur moyen de 9,7 %, mais souvent, plus de 80 % des lignes sont correctement reconnues.

Le corpus CoMMa est désormais librement accessible en ligne, offrant aux chercheurs et passionnés d’histoire médiévale un accès direct à des textes qui étaient jusqu’alors inaccessibles dans des bibliothèques.

Conclusion

Cette avancée technologique représente une étape importante dans la préservation et l’étude des archives médiévales, permettant de lever un verrou qui entravait l’accès à ces précieux documents.

(Source : Futura Sciences)

Source
Leave a Comment

Comments

No comments yet. Why don’t you start the discussion?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *