Livre Moyen Âge

CATMuS : lire les langues de l'Europe au Moyen Âge

Alors que le projet CoMMA (Corpus of Multilingual Medieval Archives) de l’Inria a récemment fait l’actualité, nous vous proposons de découvrir avec Thibaut Clérice (Inria) ce qui en est à la source : le projet CATMuS (Consistent Approaches to Transcribing Manuscripts).

Dans le monde des manuscrits médiévaux, chaque projet de transcription avait jusqu’ici ses propres règles : certains développant les abréviations quand d’autres les conservaient ; les graphies anciennes étaient parfois uniformisées, parfois respectées jusque dans ses variations les plus précises.

 

Ces différences, potentiellement anodines pour un lecteur humain, sont un casse-tête pour l’IA, qui apprend à partir des données qu’on lui fournit. Résultat : les modèles et données de reconnaissance d’écriture restaient difficilement comparables, et souvent peu réutilisables. De ce constat est né CATMuS Medieval. Ce projet international, né en 2021 dans un séminaire d’Ariane Pinche (CNRS) à l’École nationale des Chartes - PSL et soutenu par l’EPHE - PSL, veut créer un terrain commun pour la transcription des manuscrits et imprimés anciens. Aujourd’hui, son développement est mené de concert entre le CNRS et l’Inria. Plus de 300 documents, 10 langues et près de 200 000 lignes de texte, du VIIIe au XVIe siècle sont ainsi réunis. Sa force : proposer des règles partagées qui concilient fidélité aux sources et lisibilité pour la machine. Quand on transcrit un document ancien, un certain nombre de phénomènes viennent bousculer notre rapport au texte : les copistes abrègent avec de nombreux signes, parfois rares, peuvent faire des « fautes » … Ces pratiques changent en fonction des langues (on n’abrège pas autant en français qu’en latin par exemple), des époques, des genres (on abrège plus les documents médicaux que les poèmes).

 

Typologie d'écriture médiévale
Typologie d'écriture médiévale

 

CATMuS a réussi à fédérer des équipes de plusieurs pays, mutualisé des données dispersées et proposé une réponse commune à ces phénomènes. En les uniformisant, CATMuS permet de bâtir des modèles plus robustes, capables de lire au-delà d’un seul manuscrit, d’un seul genre, d’un siècle ou d’une langue, preuves à l’appui. Stabiliser ces pratiques, c’est réfléchir à la manière dont nous construisons, avec l’aide des machines, notre accès au passé. L’écosystème eScriptorium et son infrastructure ont permis à CATMuS de voir le jour en annotant quelque 300 manuscrits. CATMuS est devenu l’un des jeux de données et des modèles de base les plus utilisés pour les écritures latines. Aujourd’hui, CATMuS et eScriptorium avancent de concert, formant un socle commun pour l’étude et la transmission des écritures médiévales.

 

Plus d’infos

CoMMA
CATMuS guidelines