CATMuS : lire les langues de l'Europe au Moyen Âge

Alors que le projet CoMMA (Corpus of Multilingual Medieval Archives) de l’Inria a récemment fait l’actualité, nous vous proposons de découvrir avec Thibaut Clérice (Inria) ce qui en est à la source : le projet CATMuS (Consistent Approaches to Transcribing Manuscripts).

Dans le monde des manuscrits médiévaux, chaque projet de transcription avait jusqu’ici ses propres règles : certains développant les abréviations quand d’autres les conservaient ; les graphies anciennes étaient parfois uniformisées, parfois respectées jusque dans ses variations les plus précises.

Ces différences, potentiellement anodines pour un lecteur humain, sont un casse-tête pour l’IA, qui apprend à partir des données qu’on lui fournit. Résultat : les modèles et données de reconnaissance d’écriture restaient difficilement comparables, et souvent peu réutilisables. De ce constat est né CATMuS Medieval. Ce projet international, né en 2021 dans un séminaire d’Ariane Pinche (CNRS) à l’École nationale des Chartes - PSL et soutenu par l’EPHE - PSL, veut créer un terrain commun pour la transcription des manuscrits et imprimés anciens. Aujourd’hui, son développement est mené de concert entre le CNRS et l’Inria. Plus de 300 documents, 10 langues et près de 200 000 lignes de texte, du VIII^e au XVI^e siècle sont ainsi réunis. Sa force : proposer des règles partagées qui concilient fidélité aux sources et lisibilité pour la machine. Quand on transcrit un document ancien, un certain nombre de phénomènes viennent bousculer notre rapport au texte : les copistes abrègent avec de nombreux signes, parfois rares, peuvent faire des « fautes » … Ces pratiques changent en fonction des langues (on n’abrège pas autant en français qu’en latin par exemple), des époques, des genres (on abrège plus les documents médicaux que les poèmes).

CATMuS a réussi à fédérer des équipes de plusieurs pays, mutualisé des données dispersées et proposé une réponse commune à ces phénomènes. En les uniformisant, CATMuS permet de bâtir des modèles plus robustes, capables de lire au-delà d’un seul manuscrit, d’un seul genre, d’un siècle ou d’une langue, preuves à l’appui. Stabiliser ces pratiques, c’est réfléchir à la manière dont nous construisons, avec l’aide des machines, notre accès au passé. L’écosystème eScriptorium et son infrastructure ont permis à CATMuS de voir le jour en annotant quelque 300 manuscrits. CATMuS est devenu l’un des jeux de données et des modèles de base les plus utilisés pour les écritures latines. Aujourd’hui, CATMuS et eScriptorium avancent de concert, formant un socle commun pour l’étude et la transmission des écritures médiévales.

Plus d’infos

CoMMA
CATMuS guidelines

Nous soutenir

Depuis plus de 150 ans, l'École a su évoluer et répondre aux défis qui lui étaient lancés tout en restant fidèle au principe qui a prévalu à sa création : se former à la recherche par la pratique de la recherche. Afin de soutenir son développement et amplifier son rôle d'interface entre la société et la recherche, l’École propose aux entreprises, fondations et donateurs individuels d’accompagner ses projets.