L'EPHE déjoue la loi de puissance des sinogrammes !
L’équipe Edit_Dunhuang (Biblissima+ - BnF) vient de publier AnandaSky, un modèle de transcription automatique des documents historiques en sinogrammes. Publié le 12 mars sur la plateforme Huggingface, leur modèle a été entrainé sur un corpus de quatre millions de lignes. Il transcrit imprimés et manuscrits avec une précision inédite (moins de 1% d’erreur).
Avec plus de 200 000 titres d'ouvrages uniques, des dizaines de millions de documents d'archives, et des centaines de milliers de sources épigraphiques et manuscrites, le patrimoine littéraire chinois est si vaste qu'il pourrait « faire transpirer un bœuf et remplir une pièce jusqu’au plafond ». Malgré le rôle pionnier de la République populaire de Chine dans l'utilisation de l'intelligence artificielle (IA) pour faciliter l'accès à ces textes, on estime qu’aujourd’hui seul 5 % du patrimoine littéraire chinois est disponible sous forme de texte numérique. Sur ces 5 %, une grande partie est inaccessible aux établissements d'enseignement supérieur européens en raison du coût prohibitif des licences commerciales.
Les défis de la transcription automatique du chinois classique
Plusieurs défis sont à relever pour la transcription automatique de textes en chinois classique. D’abord, on estime qu’environ 14 000 sinogrammes sont nécessaires pour y parvenir. Cela représente un ensemble de classes de signes cent fois supérieur à celui requis pour les langues alphabétiques. En outre la similarité visuelle de nombreux sinogrammes peut-être source de confusions. Enfin, la distribution de la fréquence des caractères chinois correspond à une loi de puissance : une minorité d’éléments apparaît fréquemment tandis que la majorité est extrêmement rare. Il en résulte que moins de 20 % des sinogrammes représentent plus de 95 % des occurrences, tandis que l'immense majorité est extrêmement rare. Or ces caractères rares, bien que portant un poids sémantique fort, sont souvent négligés par les algorithmes d'apprentissage. Un modèle peut donc atteindre un taux de précision statistique très élevé pour un texte sémantiquement erroné. Et encore faut-il réunir un volume de données très important.
Déjouer la loi de puissance des sinogrammes
Afin de contrer les effets délétères de cette « loi de puissance », plutôt que de classifier des caractères isolés, l’équipe Numerica Sinologica a réalisé la transcription au niveau des lignes de texte. Initialement développée pour les écritures ligaturées où les caractères sont difficiles à séparer, cette approche permet, pour le chinois, d'obtenir une distribution plus équilibrée de l’information.
Cette approche se heurte cependant à une contrainte qui a freiné son adoption en Chine. Pour modéliser efficacement la probabilité conditionnelle, l'entraînement requiert 800 000 paires image-texte parfaitement alignées. Leur annotation manuelle nécessiterait l'équivalent d'environ cinq années de travail à temps plein.
L’équipe a donc exploité des transcriptions existantes, notamment celles issues de projets collaboratifs Kanripo et CBETA, à partir d’un algorithme créé pour cela. Plusieurs corpus de facsimile ont été utilisé à cette fin avec le moteur d’OCR Kraken. Aujourd’hui, AnandaSky atteint moins de 1 % d’erreur sur cinq jeux de test sur huit et établi un nouveau record sur MTHv2 (0,92 %) ! L’analyse qualitative montre que nombre des erreurs résiduelles relèvent principalement de variantes graphiques. Le succès de notre approche sur le chinois classique ouvre de nouvelles perspectives pour l'étude des documents historiques en sinogrammes au-delà des frontières de la Chine.
Colin Brisson, Marc Bui et Frédéric Constant
En savoir plus sur la loi de puissance (article complet) : Ephéméride 17
En savoir plus sur AnandaSky