MiDRASH poursuit son œuvre de transcription !
Connaissez-vous le projet ERC synergy MiDRASH, porté par l’EPHE - PSL en collaboration avec l’Université de Tel Aviv, l’Université de Bar Ilan ainsi que la Bibliothèque nationale d'Israël et l’Université de Haïfa ? Son dernier colloque, intitulé “Méthodologie de la paléographie hébraïque. Expertise, art ou science ?” s’est tenu les 4 et 5 mai derniers au Campus Condorcet. Retour sur un projet hors norme, dont le corpus de transcriptions ne cesse de s’étendre.
Un projet au service de l’analyse de la culture juive
MiDRASH vise à reconstruire et analyser la culture juive écrite jusqu'au 16e siècle en hébreu, en araméen et en judéo-arabe principalement.
Plus de 10 millions d’images venant de 80 000 manuscrits et 300 000 fragments (sans compter les 10 millions d'images de livres imprimés) sont réunies sous format électronique à la Bibliothèque nationale d'Israël. Ce fonds rassemble pratiquement tous les manuscrits qui ont survécu aux guerres, aux parasites et aux persécutions au fil des siècles.
Ces manuscrits et fragments ont profité des techniques avancées de transcription automatique de l’équipe de Daniel Stökl Ben Ezra à l’EPHE - PSL pour ensuite être soumis au traitement automatique de l’équipe de Avi Shmidman de l’Université de Bar Ilan, spécialisée sur d’autres dimensions (morphologie et syntaxe, lexique…).
Transcription automatique et analyse paléographique
La transcription automatique, assurée par eScriptorium et son moteur d’intelligence artificielle Kraken, présente des performances supérieures aux niveaux attendus. Le taux de précision de cette transcription atteint 96-99% pour les manuscrits en écriture livresque. Il reste toutefois des difficultés à surmonter pour transcrire les écritures cursives comme les mises en page complexes.
Au volet de la transcription automatique, s’ajoutent ceux de l’analyse paléographique – à la fois manuelle (par l’équipe de Judith Olszowy-Schlanger de l’EPHE - PSL) et automatique (par l’équipe de Nachum Dershowitz à l’Université de Tel Aviv) – et de la mise en page (par les équipes EPHE - PSL).
Une base de données
Le cœur du projet consiste en sept études de cas, dont le résultat sera une base de données liant plusieurs dizaines de milliards de mots et de lettres, formes et contenus, de la granularité la plus fine jusqu’à la plus grande échelle. Le service devrait être supérieur à Google Books pour les manuscrits juifs, en rendant possible le traçage de chaque unité textuelle ou manuscrite dans le temps et dans l’espace. Cette combinaison permettra de suivre la transmission et la migration des idées écrites, l’ADN de la littérature intellectuelle juive, au sein d’un vaste espace allant de l’Iran jusqu’à la France, en passant par l’Irak, la Palestine, le Yémen, l’Égypte et l’Italie. Une occasion unique de percevoir les influences des cultures musulmanes et chrétiennes. Il serait par exemple possible d’analyser la paléographie des corrections interlinéaires et marginales et de retracer les détenteurs des livres pour écrire une histoire des lecteurs – ou des bibliothèques – à grande échelle.
Différents corpus et chercheurs mobilisés
Le corpus de transcriptions réalisées par l'équipe de D. Stökl Ben Ezra ne cesse de s'étendre : après la transcription de la Genizah du Caire, mise à disposition publique en novembre 2025, l'intégralité des collections numérisées de manuscrits hébraïques de la Bibliothèque nationale de France et de la Biblioteca Apostolica Vaticana vient s'y ajouter.
Dans ce même élan, l'EPHE - PSL a accueilli deux colloques internationaux conjuguant paléographie hébraïque traditionnelle et computationnelle. Organisés respectivement par J. Olszowy-Schlanger et E. Zarubina, ils ont confronté les spécialistes à deux défis majeurs : penser la mobilité des scribes en tant que cadre méthodologique et repenser plus largement la méthodologie d'une discipline en pleine mutation.
Retrospective en photos du colloque du 4 mai 2026 :
Colloquium Methodology of Hebrew Palaeography. Expertise, art or science ? Paris, 4-5 May 2026 – MIDRASH