Benjamin KIESSLING

Diplôme :
Doctorat
Mention :
Systèmes intégrés, environnement et biodiversité
Date :
mardi 13 avril 2021 - 16:00
Avancées en Reconnaissance Optique des Caractères pour les documents arabes historiques

Benjamin KIESSLING soutiendra sa thèse de doctorat préparée sous la direction de M. Marc BUI

  • Maison des Sciences de l'Homme - 54 Boulevard Raspail, 75006 Paris. Salle : 1 et visioconférence
  • Jury : M. Marc BUI, M. Nachum DERSHOWITZ, M. Gregory CRANE, Mme Alicia FORNÉS, M. Daniel STÖKL BEN EZRA, M. Peter STOKES, Mme Nuria DE CASTILLA

Résumé

La transcription automatique de textes dans les documents historiques manuscrits et imprimés est devenue un processus établi dans les humanités numériques, son utilisation allant des archives ou des bibliothèques à grande échelle aux groupes de recherche et aux chercheurs individuels. Bien que des progrès considérables aient été réalisés ces dernières années pour comprendre les limites et faire progresser l'état de l'art, ces recherches restent largement limitées aux documents écrits dans les systèmes d'écriture européens, et plus particulièrement à l'écriture latine. L'une des cultures littéraires les plus vastes et les plus diverses, largement ignorée par les recherches actuelles sur l'analyse d'images de documents, est l'écriture arabe. Cette thèse contient une étude compréhensive sur les caractéristiques des documents en écriture arabe et les défis qu'ils posent aux systèmes de reconnaissance optique de caractères de pointe, à travers une analyse théorique de l'écriture arabe et deux études de cas de rétro-numérisation sur des documents imprimés classiques et modernes. Les principales limites des méthodes courantes identifiées dans ces études ont ensuite été traitées. Deux méthodes entraînables de segmentation des pages suivant le paradigme de la ligne de base, permettant d'obtenir des résultats comparables à l'état de l'art et comprenant des caractéristiques supplémentaires nécessaires à la segmentation de pages de documents complexes, une méthode simple de traitement des lignes de texte multigraphiques et le logiciel ROC flexible Kraken intégrant ces méthodes sont présentés. On montre l'utilité de ce logiciel de ROC non seulement pour la reconnaissance de texte traditionnelle mais aussi pour une nouvelle tâche d'alignement des caractères. En outre, on présente l'environnement de recherche virtuel (ERV) eScriptorium pour l'annotation et la transcription. Cet ERV est spécifiquement conçu pour pouvoir traiter des textes non-latins, dont l'arabe, plus efficacement que les systèmes alternatifs existants. Au cours de ce travail, on a également préparé plusieurs ensembles de données d'entraînement et d'évaluation sous licence ouverte pour la transcription de textes arabes et la segmentation de pages.

Abstract

The automatic transcription of text in handwritten and machine-printed historical documents has become an established process in the Digital Humanities, its use ranging from large scale archival or library settings to research groups and individual scholars. While considerable progress on understanding limitations and advancing the state of the art has been made in recent years, this research remains largely limited to documents written in European writing systems, most importantly the Latin script. One of the largest and most diverse literary cultures largely ignored by current document image analysis research is the Arabic one. This thesis contains a comprehensive study on the features of Arabic-script documents and their challenges posed to state of the art optical character systems through both a theoretical analysis of the Arabic script and two case studies of retrodigitization on printed classical and modern material. The principal limitations of common methods identified in these studies were subsequently addressed. Two trainable layout analysis methods following the baseline paradigm achieving comparable results to the state of the art while incorporating additional features necessary for the segmentation of complex document pages, a basic method for processing of multigraphic text lines, and the flexible Kraken OCR engine integrating these methods are presented. We show the usefulness of this OCR software not only for traditional text recognition but also a novel character alignment task. Further, we present the eScriptorium virtual research environment (VRE) for annotation and transcription. This VRE is specifically designed to be able to treat non-Latin, among them Arabic, script material more effectively than existing alternative systems. In the course of this work we also prepared multiple openly licensed training and evaluation datasets for Arabic text transcription and layout analysis.