Avis de soutenance - doctorat - Benjamin KIESSLING

Informations pratiques

Ecole doctorale 472

Mardi 13 avril 2021 - 16:00

54 Boulevard Raspail
75006 Paris

Ajouter à mon calendrier

Choose a calendar service :

Google
iCal
Yahoo!
Outlook.com
Office365

Soutenue par Benjamin KIESSLING

Avancées en Reconnaissance Optique des Caractères pourles Documents Arabes Historiques,

La transcription automatique de textes dans les documents historiques manuscrits et imprimés est devenue un processus établi dans les humanités numériques, son utilisation allant des archives ou des bibliothèques à grande échelle aux groupes de recherche et aux chercheurs individuels. Bien que des progrès considérables aient été réalisés ces dernières années pour comprendre les limites et faire progresser l'état de l'art, ces recherches restent largement limitées aux documents écrits dans les systèmes d'écriture européens, et plus particulièrement à l'écriture latine. L'une des cultures littéraires les plus vastes et les plus diverses, largement ignorée par les recherches actuelles sur l'analyse d'images de documents, est l'écriture arabe. Cette thèse contient une étude compréhensive sur les caractéristiques des documents en écriture arabe et les défis qu'ils posent aux systèmes de reconnaissance optique de caractères de pointe, à travers une analyse théorique de l'écriture arabe et deux études de cas de rétro-numérisation sur des documents imprimés classiques et modernes. Les principales limites des méthodes courantes identifiées dans ces études ont ensuite été traitées. Deux méthodes entraînables de segmentation des pages suivant le paradigme de la ligne de base, permettant d'obtenir des résultats comparables à l'état de l'art et comprenant des caractéristiques supplémentaires nécessaires à la segmentation de pages de documents complexes, une méthode simple de traitement des lignes de texte multigraphiques et le logiciel ROC flexible Kraken intégrant ces méthodes sont présentés. On montre l'utilité de ce logiciel de ROC non seulement pour la reconnaissance de texte traditionnelle mais aussi pour une nouvelle tâche d'alignement des caractères. En outre, on présente l'environnement de recherche virtuel (ERV) eScriptorium pour l'annotation et la transcription. Cet ERV est spécifiquement conçu pour pouvoir traiter des textes non-latins, dont l'arabe, plus efficacement que les systèmes alternatifs existants. Au cours de ce travail, on a également préparé plusieurs ensembles de données d'entraînement et d'évaluation sous licence ouverte pour la transcription de textes arabes et la segmentation de pages.

Advances in Optical Character Recognition for Historical ArabicDocuments.

The automatic transcription of text in handwritten and machine-printed historical documents has become an established process in the Digital Humanities, its use ranging from large scale archival or library settings to research groups and individual scholars. While considerable progress on understanding limitations and advancing the state of the art has been made in recent years, this research remains largely limited to documents written in European writing systems, most importantly the Latin script. One of the largest and most diverse literary cultures largely ignored by current document image analysis research is the Arabic one. This thesis contains a comprehensive study on the features of Arabic-script documents and their challenges posed to state of the art optical character systems through both a theoretical analysis of the Arabic script and two case studies of retrodigitization on printed classical and modern material. The principal limitations of common methods identified in these studies were subsequently addressed. Two trainable layout analysis methods following the baseline paradigm achieving comparable results to the state of the art while incorporating additional features necessary for the segmentation of complex document pages, a basic method for processing of multigraphic text lines, and the flexible Kraken OCR engine integrating these methods are presented. We show the usefulness of this OCR software not only for traditional text recognition but also a novel character alignment task. Further, we present the eScriptorium virtual research environment (VRE) for annotation and transcription. This VRE is specifically designed to be able to treat non-Latin, among them Arabic, script material more effectively than existing alternative systems. In the course of this work we also prepared multiple openly licensed training and evaluation datasets for Arabic text transcription and layout analysis.

Directeur de thèse :

Marc BUI

Unité de recherche :

Cognitions humaine et artificielle

Membres du jury :

Directeur de thèse : Marc BUI
Rapporteur : Nachum DERSHOWITZ , Full professor (Tel Aviv University)
Rapporteur : Gregory CRANE , Full professor (Tufts University)
Examinateur : Alicia FORNÉS , Senior research fellow (Universitat Autònoma de Barcelona)
Examinateur : Daniel STÖKL BEN EZRA , Directeur d'études (EPHE PARIS)
Président : Peter STOKES

Diplôme :

Doctorat Systèmes intégrés, environnement et biodiversité

Spécialité de soutenance :

Informatique, mathématique et applications

Nous soutenir

Depuis plus de 150 ans, l'École a su évoluer et répondre aux défis qui lui étaient lancés tout en restant fidèle au principe qui a prévalu à sa création : se former à la recherche par la pratique de la recherche. Afin de soutenir son développement et amplifier son rôle d'interface entre la société et la recherche, l’École propose aux entreprises, fondations et donateurs individuels d’accompagner ses projets.