Avis de soutenance - doctorat - Benjamin KIESSLING
Informations pratiques
Ecole doctorale 472
54 Boulevard Raspail
75006 Paris
Ajouter à mon calendrier
75006 Paris
- iCal
- Yahoo!
- Outlook.com
- Office365
Choose a calendar service :
Soutenue par
Benjamin KIESSLING
Avancées en Reconnaissance Optique des Caractères pourles Documents Arabes Historiques,
La transcription automatique de textes dans les documents historiques
manuscrits et imprimés est devenue un processus établi dans les humanités
numériques, son utilisation allant des archives ou des bibliothèques à grande
échelle aux groupes de recherche et aux chercheurs individuels. Bien que des
progrès considérables aient été réalisés ces dernières années pour comprendre
les limites et faire progresser l'état de l'art, ces recherches restent
largement limitées aux documents écrits dans les systèmes d'écriture européens,
et plus particulièrement à l'écriture latine. L'une des cultures littéraires
les plus vastes et les plus diverses, largement ignorée par les recherches
actuelles sur l'analyse d'images de documents, est l'écriture arabe.
Cette thèse contient une étude compréhensive sur les caractéristiques des
documents en écriture arabe et les défis qu'ils posent aux systèmes de
reconnaissance optique de caractères de pointe, à travers une analyse théorique
de l'écriture arabe et deux études de cas de rétro-numérisation sur des
documents imprimés classiques et modernes. Les principales limites des méthodes
courantes identifiées dans ces études ont ensuite été traitées. Deux méthodes
entraînables de segmentation des pages suivant le paradigme de la ligne de
base, permettant d'obtenir des résultats comparables à l'état de l'art et
comprenant des caractéristiques supplémentaires nécessaires à la segmentation
de pages de documents complexes, une méthode simple de traitement des lignes de
texte multigraphiques et le logiciel ROC flexible Kraken intégrant ces méthodes
sont présentés. On montre l'utilité de ce logiciel de ROC non seulement pour la
reconnaissance de texte traditionnelle mais aussi pour une nouvelle tâche
d'alignement des caractères. En outre, on présente l'environnement de recherche
virtuel (ERV) eScriptorium pour l'annotation et la transcription. Cet ERV est
spécifiquement conçu pour pouvoir traiter des textes non-latins, dont l'arabe,
plus efficacement que les systèmes alternatifs existants. Au cours de ce
travail, on a également préparé plusieurs ensembles de données d'entraînement
et d'évaluation sous licence ouverte pour la transcription de textes arabes et
la segmentation de pages.
Advances in Optical Character Recognition for Historical ArabicDocuments.
The automatic transcription of text in handwritten and machine-printed
historical documents has become an established process in the Digital
Humanities, its use ranging from large scale archival or library settings to
research groups and individual scholars. While considerable progress on
understanding limitations and advancing the state of the art has been made in
recent years, this research remains largely limited to documents written in
European writing systems, most importantly the Latin script. One of the largest
and most diverse literary cultures largely ignored by current document image
analysis research is the Arabic one.
This thesis contains a comprehensive study on the features of Arabic-script
documents and their challenges posed to state of the art optical character
systems through both a theoretical analysis of the Arabic script and two case
studies of retrodigitization on printed classical and modern material. The
principal limitations of common methods identified in these studies were
subsequently addressed. Two trainable layout analysis methods following the
baseline paradigm achieving comparable results to the state of the art while
incorporating additional features necessary for the segmentation of complex
document pages, a basic method for processing of multigraphic text lines, and
the flexible Kraken OCR engine integrating these methods are presented. We show
the usefulness of this OCR software not only for traditional text recognition
but also a novel character alignment task. Further, we present the eScriptorium
virtual research environment (VRE) for annotation and transcription. This VRE
is specifically designed to be able to treat non-Latin, among them Arabic,
script material more effectively than existing alternative systems. In the
course of this work we also prepared multiple openly licensed training and
evaluation datasets for Arabic text transcription and layout analysis.
Directeur de thèse :
Marc BUI
Unité de recherche :
Cognitions humaine et artificielle
Membres du jury :
- Directeur de thèse : Marc BUI
- Rapporteur : Nachum DERSHOWITZ , Full professor (Tel Aviv University)
- Rapporteur : Gregory CRANE , Full professor (Tufts University)
- Examinateur : Alicia FORNÉS , Senior research fellow (Universitat Autònoma de Barcelona)
- Examinateur : Daniel STÖKL BEN EZRA , Directeur d'études (EPHE PARIS)
- Président : Peter STOKES
Diplôme :
Doctorat Systèmes intégrés, environnement et biodiversité
Spécialité de soutenance :
Informatique, mathématique et applications