Jack BOWERS

Diplôme :
Doctorat
Date :
jeudi 08 octobre 2020 - 12:00
Documentation linguistique et standards dans le champs des humanités numériques : la TEI et la documentation du mixtèque de mixtepec

 Soutenance en visioconférence

Jack BOWERS soutiendra sa thèse de doctorat préparée sous la direction de M. Laurent ROMARY

  • Jury : M. Laurent ROMARY, M. Alexis MICHAUD, M. Emmanuel SCHANG, M. Enrique PALANCAR, M. Karlheinz MOERTH, M. Benoît SAGOT, M. Tomaž ERJAVEC

Résumé

Cette thèse porte sur un projet de documentation linguistique concernant la langue mixtèque de mixtepec (ISO 639-3: mix). Le mixtèque de mixtepec est une langue otomangue essentiellement parlée par une population de 9000-1000 locuteurs dans les municipalités de San Juan Mixtepec dans la région Juxtlahuaca dans l’état d’Oaxaca, Mexique. Elle est aussi parlée par quelques milliers de locuteurs qui résident dans l’état de Baja Californie, Tlaxicao, et Santiago Juxtlahuaca en Mexique. Aux Etats-Unis, elle concerne également différentes populations significatives, en particulier dans les environs de Santa Maria et Oxnard en Californie ainsi que dans les états d’Oregon, Floride, et Arkansas. Les principaux objectifs de ce projet sont a) de créer une collection de ressources langagiers pour la langue sous licence ouverte, et la communauté des locateurs b) évaluer les logiciels, les standards et les procédures utilisés dans le champ de documentation linguistiques par rapport à celles du champ des humanités numériques et c) démontrer comment les directives de la TEI (Text Encoding Initiative) et les technologies liées à XML peuvent être utilisées pour l’encodage, les métadonnées, et pour l’annotation et le traitement d’une collection de ressources lexicales, dans le cas d’une langue pour laquelle peu de sources primaires sont disponibles. Concrètement, les ressources créées sont les suivantes : un dictionnaire multimédia et multilingue (mixtèque, espagnole, anglais); une collection d’enregistrements audio publiés et archivés publiquement et ouvertement chez Harvard Dataverse ; un corpus de textes dérivés d’une combinaison de transcriptions de la langue parlée ainsi que des textes annotés conformément aux directives de la TEI; une description sommaire des caractéristiques linguistiques et lexicales. En raison de l’étendue des données et des ressources produites au cours de ce travaux, cette entreprise est composée d’éléments qui tombent également dans le champ des humanités numériques, de la documentation linguistique, de la linguistique descriptive, et de la linguistique de corpus. De par ces chevauchements disciplinaires et dans le respect des meilleurs pratiques disciplinaires, les travaux décrit dans cette thèse cherchent à combler les fossés entre les questions méthodologiques et techniques de ces différents champs.

Abstract

This project concerns a language documentation project covering the Mixtepec-Mixtec variety of Mixtec (ISO 639-3: mix). Mixtepec-Mixtec is an Oto-Manguean spoken by roughly 9000- 10000 people in San Juan Mixtepec Municipality in the Juxtlahuaca district of Oaxaca, Mexico and by several thousand speakers living in Baja California, Tlaxiaco, Santiago Juxtlahuaca. There are also significant populations in the United States, most notably in California, around Santa Maria and Oxnard, as well as in Oregon, Florida, and Arkansas. The core facets of the work are: the creation a body of linguistic resources for the MIX language and community; the evaluation the current tools, standards and practices used in language documentation; an account of how the TEI and related XML technologies can be used as the primary encoding, metadata, and annotation format for multi-dimensional linguistic projects, including under-resourced languages. The concrete resources produced are: a multilingual TEI dictionary; a collection of audio recordings published and archived on Harvard Dataverse; a corpus of texts derived from a combination of spoken language transcriptions and texts encoded and annotated in TEI, as well as linguistic and lexicographic descriptions and analyses of the Mixtepec-Mixtec language. Due to the array of different data and resources produced, this project has components that equally fall within the fields of: digital humanities, language documentation, language description and corpus linguistics. Because of this overlapping relevance, over the processes of attempting to carry out this work in line with best practices in each sub-field, this work addresses the need to further bring together the intersecting interests, technologies, practices and standards relevant to, and used in each of these related fields.