Clesthia >> CLESTHIA >> Corpus

CoDiF

Responsables: Florence Lefeuvre et Gabriella Parussa

Un corpus de plus de 700.000 mots est d’ores et déjà disponible pour les chercheurs de l’équipe, sous un format word. Ce corpus de dialogues en français (CoDiF) est le premier corpus textuel de ce type pour la langue française, alors que l’anglais possède déjà depuis plusieurs années le CED (Corpus of English Dialogues). Notre corpus est composé de textes dramatiques et de comptes rendus de procès ou de dialogues extraits de textes narratifs qui s’échelonnent sur une très grande période de l’histoire de la langue française (13e – 21e siècle). Une première phase de transcription a cédé la place à une phase d’annotation de type XML-TEI, afin de rendre assez rapidement les textes accessibles en ligne. Les membres de l’équipe et les vacataires qui travaillent à l’annotation de ce corpus essaieront, lors du prochain quinquennal, de fixer un certain nombre de balises utiles pour l’étude de l’oral représenté, en identifiant des marqueurs spécifique d’oralité, et, plus en général, pour l’étude morpho-syntaxique de ces textes. En parallèle, on continuera à enrichir le corpus de nouveaux textes de manière à mieux couvrir toutes les périodes, les types de textes et les aires géographiques.

En poursuivant notre collaboration avec Huma-Num et dans le cadre du consortium CORLI, Clesthia procédera au dépôt du CoDiF pour la pérennisation des données et souhaite aussi profiter éventuellement d’une plateforme USPC pour la mise en ligne de la base de données (sous TXM).

 

mise à jour le 10 février 2018