Clesthia >> CLESTHIA >> Corpus

CoDiF

Responsables: Florence Lefeuvre et Gabriella Parussa

Financement de Corli 3500 euros en 2020

 

Un corpus de plus de 500.000 mots est disponible pour les chercheurs de l’équipe, sous un format word. Ce corpus de dialogues en français (CoDiF) est le premier corpus textuel de ce type pour la langue française, alors que l’anglais possède déjà depuis plusieurs années le CED (Corpus of English Dialogues). Notre corpus est composé de textes dramatiques et de comptes rendus de procès ou de dialogues extraits de textes narratifs qui s’échelonnent sur une très grande période de l’histoire de la langue française (13e – 21e siècle). Une première phase de transcription a cédé la place à une phase d’annotation basique de type XML-TEI, afin de rendre assez rapidement les textes accessibles en ligne.

Après avoir suivi un atelier de formation TXM et des formations plus spécifiques pour des logiciels comme Oxygen, les membres de l’équipe et les vacataires qui travaillent à l’annotation de ce corpus essaient de fixer un certain nombre de balises utiles pour l’étude de l’oral représenté, en identifiant des marqueurs précis et, plus en général, pour l’étude morpho-syntaxique de ces textes.

En parallèle, on continue à enrichir le corpus de nouveaux textes de manière à mieux couvrir toutes les périodes et les aires géographiques. Une collaboration s’est nouée avec le laboratoire Crisco (Pierre Larrivée) pour partager certaines ressources.

En poursuivant sa collaboration avec Huma-Num et dans le cadre du consortium CORLI, Clesthia procèdera à la pérennisation du corpus et la mise en ligne de la base de données (sous TXM).

 

Publication

Un numéro de la revue « Langages » est sorti en 2020 (Lefeuvre F. et Parussa G. eds, 2020: L’oral représenté en diachronie et synchronie, Une voie d’accès à l’oral spontané ?, Langages, n° 217), résultat également de l’opération Oral représenté.

Équipe: F. Lefeuvre, G. Parussa, E. Oppermann, A. Régent-Susini; doctorants et docteurs: L. Dourdy, L. Sauwala, P. Vermander, Y. Na, C. Vichou, F. Colaluca.



mise à jour le 29 novembre 2022


Â