Clesthia >> CLESTHIA >> Projets et valorisation

Recherche

CFPP2000

Le corpus de français parlé parisien

Le Corpus de français parlé parisien (http://cfpp2000.univ-paris3.fr/Corpus.html) a obtenu un financement d’Ortolang (2015-2018) pour l’augmentation et le nettoyage du corpus (10 000 euros).

Disponible en ligne en libre accès, il compte presque 900 000 mots, pour un total de 55 interviews et 67 h d’enregistrement et continue à être augmenté. Trois perspectives peuvent être signalées:

i) Ouverture du  Corpus de Français Parlé de Bruxelles (Dister & Labeau, http://cfpp2000.univ-paris3.fr/cfpb.html ). Le corpus, outillé par Serge Fleury sur les mêmes bases, est hébergé sur le site de Paris 3, ce qui permet d’effectuer facilement des comparaisons pertinentes. Ce projet s’appuie sur le questionnaire du CFPP2000.

ii) Nous développons une réflexion systématique sur les outils d'exploitation syntaxique du corpus, en particulier sur les couches d’annotations qui permettent de travailler sur la segmentation en unités de discours (doctorat soutenu par VU Thi Hieu en juin 2022). Une délégation au CNRS de Florence Lefeuvre (2020-2021) a permis de travailler sur des annotations du corpus via TXM. Ce travail se fait en collaboration avec l’UMR d’Orléans LLL.

iii) Le corpus est utilisé dans d’autres corpus comme celui du Corpus d’Etude pour le Français Contemporain (CEFC) issu d’Orféo ou dans des ouvrages comme La Grande Grammaire du Français.

 

Équipe: S. Branca, S. Fleury, F. Lefeuvre, M. Pires, L. Riou

Docteure et doctorante: V. Hieu et I. Ghidali.


mise à jour le 29 novembre 2022


Â