Opération "Formes linguistiques non discrètes et stylo/textométrie"

Responsable: Dominique Legallois

Cette opération a pour objectif d’identifier et d’analyser les formes linguistiques non discrètes (c’est-à-dire qui se différencient des unités discrètes telles que les lexèmes ou les grammèmes) constituant des séquences caractéristiques d’un discours, d’un genre, d’un type ou encore d’un style, ou participant de la textualisation. Ces unités, dont la récurrence montre le rôle dans la configuration des discours, sont en grandes parties identifiées par des outils informatiques et des méthodes statistiques, si bien que l’on peut considérer qu’elles participent d’une stylométrie ou d’une textométrie.

Selon les études menées, plusieurs unités sont considérées dans cette opération:

  • Les jets textuels, qui sont des séquences spontanées de production écrite. Ces séquences prennent parfois la forme de structures régulières qui semblent préconiser l’architecture du texte finalisé. Au niveau de la forme comme au niveau du contenu, les jets textuels sont mesurés aux segments répétés, afin de rendre compte de la part des routines dans le processus de production et du degré d’adaptation du discours.
  • Les motifs, qui constituent des schémas lexico-grammaticaux caractéristiques.
  • Les co-occurrences de lexèmes formant des thématiques, dégagés par des techniques comme le "topic modelling".

Certaines de ces unités comme les motifs et les co-occurrences sont caractérisées du point de vue de leur évolution dans un texte (ou corpus de textes), ainsi que du point de vue de leur topologie. Plusieurs études sont ainsi entreprises:

  • L’analyse des motifs en littérature. Dans une perspective stylistique et sémantique, le projet ANR franco-allemande Phaseorom a pour objectif d’élaborer, dans une démarche inductive corpus-driven, une typologie structurelle et fonctionnelle des constructions lexico-syntaxiques spécifiques (CLS) au discours romanesque francophone, anglophone et germanophone du XX e siècle.
  • L’analyse des corpus du Clesthia Ecriscol (ANR Ecriscol), CFPP2000 et Écritures pour dégager les schémas lexico-grammaticaux les plus caractéristiques. Ces corpus constituent de véritables défis pour l’analyse en raison de leur nature: discours oral (CFPP2000), production d’écrits scolaires (Ecriscol) et écriture en temps réel de rapports éducatifs de la protection de l’enfance.
  • Une analyse de l’évolution de l’idiolecte à partir de corpus longitudinaux. Ce type d’analyse pose des problèmes d’ordre méthodologique (comment mesurer statistiquement l’évolution dans le temps des formes linguistiques); des méthodes non-supervisées de classification de textes sont utilisées. 
  • L’analyse d’un corpus de romans policiers contemporains constitué d’une part de traductions de romans états-uniens (anglais-français) et d’autre part, de romans policiers français, visant à déterminer l’éventuelle existence de traits stylistiques et syntaxiques distincts pouvant conduire à la caractérisation d’une "langue de traduction" propre à ce genre littéraire.
  • Un corpus de traduction de l'anglais vers le français a été enregistré en temps réel à l'université de Montréal (19 sessions/participants). L'analyse des jets textuels produits dans ce corpus vise, d'une part, à établir l'existence d'éventuels "prêt-à-traduire", d'autre part à vérifier l'impact potentiel des constructions de la langue-source sur les constructions de la langue-cible, aux niveaux lexical et syntaxique. (Partenaires: Thierry Olive (Poitiers), Sylvie Vandaele (Montreal)).

Ces unités sont pour beaucoup d’entre elles relativement nouvelles dans le champ de la réflexion des sciences du langage; elles intéressent autant la théorisation linguistique que les disciplines du texte telles que l’analyse du discours, la grammaire des genres, la linguistique textuelle, la sémantique discursive, la stylistique, l’herméneutique littéraire et les humanités numériques.
 

Livrables

  • Journée scientifique: "Corpus et textométrie: applications à la traductologie".


Publications

  • Legallois D., Charnois Th. et Larjavaara M. (à par.) Grammar of genres and styles: new approaches, Mouton de Gruyter.
  • Cislaru G., Olive, Th., à paraître, Le processus de textualisation, De Boeck.

 

Collaboration

Réseau "Motif":

La notion de motifs est au cœur des recherches en stylistique (notamment littéraire), en linguistique de corpus et TAL, et plus largement en humanités numériques. Bien que conceptuellement simple, le motif constitue un défi technique redoutable et demande des méthodologies interprétatives développées, car les méthodes actuelles génèrent énormément de résultats non exploitables. Autour de ces problématiques, s’est constitué un réseau international de chercheurs (Liège, Grenoble, Paris 3, 5, 6 et 13, Montpellier, Würzburg, Cracovie, Åbo Akademi) en vue de partager les expériences et de définir des objectifs. La demande d’un projet européen COST est en cours de rédaction. Une demande de reconnaissance est en cours d’expertise à l’Université Sorbonne-Nouvelle Paris 3. 
 

Constitution de corpus

Numérisation des lettres des lecteurs d'Eugène Sue (approximativement 400 lettres), afin d’étudier la littéracie populaire au 19e siècle.
 

Réalisation

i-Trameur

Le projet vise à mettre en œuvre une plateforme web sur la base des opérations suivantes: collecteur de corpus, outils et visualisations lexicométriques (trameur) dans une extension de navigateur, lemmatiseurs étiqueteurs, parseurs pour plusieurs langues, importation et exportation des données textuelles de différents formats, requêtes, filtrage, corrections globales et locales, tableaux de fréquences, de spécificités, des collocations, intégration d'outils d'apprentissage automatique, extension d'une annotation à de nouveaux corpus, étiquetage, dépendance.

http://www.tal.univ-paris3.fr/trameur/iTrameur/
 

Équipe: G. Cislaru, I. Collombat, D. Legallois, S. Fleury (membres); E. Ostapenko, S. Graf, A. Said (doctorants)


mise à jour le 28 janvier 2018