Clesthia >> CLESTHIA >> Projets et valorisation
Responsable: Dominique Legallois
Cette opération a pour objectif d’identifier et d’analyser les formes linguistiques non discrètes (c’est-à-dire qui se différencient des unités discrètes telles que les lexèmes ou les grammèmes) constituant des séquences caractéristiques d’un discours, d’un genre, d’un type ou encore d’un style, ou participant de la textualisation. Ces unités, dont la récurrence montre le rôle dans la configuration des discours, sont en grandes parties identifiées par des outils informatiques et des méthodes statistiques, si bien que l’on peut considérer qu’elles participent d’une stylométrie ou d’une textométrie.
Selon les études menées, plusieurs unités sont considérées dans cette opération:
Certaines de ces unités comme les motifs et les co-occurrences sont caractérisées du point de vue de leur évolution dans un texte (ou corpus de textes), ainsi que du point de vue de leur topologie. Plusieurs études sont ainsi entreprises:
Ces unités sont pour beaucoup d’entre elles relativement nouvelles dans le champ de la réflexion des sciences du langage; elles intéressent autant la théorisation linguistique que les disciplines du texte telles que l’analyse du discours, la grammaire des genres, la linguistique textuelle, la sémantique discursive, la stylistique, l’herméneutique littéraire et les humanités numériques.
Livrables
Publications
Collaboration
Réseau "Motif":
La notion de motifs est au cœur des recherches en stylistique (notamment littéraire), en linguistique de corpus et TAL, et plus largement en humanités numériques. Bien que conceptuellement simple, le motif constitue un défi technique redoutable et demande des méthodologies interprétatives développées, car les méthodes actuelles génèrent énormément de résultats non exploitables. Autour de ces problématiques, s’est constitué un réseau international de chercheurs (Liège, Grenoble, Paris 3, 5, 6 et 13, Montpellier, Würzburg, Cracovie, Åbo Akademi) en vue de partager les expériences et de définir des objectifs. La demande d’un projet européen COST est en cours de rédaction. Une demande de reconnaissance est en cours d’expertise à l’Université Sorbonne-Nouvelle Paris 3.
Constitution de corpus
Numérisation des lettres des lecteurs d'Eugène Sue (approximativement 400 lettres), afin d’étudier la littéracie populaire au 19e siècle.
Réalisation
i-Trameur
Le projet vise à mettre en œuvre une plateforme web sur la base des opérations suivantes: collecteur de corpus, outils et visualisations lexicométriques (trameur) dans une extension de navigateur, lemmatiseurs étiqueteurs, parseurs pour plusieurs langues, importation et exportation des données textuelles de différents formats, requêtes, filtrage, corrections globales et locales, tableaux de fréquences, de spécificités, des collocations, intégration d'outils d'apprentissage automatique, extension d'une annotation à de nouveaux corpus, étiquetage, dépendance.
http://www.tal.univ-paris3.fr/trameur/iTrameur/
Équipe: G. Cislaru, I. Collombat, D. Legallois, S. Fleury (membres); E. Ostapenko, S. Graf, A. Said (doctorants)
mise à jour le 20 janvier 2023