Université Sorbonne Nouvelle - Paris 3

☰

ANR - Ecritures

ANR - Ecritures >> ANR - Ecritures >> Tâches

TACHE 3

Cette phase d'analyse est précédée d'une série de traitements pour organiser, préparer, formater les données traitées (cf. tâche 2). La tâche est organisée en deux volets : un volet se proposant de contraster les différentes versions des textes par la méthode des corpus alignés et un volet proposant une analyse textométrique corrélée aux hypothèses discursives (tâches 5-7).

La notion de corpus parallèle comme corpus comportant plusieurs volets qui correspondent chacun à une version d'un même texte (à l'origine, la méthode concernait des textes en deux ou plusieurs langues différentes) renvoie à des situations connues de coexistence de textes présentant des liens forts dans leur structuration. Le corpus parallèle des brouillons sera constitué des versions successives du même rapport éducatif (voir la tâche 1 pour le détail) ;

Le traitement de corpus parallèles suppose une phase préalable d'alignement, c'est-à-dire de mise en correspondance dans chacun des volets de différents types d'unités textuelles. Aligner des corpus de textes originaux et de leurs états rédactionnels successifs c'est mettre en relation des unités textuelles qui se correspondent. On pourra ainsi établir des correspondances entre des unités de différents niveaux : mots, syntagmes, phrases, paragraphes, sections, etc. Le traitement à l'aide de logiciels comme MkAlign ou Edite-Medite permettra d'identifier l'ensemble des différences entre les versions, en distinguant les opérations de réécriture : suppression, insertion, remplacement et déplacement (http://tal.univ-paris3.fr/mkAlign/mkalign-variation/variation-royal-export.html). Une fois ces différences identifiées, il sera possible d'appliquer une méthode longitudinale, en faisant ressortir les évolutions des pratiques de réécriture au fil du processus de rédaction compris entre la première version et la dernière version du texte et enregistrant toutes les versions intermédiaires.

L'approche longitudinale s'appliquera à deux catégories d'observables :
1) les opérations de réécriture et leur répartition dans les différentes versions du texte ;
2) les unités linguistiques concernées par ces opérations (ces observables seront identifiables grâce à l'étiquetage opéré dans le cadre de la tâche 2).

Grâce à la première catégorie d'observables, on déterminera si les proportions des opérations utilisées évoluent entre le début et la fin du processus ; ce résultat présente, il nous semble, un intérêt cognitivo-linguistique indéniable. La deuxième catégorie d'observables nous permettra de vérifier un certain nombre d'hypothèses quant à la configuration et à l'évolution d'un texte, comme, par exemple, la dominance de la visée référentielle en début de processus et de la visée argumentative en fin de processus ; par exemple, des opérations portant principalement sur la dénomination relèvent plutôt de la visée référentielle tandis que les opérations portant principalement sur les connecteurs ou les adjectifs évaluatifs relèvent plutôt de la visée argumentative (ces hypothèses seront affinées et corrigées au fil de l'étude). Le post-doctorant recruté sera chargé d'une partie de ce travail d'analyse et de développement de la méthode longitudinale, en collaboration avec Serge Fleury.

Le volet d'analyse textométrique sera corrélé au développement des tâches 5-7 et proposera des analyses par sections (différentes rubriques des rapports, par exemple) d'après les principes méthodologiques exposés plus haut.

Livrables : alignement du corpus ; une analyse textométrique longitudinale détaillée ; une méthode et des outils adaptés pour l'analyse longitudinale de brouillons alignés (méthode applicable à d'autres types de corpus) ; un article dans une revue internationale.

mise à jour le 6 octobre 2011