Cette phase d'analyse est précédée d'une série de traitements pour organiser, préparer, formater les données traitées (cf. tâche 2). La tâche est organisée en deux volets : un volet se proposant de contraster les différentes versions des textes par la méthode des corpus alignés et un volet proposant une analyse textométrique corrélée aux hypothèses discursives (tâches 5-7).
La notion de corpus parallèle comme corpus comportant plusieurs volets qui correspondent chacun à une version d'un même texte (à l'origine, la méthode concernait des textes en deux ou plusieurs langues différentes) renvoie à des situations connues de coexistence de textes présentant des liens forts dans leur structuration. Le corpus parallèle des brouillons sera constitué des versions successives du même rapport éducatif (voir la tâche 1 pour le détail) ;
Le traitement de corpus parallèles suppose une phase préalable d'alignement, c'est-à-dire de mise en correspondance dans chacun des volets de différents types d'unités textuelles. Aligner des corpus de textes originaux et de leurs états rédactionnels successifs c'est mettre en relation des unités textuelles qui se correspondent. On pourra ainsi établir des correspondances entre des unités de différents niveaux : mots, syntagmes, phrases, paragraphes, sections, etc. Le traitement à l'aide de logiciels comme MkAlign ou Edite-Medite permettra d'identifier l'ensemble des différences entre les versions, en distinguant les opérations de réécriture : suppression, insertion, remplacement et déplacement (
http://tal.univ-paris3.fr/mkAlign/mkalign-variation/variation-royal-export.html). Une fois ces différences identifiées, il sera possible d'appliquer une méthode longitudinale, en faisant ressortir les évolutions des pratiques de réécriture au fil du processus de rédaction compris entre la première version et la dernière version du texte et enregistrant toutes les versions intermédiaires.