L'objectif de cette tâche est triple :
1) Anonymiser le corpus (remplacer les noms de scripteurs, des lieux et des acteurs par des noms codés). Ce travail démarrera dès le mois 3, sur les deux livraisons de corpus que nous attendons entre février et avril 2010.
2) Préparer le corpus pour l'exploration textométrique en vérifiant que l'ensemble des documents respectent le même format (numérisation, normalisation en XML et TXT), en regroupant les versions en dossiers et donnant aux dossiers des noms à la fois informatifs (identification des rapports, identification codée des scripteurs pour d'éventuels sondages contrastifs, etc.) et économiques ; il s'agira donc d'élaborer un principe de dénomination répondant à ces exigences. Une étape importante consistera à créer un système de balisage permettant l'exploration textométrique. Ce travail s'effectuera à l'aide d'outils informatiques déjà existants (éditeur de texte Emacs) ou de scripts créés sur mesure. L'ensemble des processus mis en oeuvre pour ce travail sera présenté et documenté.
3) Etiqueter le corpus en vue du traitement automatique. Le corpus sera soumis au programme Le Trameur (
http://www.tal.univ-paris3.fr/trameur/) qui modélise le texte sous la forme d'une trame et d'un cadre et qui intègre un système d'étiquetage automatique des catégories grammaticales des mots avec lemmatisation (via treetagger). Cette étape permettra de générer des index de cooccurrents et de patrons syntaxiques mais aussi d'annoter le texte pour son traitement statistique. Trois niveaux d'annotation seront d'abord utilisés : forme, catégorie syntaxique, lemme (cf. Habert et alii 1997, Facchinetti 2007 & 2007 éd.). Un quatrième niveau, sémantique, pourra intervenir après une première analyse linguistique du corpus. La problématique de la pré-interprétation sera traitée avec la plus grande attention, en sachant que l'étiquetage d'un corpus et le choix des grilles textométriques sont déterminés par des classifications et analyses préalables.
Livrables : anonymisation, annotation, mise en forme, étiquetage.