Université Sorbonne Nouvelle - Paris 3

☰

ANR - Ecritures

Corpus du Projet

Le corpus Brouillons ADGB2008 (version électronique)

Le corpus de brouillons a été recueilli auprès de nos partenaires du S.A.F.E. de Caen. Nous les remercions pour leur participation et pour l'accès au corpus. Les textes sur lesquelles nous travaillons ont été anonymés. Compte tenu de la nature du corpus et de sa sensibilité sociale, celui-ci n'est pas en accès libre. Si vous êtes intéressés par les données ci-dessous, vous pouvez contacter georgeta.cislaru@univ-paris3.fr et serge.fleury@univ-paris3.fr.

Présentation du corpus

Disponible sur la page : http://syled.univ-paris3.fr/projet_innovant/ADGB2008/wip.html

Explorations du corpus (version 1)

Chaque dossier est constitué par les différents états de production du rapport visé.

Dossier n°1 : 24 états de fichier

Alignement des 24 états : V1, V2
Chronologie de la variation sur les 24 états : V1, V2
Chronologie des Segments répétés : rapport produit par le Trameur sur le corpus constitué par les 24 états
Chronologie de la variation des Segments répétés : V1

Dossier n°2 : 12 états de fichier

Alignement des 12 fichiers états : V1, V2
Chronologie de la variation sur les 12 états : V1, V2
Chronologie des Segments répétés : rapport produit par le Trameur sur le corpus constitué par les 12 états
Chronologie de la variation des Segments répétés : V1

Dossier n°3 : 16 états de fichier

Alignement des 16 états : V1
Chronologie de la variation sur les 16 états : V1
Chronologie des Segments répétés : rapport produit par le Trameur sur le corpus constitué par les 16 états
Chronologie de la variation des Segments répétés : V1

Explorations du corpus (version 2)

Dossier n°1 (echeance-bilan) : 6 états de fichier

Alignement des 6 états : V1
Chronologie de la variation sur les 6 états : V1

Dossier n°1 (plan-synthèse) : 30 états de fichier

Alignement des 30 états : V1
Chronologie de la variation sur les 30 états : V1

Dossier n°2 (plan-synthèse) : 41 états de fichier

Alignement de 13 des 41 états : V1
Chronologie de la variation sur 13 des 41 états : V1

Dossier n°3 : 10 états de fichier

Alignement des 10 états : V1
Chronologie de la variation sur les 10 états : V1

Alignement longitudinal pour l'étude génétique de brouillons

(voir la page du logiciel Allongos)

Présentation

Notre but est de produire automatiquement un alignement des différents états d’un même dossier, en prenant en compte les déplacements de mots. On impose la contrainte suivante : un mot doit nécessairement rester dans le même segment tout au long des différentes versions du dossier ; autrement dit on a la garantie que les déplacements sont confinés à l’intérieur d’un segment (pas de « chevauchement »). Dans ce but, nous somme parti d’un alignement au grain mot entre chaque couple d’états successifs d’un dossier. Un état est considéré dans son intégralité comme une unique chaîne de mots assimilée à une phrase. L’alignement et le repérage des déplacements est effectué à l’aide d’une implémentation de TER (Translation Error Rate). Les mots sont ensuite regroupés en segments en fonction de leur évolution sur l’ensemble des états. L'alignement produit fait une distinction nette entre segments constants et segments modifiés.

Pour chaque dossier, on dispose de 3 fichiers et de quatre sorties graphiques :

dossier.txt : le fichier texte au format Lexico/Trameur
dossier.tmx : alignement complet au format TMX (format compatible pour le Trameur)
dossier.html : alignement au format HTML avec affichage et comptage des opérations de réécriture
FIG1 : Le détail des opérations de réécriture : axe longitudinal (détail)
FIG2 : Le détail des opérations de réécriture : axe longitudinal (global)
FIG3 : le détail des opérations de réécriture : axe textuel (détail)
FIG4 : Le détail des opérations de réécriture : axe textuel (global)

Les alignements produits avec Allongos sont accessibles sur cette page.

Le corpus Inputlog

Dossier n°1 : 14 états de fichier

Alignement des 14 états + variation des états 2 à 2 : dossier-inputlog-1.xml
Chronologie de la variation sur les 14 états : dossier-inputlog-1

Dossier n°2 : 12 états de fichier

Alignement des 12 états + variation des états 2 à 2 : dossier-inputlog-2.xml
Chronologie de la variation sur les 12 états : dossier-inputlog-2

Le corpus Brouillons (version papier)

Présentation à venir.

mise à jour le 8 juin 2013