ANR - Ecritures >> ANR - Ecritures
Le corpus de brouillons a été recueilli auprès de nos partenaires du S.A.F.E. de Caen. Nous les remercions pour leur participation et pour l'accès au corpus. Les textes sur lesquelles nous travaillons ont été anonymés. Compte tenu de la nature du corpus et de sa sensibilité sociale, celui-ci n'est pas en accès libre. Si vous êtes intéressés par les données ci-dessous, vous pouvez contacter georgeta.cislaru@univ-paris3.fr et serge.fleury@univ-paris3.fr.
Disponible sur la page : http://syled.univ-paris3.fr/projet_innovant/ADGB2008/wip.html
Dossier n°1 : 24 états de fichier
Dossier n°2 : 12 états de fichier
Dossier n°3 : 16 états de fichier
Dossier n°1 (echeance-bilan) : 6 états de fichier
Dossier n°1 (plan-synthèse) : 30 états de fichier
Dossier n°2 (plan-synthèse) : 41 états de fichier
Dossier n°3 : 10 états de fichier
Notre but est de produire automatiquement un alignement des différents états d’un même dossier, en prenant en compte les déplacements de mots. On impose la contrainte suivante : un mot doit nécessairement rester dans le même segment tout au long des différentes versions du dossier ; autrement dit on a la garantie que les déplacements sont confinés à l’intérieur d’un segment (pas de « chevauchement »). Dans ce but, nous somme parti d’un alignement au grain mot entre chaque couple d’états successifs d’un dossier. Un état est considéré dans son intégralité comme une unique chaîne de mots assimilée à une phrase. L’alignement et le repérage des déplacements est effectué à l’aide d’une implémentation de TER (Translation Error Rate). Les mots sont ensuite regroupés en segments en fonction de leur évolution sur l’ensemble des états. L'alignement produit fait une distinction nette entre segments constants et segments modifiés.
Pour chaque dossier, on dispose de 3 fichiers et de quatre sorties graphiques :
Les alignements produits avec Allongos sont accessibles sur cette page.
Dossier n°1 : 14 états de fichier
Dossier n°2 : 12 états de fichier
mise à jour le 8 juin 2013