Accueil >> Vous êtes >> Personnels de l'Université
Enseignant et/ou chercheur
L'objectif principal de la textométrie (cf "Qu'est-ce que la textométrie ?") est de compter des éléments (des contenus textuels) dans des ensembles (des contenants regroupant des unités élémentaires d'un texte ou des zones de texte couvrant un certain nombre ou un certain type d'unités élémentaires). Les contenus se réalisent sous la forme de ressources textuelles (une séquence de caractères organisée en phrases, en paragraphes etc.). Les contenants existent sous la forme de système de masques ou de calques que l'on peut définir sur les contenus. Il s'agit de systèmes d'annotations que l'on peut définir sur tout ou partie des zones textuelles, ces annotations constituant en retour des accès sur les parties textuelles qu'elles définissent (le marquage des phrases ou des paragraphes étant un exemple d'annotation particulier pour décrire un certain niveau de la structure du texte). Le processus de comptage nécessite au préalable d'identifier les contenus et les contenants. Ce préalable consiste à expliciter une segmentation du texte conduisant à la mise au jour d'une trame sur laquelle des annotations pourront se greffer ultérieurement. A partir d'un texte segmenté, la numérotation des items découpés dans le texte de départ permet de constituer un système de coordonnées sur le texte dans lequel chaque item est repéré par son numéro d'ordre. Nous appelons ce système de coordonnées sur la séquence textuelle : la Trame textométrique. Ce même système de coordonnées permet de définir et de localiser, au sein du corpus, des zones textuelles (zones formées par une suite d'items consécutifs, entre la position x1 la position x2, réunion d'un certain nombre de zones de ce type, etc.). La définition d'une trame textométrique sur un corpus de textes permet de décrire les systèmes de zones qui correspondent aux contenants de l'analyse textométrique (parties, paragraphes, phrases, sections, chapitres etc.). On peut rassembler les descriptions relatives aux systèmes de contenants dans une structure de données particulière le Cadre textométrique. Nous appelons trameur l'outil informatique qui permet de construire une ressource textométrique trame/cadre, à partir d'une ensemble de textes rassemblés en corpus, selon les principes définis plus haut. La partie trame de la ressource textuelle produite par le trameur est constituée par la suite des items isolés lors de l'opération de segmentation. La partie cadre rassemble les données relatives aux différents découpages réalisés sur le corpus ainsi que les annotations déjà projetées sur les contenants ou les contenus constitués lors des étapes précédentes. La transmission d'une ressource textuelle constituée sous la forme trame/cadre constitue une solution suffisante pour servir de base à toute exploration textométrique ultérieure.
([Söze-Duval, 2008], Keyser Söze-Duval. Pour une textométrie opérationnelle. (DOC))
La notion de corpus parallèle, qui émerge actuellement dans les travaux de différents chercheurs comme : corpus comportant plusieurs volets qui correspondent chacun à une version d'un même texte dans deux ou plusieurs langues différentes, renvoie à des situations connues de coexistence de textes présentant des liens forts dans leur structuration. Le traitement de corpus parallèles suppose une phase préalable d'alignement , c'est-à-dire de mise en correspondance dans chacun des volets de différents types d'unités textuelles [Zimina, 2004]. Aligner des corpus de textes originaux et de leurs traductions c'est mettre en relation des unités textuelles qui se correspondent. On peut établir des correspondances entre des unités de différents niveaux : mots, syntagmes, phrases, paragraphes, sections, etc. Le programme mkAlign permet de construire, corriger et visualiser un alignement de deux textes via un éditeur à double entrée. Il permet d'afficher simultanément les textes source et cible pour y rajouter ou corriger des segments équivalents. Ce programme n'est pas (seulement) un aligneur automatique. Il est conçu pour aider l'utilisateur dans la création, l'alignement, la correction et la validation de textes traduits. L'utilisateur garde la maîtrise sur l'ensemble de ces processus, depuis la mise en correspondance initiale des segments équivalents jusqu'à l'export final du bi-texte produit. Il appartient à l'utilisateur de construire l'alignement et de définir son degré de précision (résolution). Cette résolution peut varier pour mettre en évidence les correspondances entre les segments textuels des différents niveaux. La notion de sauvegarde de session de travail (création de fichiers d'export/import de bi-textes au format xml et html) permet de commencer le travail sur un corpus à deux volets textuels, l'exporter au format désiré, puis le réimporter plus tard pour y apporter des modifications. La visualisation de l'alignement dans une représentation cartographique (bi-text map) offre plusieurs possibilités de gestion de corpus qui partagent des similitudes au plan traductionnel.
mise à jour le 1 mars 2011