Accueil >> Recherche >> Projets & Valorisation

Projet ANR

ANR - TEXTOMETRIE

Structure(s) de rattachement :
Projets ANR

Composition de l'équipe

Projet financé dans le cadre du programme ANR Corpus et outils de la recherche en sciences humaines et sociales édition 2006
Fédération des recherches et développements en textométrie autour de la création d'une plateforme logicielle ouverte

Coordinateur: Serge HEIDEN
Responsable Sorbonne nouvelle: André SALEM

Présentation

La textométrie a développé des techniques puissantes, originales et solidement fondées, pour l'analyse de grands corpus de textes. Ces techniques ont été mises à profit dans de nombreuses disciplines de sciences humaines, qui s'en sont servi pour élaborer des solutions efficaces pour explorer leurs données, qui se présentent désormais massivement sous forme de corpus numériques. Dans la dernière période sont nées de nouvelles approches plus respectueuses des particularités linguistiques et des sensibilités méthodologiques et herméneutiques propres à chaque discipline.

On dénombre actuellement trois logiciels académiques autour desquels se développent les traitements textométriques dans toute leur richesse : Hyperbase, Weblex, Lexico 3. Ces trois logiciels sont très largement en intersection et ont tous trois besoin d'une réactualisation. Plutôt que d'entreprendre une triple maintenance-actualisation extrêmement dispendieuse en moyens et en énergie, les concepteurs de ces trois logiciels préféraient unir leurs efforts autour d'une plateforme commune. Ce développement collaboratif, open-source et modulaire, apparait comme la solution scientifiquement la plus satisfaisante (par exemple pour évaluer/comparer des techniques, ou pour adapter les traitements aux singularités des données)  et techniquement la plus solide (la maintenance et les développements reposent sur une communauté et non plus sur une personne, selon une formule désormais obsolète).
La réalisation d'une telle plateforme suppose bien entendu un important travail de développement informatique. Mais cette étape fournira également l'occasion d'interroger les bases théoriques de la textométrie et des les adapter au contexte du développement actuel des corpus (XML, multilinguisme, enrichissement par traitement automatique des langues, etc.).
Sont pleinement impliqués dans le projet des utilisateurs experts, représentatifs de différentes disciplines des SHS. Ils apportent leur expérience tant au plan de la conception du nouvel outil, qu'au point de repères méthodologiques.



The textometric science has developped original, powerful, and theoretically well grounded technics for the analysis of large corpora. These tecnics are already useful in a large set of Social and Human Sciences: the data are now massively electronic corpora, and textometry provides means to explore textual data which respect the linguistic diversity of the data, and the specificity of the way of analysing and interpreting the texts in each discipline.
Textometry is fully implemented in three main academic softwares: Hyperbases, Weblex, and Lexico 3. These three softwares have a large overlap, and they all need the development of a new release. The goal of the project is then to work together to a common platform, in a collaborative frame. This platform will be open source and structured in a modular way. This both a scientific and a technical choice: the modularity makes it possible to directly compare elementary processes, and to compose profiled analyses; and the collaborative and open source development avoid the dependency to the one a few fellows.
This development of a new tool gives also the opportunity to reconsider the theoretical foundations of the textometric science and also to extend it to the new forms of corpora and of electronic edition: XML and Unicode encoding, NLP preprocessing, multilinguism,...). Thus the project strongly associates both a research and a development component.
Experts users from several SHS disciplines will take an active part in this project. They will contribute to the conception of the new tool, and they will validate the final release by evaluating it in real research contexts. They will also elaborate some methodological milestones.

Informations complémentaires

Durée du projet 3 ans (janv. 2007 - janv. 2010)

mise à jour le 12 septembre 2017