>> ECRISCOL >> Corpus

Corpus ECRISCOL

1. Règles pour la constitution d’un corpus d’écrits d’élèves

Le document suivant : Regles-constitution-corpus.pdf [PDF - 3 Mo] contient les règles retenues pour la constitution d'un corpus d'écrits d'élèves. Ce document sera mis à jour et enrichi régulièrement.

Le document suivant PROTOCOLE-complement-revu-nov-2016.pdf [PDF - 158 Ko] :  complète le précédent et précise le protocole mis en oeuvre pour la transcription et l'annotation des interventions des enseignants sur les copies.
 

2. Travaux en cours CORPUS ECRISCOL

3. CORPUS ECRISCOL

  • CORPUS TEST : visualisation "manuscrit versus volet TEI"
Le lien précédent donne accès aux copies du CORPUS TEST constitué de classes de CM2, d'autres classes de ce niveau seront intégrées progressivement. Ce corpus résulte des traitements présentés dans la partie précédente.

Chaque copie est présentée en affichant simultanément le manuscrit anonymisé et sa transcription au format TEI.

Cette page donne aussi accès à des bases textométriques construites à partir des copies annotées et exploitables avec les logiciels Le Trameur et iTrameur.
 
Ce corpus de TEST est accessible depuis fin 2016.


Le lien précédent donne accès à l'ensemble des données récoltées pour constituer le corpus TEST.

Chaque copie y est associée au manuscrit original, au fichier de transcription, au fichier d'annotation, au fichier TEI etc. Certaines métadonnées y sont aussi accessibles.

 

4. Archive ECRISCOL en ligne


Cette archive donne accès à l'ensemble des ressources du projet ECRISCOL.

5. Métadonnées du corpus ECRISCOL

Le document METADONNEES-CORPUS-ECRISCOL [PDF - 10 Ko] contient un descriptif détaillé des méta-informations attachées au corpus.

6. EXPERIMENTATION n°1 : préparation des bases ECRISCOL pour le Trameur

Remarque préliminaire : cette partie présente une expérimention réalisée au tout début du projet. Les conventions de transcription et d'annotation qui sont présentées infra peuvent avoir évolué, de même que le processus final de construction du base textométrique (cf on se reportera au document de référence présenté en haut de cette page).



Cette section décrit le processus permettant de construire des bases textométriques pour Le Trameur à partir des données constituant le corpus ECRISCOL.

Pour illustrer ce processus, nous travaillerons avec une base nommée BASE ECRISCOL n°2.

Le processus permettant de construire cette base ECRISCOL prend en entrée ici 125 fichiers annotés (cf convention de transcription  et d’annotation) :


Pour visualiser : clic sur l'image

Les 125 fichiers ont tout d’abord été concaténés en un seul. Le fichier résultant est ensuite soumis à différentes procédures de nettoyage, formatage etc. Ces étapes sont faites essentiellement en utilisant des macros via l’éditeur EMACS.

Rappel :

Le nom d’un fichier dans la base ECRISCOL spécifie l’origine des écrits ; ce nom doit indiquer :

-le type d’établissement : école (EC), collègue (CO), lycée (LY), université (UN)

-le niveau de classe : CM2 / 6 / 2 / L1

-l’identifiant de la classe (une ou plusieurs lettres)

-le numéro du devoir en cas de plusieurs écrits provenant de la même classe

-le numéro de l’élève dans la classe

 S’il y a plusieurs versions du même texte (esquisse, brouillon, mise au net, etc.) on ajoute : V1 pour la première version, V2 pour la seconde etc. (s’il y a deux brouillons, on met V1 et V1bis pour faire en sorte que V2 soit toujours la version définitive).

3.1 Préparation de la base

 1.Insertion de balise de partie sous la forme suivante :


Pour visualiser : clic sur l'image

La chaîne de caractère entre guillemets correspond au nom du fichier initial.

2.       Transcodage des annotations

Certaines annotations sont réécrites dans un autre format pour faciliter leur intégration dans la base finale :

Annotation initiale

Transcodage de l’annotation

<rempli>_<remplis>

{rempli}_{remplis}

[s’a]

Idem pour toutes les ponctuations dans les annotations (espace, virgule, point etc.)

[s_APOS_a]

[je_suis_POINT]

®[était]//étaient//®

+R[était]-R-étaient+R

//faisant_route_sur_une_charette//

~~faisant_route_sur_une_charette~~

 

3.2 Base ECRISCOL n°2

La base finale a un format compatible avec celui d’une base textométrique importable dans le Trameur. Elle est composée de 4 couches d’annotation.

Dans le logiciel Le Trameur, les 4 couches d’annotation utilisées sont les suivantes :

  • Annotation n°1 : Forme 
  • Annotation n°2 : Lemme 
  • Annotation °3 : Catégorie 
  • Annotation n°4 : annot-4

La base ECRISCOL utilise ces 4 couches d’annotation de la manière suivante :

  • Annotation n°1 : forme initiale (avant correction éventuelle par exemple)
  • Annotation n°2 : soit le lemme construit via treetagger, soit l’opération de transformation réalisée sur la forme initiale
  • Annotation n°3 : catégorie construite par treetagger
  • Annotation n°4 : si la forme initiale est modifiée, cette annotation porte la forme finale (après correction par exemple), sinon elle porte la même valeur que l’annotation n°1


La base est un fichier au format XML : elle contient une description de la segmentation des textes en mot et pour chaque mot la liste de ses annotations. La figure suivante donne à voir un extrait de la base :


Pour visualiser : clic sur l'image

 

 

On présente ci-dessous 2 exemples illustrant la mise au jour des annotations dans le logiciel (une fois la base chargée) :

1. Le mot « moustache » est composé de 4 annotations « normales » : forme (initiale), lemme, catégorie, forme (finale=initiale)


Pour visualiser : clic sur l'image

2. Le mot « déja » est composé de 4 annotations dont certaines explicitent la transformation réalisée : forme initiale (erronée), transformation réalisée, catégorie, forme finale


Pour visualiser : clic sur l'image

 

3.2.1 Format des annotations dans le Trameur

 

Forme

Lemme

Annot-4

{forme_initiale}

{forme_initiale}_{forme_finale}

{forme_finale}

[suppression]

[suppression]

_

_

~~insertion~~

~~insertion~~

séquence_initiale

+Rséquence_initiale-R-séquence_finale+R

séquence_finale

 

Si les opérations précédentes sont réalisées par l’enseignant, on a les formats suivants :

Forme

Lemme

Annot-4

µ{forme_initiale}µ

µ{forme_initiale}_{forme_finale}µ

µ{forme_finale}µ

µ[suppression]µ

µ[suppression]µ

_

_

µ~~insertion~~µ

µ~~insertion~~µ

µséquence_initialeµ

µ+Rséquence_initiale-R-séquence_finale+Rµ

µséquence_finaleµ

 

ATTENTION : les formats ci-dessus pourraient  encore être modifiés pour adapter les formats de ces annotations avec les fonctionnalités du logiciel.

 

Les annotations n° 1 sont visibles dans le dictionnaire des formes du logiciel, extrait ci-dessous :


Pour visualiser : clic sur l'image

Les annotations n° 2 sont visibles dans le dictionnaire des lemmes du logiciel, extrait ci-dessous :


Pour visualiser : clic sur l'image

Les annotations n° 3 sont visibles dans le dictionnaire des catégories du logiciel, extrait ci-dessous :


Pour visualiser : clic sur l'image

Les annotations n° 4 sont visibles dans le dictionnaire des annotations du logiciel, extrait ci-dessous :


Pour visualiser : clic sur l'image

 

 

3.2.2 Les couches de texte de la base ECRISCOL

 

La base ECRISCOL peut être vue comme un « mille-feuille », elle concatène 4 couches d’annotation, chacun d’elle  constituant un flux textuel particulier :

Le Trameur permet de donner à voir cette « couche » textuelle dans ces différentes zones d’édition. L’annotation n°1 met au jour le texte dans sa version « initiale », ci-dessous une section :


Pour visualiser : clic sur l'image

Cette même zone de texte peut-être vue du point de vue de l’annotation n°4 (le texte final) :


Pour visualiser : clic sur l'image

Chaque mot de cette section donnant à voir en permanence les différences annotations qui lui sont associées :


Pour visualiser : clic sur l'image

 

Ci-dessous, même genre de contraste entre les couches textuelles d’une concordance : ci-dessous, la concordance de la forme {a}

Annotation n°1 : forme initiale


Pour visualiser : clic sur l'image

Annotation n°4 : forme finale


Pour visualiser : clic sur l'image

 




mise à jour le 15 octobre 2017