>> ECRISCOL >> Corpus

Corpus ECRISCOL


 1. CORPUS ECRISCOL

  • CORPUS TEST :  le lien précédent donne accès aux copies du CORPUS TEST du projet ECRISCOL.

Les données présentées ont été collectées en majorité par des membres du groupe de recherche Ecriture Scolaire du laboratoire Clesthia (Langue, Système, Discours) de la Sorbonne Nouvelle (EA 7345). La collecte a été effectuée dans des classes et, pour l’université, au cours de tests de début d’année. Les lieux de collecte sont situés en région parisienne et dans le sud-ouest de la France.

D’autres laboratoires ont contribué à la collecte EcriScol ou mis à disposition sur la plateforme des corpus collectés au préalable :

  • Laboratoire Agora de CY Cergy Paris université : textes de niveau CE1 primaire (2018-2020) et universitaire (2014-2016).
  • Laboratoire DySoLa (Dynamiques Sociales et Langagières, aujourd’hui Dylis Dynamiques du langage in situ) de l’université de Rouen : textes de 2016-17, niveaux CE2 et 6ème. Ces écrits ont été recueillis dans le cadre du projet Emergence de perspectives genrées dans des écrits d’enfants et d’adolescents financé par le GIS Institut du Genre en 2016. (cf présentation [PDF - 7 Mo])
  • Laboratoire EMA (Ecole, Mutations, Apprentissages) de CY Cergy Paris université : textes de 2014-15, niveaux CE2 et CM1.



Le corpus Ecriscol, dont la vocation première est de mettre à disposition les données recueillies par des membres de Clesthia, peut ainsi accueillir tout ensemble d'écrits d'élèves recueillis par des chercheurs extérieurs, à condition que ces écrits répondent aux normes fixées par le laboratoire.

Les données (les copies d'élèves) sont accessibles par niveau d'étude. Sous chaque niveau, on trouve des liens donnant à voir l'ensemble des devoirs d'une classe donnée (avec pour certains devoirs, différentes versions du même devoir). Chacune des copies est visible avec les différentes opérations de réécriture transcrites (et les corrections réalisées) et en regard du manuscrit original (avec la possibilité de zoomer sur ce manuscrit original).
 

On trouve aussi sur la page du CORPUS TEST des bases textométriques construites à partir des copies annotées et exploitables avec les logiciels Le Trameur et iTrameur.
 
Ce CORPUS TEST est accessible depuis fin 2016.

2. Règles pour la constitution d’un corpus d’écrits d’élèves

Le document suivant : Regles-constitution-corpus.pdf [PDF - 3 Mo] contient les règles retenues pour la constitution d'un corpus d'écrits d'élèves. Ce document sera mis à jour et enrichi régulièrement.

Le document suivant PROTOCOLE-complement-revu-nov-2016.pdf [PDF - 158 Ko] :  complète le précédent et précise le protocole mis en oeuvre pour la transcription et l'annotation des interventions des enseignants sur les copies.
 

3. Travaux en cours sur CORPUS ECRISCOL

4. Archives ECRISCOL


Cette archive donne accès à l'ensemble des ressources du projet ECRISCOL.

5. Métadonnées du corpus ECRISCOL

Le document METADONNEES-CORPUS-ECRISCOL [PDF - 10 Ko] contient un descriptif détaillé des méta-informations attachées au corpus.

6. EXPERIMENTATION n°1 : préparation des bases ECRISCOL pour le Trameur (archive)

Remarque préliminaire : cette partie présente une expérimention réalisée au tout début du projet. Les conventions de transcription et d'annotation qui sont présentées infra peuvent avoir évolué, de même que le processus final de construction du base textométrique (cf on se reportera au document de référence présenté en haut de cette page).



Cette section décrit le processus permettant de construire des bases textométriques pour Le Trameur à partir des données constituant le corpus ECRISCOL.

Pour illustrer ce processus, nous travaillerons avec une base nommée BASE ECRISCOL n°2.

Le processus permettant de construire cette base ECRISCOL prend en entrée ici 125 fichiers annotés (cf convention de transcription  et d’annotation) :


Pour visualiser : clic sur l'image

Les 125 fichiers ont tout d’abord été concaténés en un seul. Le fichier résultant est ensuite soumis à différentes procédures de nettoyage, formatage etc. Ces étapes sont faites essentiellement en utilisant des macros via l’éditeur EMACS.

Rappel :

Le nom d’un fichier dans la base ECRISCOL spécifie l’origine des écrits ; ce nom doit indiquer :

-le type d’établissement : école (EC), collègue (CO), lycée (LY), université (UN)

-le niveau de classe : CM2 / 6 / 2 / L1

-l’identifiant de la classe (une ou plusieurs lettres)

-le numéro du devoir en cas de plusieurs écrits provenant de la même classe

-le numéro de l’élève dans la classe

 S’il y a plusieurs versions du même texte (esquisse, brouillon, mise au net, etc.) on ajoute : V1 pour la première version, V2 pour la seconde etc. (s’il y a deux brouillons, on met V1 et V1bis pour faire en sorte que V2 soit toujours la version définitive).

3.1 Préparation de la base

 1.Insertion de balise de partie sous la forme suivante :


Pour visualiser : clic sur l'image

La chaîne de caractère entre guillemets correspond au nom du fichier initial.

2.       Transcodage des annotations

Certaines annotations sont réécrites dans un autre format pour faciliter leur intégration dans la base finale :

Annotation initiale

Transcodage de l’annotation

<rempli>_<remplis>

{rempli}_{remplis}

[s’a]

Idem pour toutes les ponctuations dans les annotations (espace, virgule, point etc.)

[s_APOS_a]

[je_suis_POINT]

®[était]//étaient//®

+R[était]-R-étaient+R

//faisant_route_sur_une_charette//

~~faisant_route_sur_une_charette~~

 

3.2 Base ECRISCOL n°2

La base finale a un format compatible avec celui d’une base textométrique importable dans le Trameur. Elle est composée de 4 couches d’annotation.

Dans le logiciel Le Trameur, les 4 couches d’annotation utilisées sont les suivantes :

  • Annotation n°1 : Forme 
  • Annotation n°2 : Lemme 
  • Annotation °3 : Catégorie 
  • Annotation n°4 : annot-4

La base ECRISCOL utilise ces 4 couches d’annotation de la manière suivante :

  • Annotation n°1 : forme initiale (avant correction éventuelle par exemple)
  • Annotation n°2 : soit le lemme construit via treetagger, soit l’opération de transformation réalisée sur la forme initiale
  • Annotation n°3 : catégorie construite par treetagger
  • Annotation n°4 : si la forme initiale est modifiée, cette annotation porte la forme finale (après correction par exemple), sinon elle porte la même valeur que l’annotation n°1


La base est un fichier au format XML : elle contient une description de la segmentation des textes en mot et pour chaque mot la liste de ses annotations. La figure suivante donne à voir un extrait de la base :


Pour visualiser : clic sur l'image

 

 

On présente ci-dessous 2 exemples illustrant la mise au jour des annotations dans le logiciel (une fois la base chargée) :

1. Le mot « moustache » est composé de 4 annotations « normales » : forme (initiale), lemme, catégorie, forme (finale=initiale)


Pour visualiser : clic sur l'image

2. Le mot « déja » est composé de 4 annotations dont certaines explicitent la transformation réalisée : forme initiale (erronée), transformation réalisée, catégorie, forme finale


Pour visualiser : clic sur l'image

 

3.2.1 Format des annotations dans le Trameur

 

Forme

Lemme

Annot-4

{forme_initiale}

{forme_initiale}_{forme_finale}

{forme_finale}

[suppression]

[suppression]

_

_

~~insertion~~

~~insertion~~

séquence_initiale

+Rséquence_initiale-R-séquence_finale+R

séquence_finale

 

Si les opérations précédentes sont réalisées par l’enseignant, on a les formats suivants :

Forme

Lemme

Annot-4

µ{forme_initiale}µ

µ{forme_initiale}_{forme_finale}µ

µ{forme_finale}µ

µ[suppression]µ

µ[suppression]µ

_

_

µ~~insertion~~µ

µ~~insertion~~µ

µséquence_initialeµ

µ+Rséquence_initiale-R-séquence_finale+Rµ

µséquence_finaleµ

 

ATTENTION : les formats ci-dessus pourraient  encore être modifiés pour adapter les formats de ces annotations avec les fonctionnalités du logiciel.

 

Les annotations n° 1 sont visibles dans le dictionnaire des formes du logiciel, extrait ci-dessous :


Pour visualiser : clic sur l'image

Les annotations n° 2 sont visibles dans le dictionnaire des lemmes du logiciel, extrait ci-dessous :


Pour visualiser : clic sur l'image

Les annotations n° 3 sont visibles dans le dictionnaire des catégories du logiciel, extrait ci-dessous :


Pour visualiser : clic sur l'image

Les annotations n° 4 sont visibles dans le dictionnaire des annotations du logiciel, extrait ci-dessous :


Pour visualiser : clic sur l'image

 

 

3.2.2 Les couches de texte de la base ECRISCOL

 

La base ECRISCOL peut être vue comme un « mille-feuille », elle concatène 4 couches d’annotation, chacun d’elle  constituant un flux textuel particulier :

Le Trameur permet de donner à voir cette « couche » textuelle dans ces différentes zones d’édition. L’annotation n°1 met au jour le texte dans sa version « initiale », ci-dessous une section :


Pour visualiser : clic sur l'image

Cette même zone de texte peut-être vue du point de vue de l’annotation n°4 (le texte final) :


Pour visualiser : clic sur l'image

Chaque mot de cette section donnant à voir en permanence les différences annotations qui lui sont associées :


Pour visualiser : clic sur l'image

 

Ci-dessous, même genre de contraste entre les couches textuelles d’une concordance : ci-dessous, la concordance de la forme {a}

Annotation n°1 : forme initiale


Pour visualiser : clic sur l'image

Annotation n°4 : forme finale


Pour visualiser : clic sur l'image

 





mise à jour le 16 novembre 2020


Â