ED 625 >> Formation doctorale >> Offre de la formation doctorale de l'ED MAGIIE
Ce séminaire a pour objectif de rendre les doctorant·e·s autonomes en leur donnant les moyens de constituer leurs propres outils pour l’exploration des corpus de textes et la quantification de leurs données dans un seul et même environnement de programmation : R.
Le cours se décompose en deux parties. Après une présentation des objectifs de la linguistique de corpus et une brève typologie des corpus, la première partie aborde successivement :
- les bases de la programmation en R,
- la manipulation des chaînes de caractères,
- l’élaboration d’outils d’exploration de corpus,
- la constitution de jeux de données tabulées,
- la quantification sommaire des données ainsi que leur visualisation.
La seconde partie est consacrée au traitement statistique des données linguistiques. Sont abordés les points suivants :
- les statistiques descriptives,
- les tests statistiques,
- les mesures d’association et les réseaux lexicaux,
- les méthodes dites de clustering et leurs visualisations,
- les modèles de sémantique distributionnelle
Ce séminaire se destine aux doctorants en sciences humaines (histoire, philosophie, sociologie, linguistique, etc.) dont les recherches s’appuient sur des sources textuelles.
Bibliographie
Desagulier, Guillaume (2017). Corpus Linguistics and Statistics with R. Introduction to Quantitative Methods in Linguistics. Springer.
9 et 23 février 2022
9 et 23 mars
6 et 20 avril en salle Claude Simon
18 mai en visioconférence
de 9h30 à 12h30
salle Mezzanine
Maison de la Recherche 4, rue des Irlandais 75005 Paris
en présentiel sauf indication du formateur
mise à jour le 13 avril 2022