Université Sorbonne Nouvelle - Paris 3 - ANR - ARTSPEECH

☰

Accueil >> Recherche >> Projets de recherche

Projets terminés

ANR - ARTSPEECH - Synthèse Articulatoire Phonétique

Structure(s) de rattachement :: Projets ANR

Composition de l'équipe

M. Yves Laprie (Laboratoire Lorrain de Recherche en Informatique et ses applications - UMR 7503)

Présentation

L’objectif est de synthétiser de la parole à partir du texte en simulant numériquement le processus physique de production de la parole chez un humain, c’est-à-dire les aspects articulatoires, aérodynamiques et acoustiques.
Les approches à base de corpus ont pris une place hégémonique en synthèse de la parole. Elles exploitent des bases de données acoustiques de très bonne qualité tout en couvrant un grand nombre d’expressions et de contextes phonétiques, ce qui suffit à produire de la parole intelligible. Malgré cela, ces approches font face à des obstacles presque insurmontables dès qu’il faut modifier des paramètres intimement liés au processus physique de production de la parole. Au contraire, une approche reposant sur la simulation du processus de production fait explicitement appel aux paramètres de la source, à l’anatomie et la géométrie du conduit vocal, ainsi qu’à une stratégie de supervision temporelle. Elle offre donc un contrôle direct de la nature de la parole synthétique.

Ce projet s’organise en 5 tâches :

Simulations aérodynamiques et acoustiques afin de produire le signal acoustique de parole connaissant l’aire transverse en tout point de toutes les cavités du conduit vocal.
Source et scenarii de coordination afin de coordonner les sources avec l’évolution temporelle de la forme du conduit vocal, ce qui est crucial lors de la production des consonnes pour assurer leur identification par des auditeurs humains.
Contrôle de l’évolution temporelle de la géométrie du conduit vocal afin d’anticiper la production des sons à venir et produire des gestes articulatoires réalistes.
Acquisition de données de production de la parole indispensables pour connaître l’activation des plis vocaux, les paramètres aérodynamiques, et la forme géométrique du conduit vocal (grâce à l’IRM à cadence élevée).
Architecture générale pour intégrer les différents niveaux et synthétiser un signal acoustique à partir du texte.

Le développement de simulations réalistes des processus de production de la parole sera un atout absolument déterminant pour comprendre les contributions respectives des caractéristiques anatomiques, des capacités de coordination, et du contrôle des plis vocaux dans le signal de parole. La portée de ce projet va bien au-delà de la compréhension des processus de la production de la parole et concerne la phonétique, le contrôle moteur, et dans le domaine du traitement automatique de la parole la synthèse à partir du texte.
Les applications sont très étendues. Elles concernent les situations dans lesquelles la synthèse de la parole standard n’est pas bien adaptée comme c’est le cas pour l’apprentissage des langues étrangères ou l’acquisition du langage. Ce projet ouvre aussi de nouvelles perspectives dans le domaine de la synthèse de parole expressive avec des répercutions attendues dans le cadre des agents conversationnels. Dans le domaine médical les applications portent sur les algorithmes d’acquisition IRM à cadence élevée qui concernent les organes se déformant rapidement au cours du temps, et sur les pathologies de la production de la parole, ou l’impact des interventions chirurgicales sur les plis vocaux ou le conduit vocal.

Nous avons la conviction profonde que ArtSpeech réalisera des avancées scientifiques et techniques majeures et apportera ainsi la preuve de l’intérêt de l’approche physique qu’il s’agisse d’ouvrir de nouvelles perspectives de recherche, ou d’applications très innovantes dans le domaine de la production de la parole au sens large.

Le consortium est formé de quatre équipes de recherche remarquablement complémentaires avec des expériences théoriques et pratiques de premier plan international dans les domaines de :

La simulation aérodynamique et acoustique de la production de la parole et la modélisation de la source et de la géométrie du conduit vocal,
L’imagerie par résonance magnétique et les autres techniques d’acquisition de données de parole.

Partenariats

Gipsa-lab Grenoble Images Parole Signal Automatique - UMR 5216

IADI Imagerie Adaptative Diagnostique et Interventionelle - INSERM U947

LPP Laboratoire de phonétique et phonologie - UMR 7018

LORIA Laboratoire Lorrain de Recherche en Informatique et ses applications - UMR 7503

Informations complémentaires

Durée du projet : 42 mois
Date de fin : mars 2019

mise à jour le 9 avril 2021

ANR

Vos interlocuteurs

DiRVED - Ingénierie des projets de recherche, international