Affordable Access

Reconnaissance automatique des émotions à partir du signal acoustique

Authors
Publisher
École de technologie supérieure
Publication Date
Disciplines
  • Musicology
  • Physics

Abstract

Nous nous intéressons à la détection automatique des appels problématiques dans un contexte réel de centres d'appels téléphoniques. Nous utilisons l'information sur l'état émotionnel du locuteur, véhiculée par le signal acoustique, pour détecter les problèmes de compréhension entre un locuteur et un système de dialogue humain-machine. Notre contribution se situe à deux niveaux. Au premier niveau, nous avons développé un système de reconnaissance automatique des émotions (RAE) basé sur les traits de type MFCC, avec la célérité et l'accélération, extraits au niveau d'une trame, analysés à l'échelle d'un énoncé, et modélisés par un mélange de gaussiennes. Nous avons optimisé les performances de ce système en ajustant trois types de paramètres : le nombre de mélanges de gaussiennes, l'utilisation de coefficients MFCC d'ordre supérieur (20 versus 13 coefficients) et l'utilisation d'un modèle du monde (UBM) pour l'entraînement des modèles GMM. Le système a été entraîné et testé pour reconnaître les classes des émotions du corpus de données LDC Emotional Prosody (LDC). D'après les résultats obtenus, nous avons apporté une amélioration de l'ordre de 11% par rapport aux meilleurs résultats de l'état de l'art utilisant le même corpus de données pour l'expérience neutre vs tristesse alors que nous avons reproduit les meilleures performances pour l'expérience neutre vs colère et pour rexpérience avec 15 classes d'émotions. Notre seconde contribution est l'expérimentation d'un nouveau modèle de système de RAE basé sur l'information prosodique à long terme obtenue par une approximation des courbes de l'énergie et de la fréquence fondamentale par des coefficients de polynômes de Legendre sur une échelle d'analyse appelée pseudosyllabe. Afin de mesurer l'efficacité de ce type de trait à long terme et de l'unité d'analyse, nous avons réalisé une comparaison de performance entre ce système et un système exploitant l'information prosodique à court terme (niveau de trame) sur l'échelle d'un énoncé. Les taux de reconnaissance obtenus avec"un système basé sur la pseudosyllabe et les coefficients de polynômes de Legendre et expérimenté avec le corpus LDC, sont nettement supérieurs à ceux d'un système basé sur Vénoncé et l'information à court terme. Le gain relatif réalisé est de l'ordre de 6% pour la reconnaissance des émotions neutre vs colère, tandis que ce gain est de l'ordre 91% pour neutre vs tristesse. Enfin, nous avons obtenu une amélioration de l'ordre de 41% pour la détection de 15 classes d'émotions.

There are no comments yet on this publication. Be the first to share your thoughts.