Affordable Access

Publisher Website

A robust speaker-independent isolated word HMM recognizer for operation over the telephone network

Authors
Publisher
Elsevier B.V.
Publication Date
Volume
13
Identifiers
DOI: 10.1016/0167-6393(93)90027-i
Keywords
  • Hmm
  • Automatic Speech Recognition
  • Speaker Independent
  • Telephone Services
  • Context-Dependent Modelling
  • Post-Processing

Abstract

Résumé Cet article présente les résultats d'un système de reconnaissance de mots isolés, indépendant du locuteur développé pour permettre l'accès à une base de données vocale australienne, à travers le réseau téléphonique commuté (RTC). Le Système de reconnaissance est basé sur une modélisation markovienne (HMM) utilisant des densités continues. La base de parole d'apprentissage a été enregistrée à travers le RTC par une large variété de locuteurs de régions différentes. Cette base comporte 55 mots: 41 noms de pays et leurs variantes de prononciation, plus quelques mots de commande. Les performances de reconnaissance, testées sur 100 locuteurs diférents (50 hommes et 50 femmes), sans grammaire, atteignent 97.3%. Cet article décrit la méthodologie d'apprentissage des HMMs qui comporte trois étapes: apprentissage des modèles à partir d'une segmentation manuelle, segmentation automatique des mots et ré-estimation. Pour faciliter l'implantation ultérieure du système de reconnaissance sur DS3, un algorithme de Viterbi rapide et trame-synchrome a été implémenté sans dégradation des performances. La détection bruit-parole est effectuée en associant un modèle silence/bruit aux modèles de mots. Pour les paires de mots pouvant être confondus, des modèles sub-lexicaux sont utilisés qui améliorent le taux de reconnaissance. Une approache par post-traitement est aussi utilisèe pour améliorer les performances: tous les candidats classés par le décodage de Viterbi sont soumis à des tests de durée minimale des mots et de différence statistique entre le premier et le deuxième candidat.

There are no comments yet on this publication. Be the first to share your thoughts.