Affordable Access

Modelos De Audición Y Análisis Tiempo –Frecuencia Para La Evaluación De Técnicas De Mejora De La Señal De Voz

Authors
Publisher
Mecánica Computacional
Publication Date

Abstract

En este trabajo se analiza un problema que presentan varias técnicas usuales de mejora de la señal de voz utilizadas cuando se dispone de un sólo micrófono con una relación señal/ruido (SNR) por debajo de los 5 dB y se desea aumentar la inteligibilidad como sucede en los sistemas portátiles compactos tales como audífonos y teléfonos celulares. Es práctica común que ellas accionen sobre la relación señal/ruido aun a costa de provocar distorsión de la señal e introducir un ruido residual. Pero la dificultad radica en que, si bien la SNR es una medida objetiva muy fácil de computar, ella refleja sobre todo, la calidad percibida pero no la inteligibilidad de la señal de voz. El problema de separar las nociones de calidad percibida e inteligibilidad es debida, en parte, a la imposibilidad de aislar y caracterizar aquellas cualidades de la señal de voz que son propias de cada una de ellas. Esta es la razón por la cual sobre todo cuando se quiere evaluar la inteligibilidad, se utilizan medidas subjetivas como el ¨diagnostic rhyme test¨ (DRT), basadas en la opinión de grupos de escuchas donde se presentan palabras que difieren sólo en la consonante principal. La desventaja de este tipo de test es que puede presentar un sesgo dependiente del oyente por lo que se han realizado esfuerzos para lograr establecer un protocolo de evaluación de calidad total para estos algoritmos de mejora. El principal escollo reside en la no uniformidad de la distorsión provocada por el ruido, tanto en tiempo como en frecuencia. Por esta razón, el objetivo aquí planteado es analizar la vinculación de la relación señal/ruido con algunas características de la señal de voz. La introducción de modelos que simulan la acción de la membrana basilar ha permitido reformular los algoritmos de mejora logrando con ello perfeccionar su desempeño, como así también desarrollar medidas objetivas de la calidad total que toman en cuenta las propiedades del sistema de audición periférico, incluyendo la percepción de sonoridad, banda de frecuencia y el fenómeno de enmascaramiento. En el presente trabajo se explota la no estacionariedad de la señal de voz analizando en el dominio tiempo-frecuencia como se modifican con la relación señal/ruido, algunos parámetros importantes sobre los distintos fonemas y en sus respectivas bandas de frecuencia, usando para ello la distancia de Jensen-Rényi generalizada y una versión adaptada de la distancia Itakura-Saito. Se observa que no siempre es posible establecer un ordenamiento que haga corresponder mayor valor de SNR con menor distancia entre sus representaciones tiempo-frecuencia sobre las distintas bandas de frecuencia. Esta situación se agudiza en las consonantes. Estos hechos pueden interpretarse como que la relación señal/ruido si bien da indicaciones globales respecto a las características de la señal limpia comparada con la señal ruidosa, no siempre refleja con precisión los efectos del ruido sobre las bandas críticas.

There are no comments yet on this publication. Be the first to share your thoughts.