Amélioration des performances de l'Asr basé sur Hmm pour le codage vocal Gsm-efr

##plugins.themes.bootstrap3.article.main##

Lallouani Bouchakour
Mohamed Debyeche

Résumé

L'environnement du Système mondial pour mobile (GSM) comprend trois problèmes principaux pour les systèmes de reconnaissance automatique de la parole (ASR) : les scénarios bruyants, la distorsion du codage source et les erreurs de transmission. La deuxième, la distorsion du codage source, doit être explicitement abordée. Dans cet article, nous étudions différentes techniques d'extraction de caractéristiques pour le codage GSM EFR (Enhanced Full Rate) dans le but d'améliorer les performances de l'ASR dans le domaine GSM. Plus précisément, nous suggérons d’extraire les vecteurs de caractéristiques de reconnaissance directement du flux binaire de parole codé au lieu de le décoder et d’extraire ensuite les vecteurs de caractéristiques. L'expérience de reconnaissance indépendante du locuteur était basée sur le modèle de Markov caché continu (CHMM). Les performances de la technique de reconnaissance vocale proposée ont été évaluées à l'aide du transcodage ARADIGT avec sa version sous-échantillonnée à 8 kHz. Différentes expériences ont été réalisées afin d'explorer le calcul des caractéristiques directement à partir des paramètres codés GSM EFR et de mesurer la dégradation introduite par différents aspects du codeur. La base de données ARADIGIT, composée de 60 locuteurs (31 hommes et 29 femmes) prononçant les dix chiffres arabes, a été construite afin de mener les expériences nécessaires. En conséquence, les méthodes proposées ont atteint des performances plus élevées en termes de précision de reconnaissance, par rapport aux méthodes conventionnelles utilisant les coefficients cepstraux Mel-Fréquence MFCC. Cet article présente deux configurations utilisées pour extraire les paramètres de fonctionnalités pour la reconnaissance vocale sur les communications mobiles ; la technique basée sur la parole décodée et la technique basée sur le flux binaire

##plugins.themes.bootstrap3.article.details##

Comment citer
Bouchakour, L., & Debyeche, M. (2014). Amélioration des performances de l’Asr basé sur Hmm pour le codage vocal Gsm-efr. AL-Lisaniyyat, 20(1), 19-26. https://doi.org/10.61850/allj.v20i1.499
Rubrique
Articles

Références

[1] Honkanen, T.., Vainoi, J, Jarvinen, Haavisto, P., Salami, R, Laflamme, C. and Adoul, J-P., “Enhanced Full Rate speech code for is-136 digital cellular system,” IEEE. vol.2. pp.731 -734. 1997. [2] Jarvinen, K., Vainio, J, Kapanen, P.. Honkanen, T., Haavisto. P., Salami, R., Lajlamme, C. and Adoul J-P. “GSM En- hanced Full Rate speech codec.” IEEE, Pp771 - 774, 1997 [3] Salami, R, Laflamme, C., Bessette, B. and Adoul, J-P., “Description of GSM
25
26
Lallouani Bouchakour, Mohamed Debyeche.
[4]
[]
Enhanced Full Rate speech codec,” IEEE, Pp. 725- 729. 1997. ‘Antonio, M., Peinado, J. and Segura, C., “Speech recognition over digital channels John Wiley & Sons Ltd, vol. pp 7-29, 2006. Gemot A. Fink “Markov Models for Pat- tem Recognition.” Springer. vol. pp. 61- 92.2008. Zheng-Hua, T. and Lindberg, B, “Auto- matic speech recognition on mobile de- vices and over communication networks,” Springer, vol. pp 41-58, 2008. Sadaoki, F.. “Digital speech processing, synthesis and recognition ” Second Edi- tion, pp 243-328. 2001. Holmes, J. and Holmes, W., “Speech syn- thesis and recognition”, Taylor & Francis e-Library, Second Edition, vol. pp 161- 164, 2003. Fabregas, V., de Alencar, S. and Alcaim, A., “Transformations ofLPC and LSF pa- rameters to speech recognition features,” Springer, vol. pp. 522-528, 2005. [10] Hong, K. K., Seung, H. C. and Hwang S. L. “On Approximating Line Spectral Fre- quencies to LPC Cepstral Coefficients,” IEEE, vol.8, no.2, 2000. [11] Fabregas, V., de Alencar, S. and Alcaim, A… “On the Performance of ITU-T G.723.1 and AMR-NB Codecs for Large Vocabulary Distributed Speech Recogni- tion in Brazilian Portuguese,” IEEE, pp 693-697, 2009.

Articles les plus lus du même(s) auteurs(s)