Analyse de l'impact de la parole synthétique sur l'identification de la langue parlée

##plugins.themes.bootstrap3.article.main##

Khaled lounnas
Abderrahmane Gamgani
Imad Feth-Ennour Aliane

Résumé

Cette recherche examine l'impact de la parole synthétique sur les performances des systèmes d'identification des langues parlées en analysant différents types de caractéristiques (acoustiques, temporelles et rythmiques) à travers plusieurs architectures d'apprentissage automatique et profond. Nous avons utilisé les réseaux de Perceptron Multicouche (MLP), les Machines à Vecteurs de Support (SVM) et les réseaux Long Short-Term Memory (LSTM) pour évaluer l'identification des langues à partir de trois scénarios distincts : la parole naturelle, la parole synthétique et un mélange des deux. En outre, nous avons exploré si l'intégration de tous les types de caractéristiques pourrait améliorer les performances du système. Les résultats ont révélé que le spectrogramme de Mel était systématiquement la caractéristique la plus efficace pour tous les modèles testés, avec les MLP et LSTM obtenant les meilleurs résultats globaux. En effet, le spectrogramme de Mel a atteint un taux d'exactitude remarquable de 100 %, se positionnant comme la caractéristique la plus performante. De même, les coefficients cepstraux en fréquences de Mel (MFCC) ont également atteint une précision de 100 % dans le scénario de la parole synthétique, confirmant leur efficacité en tant que deuxième meilleure caractéristique. Il est intéressant de noter que la combinaison de toutes les caractéristiques n'a pas toujours amélioré les performances, soulignant l'importance d'une sélection stratégique des caractéristiques. L'étude a également abordé des défis tels que la variabilité des enregistrements de parole naturelle et les déséquilibres dans la distribution des ensembles de données, mettant en avant la nécessité de méthodes robustes d'augmentation des données. En éclairant les interactions entre les types de caractéristiques, les architectures de modèles et les sources de données vocales, cette recherche contribue au développement de systèmes d'identification des langues parlées plus précis et plus résilients.

##plugins.themes.bootstrap3.article.details##

Comment citer
lounnas, K., Gamgani, A., & Aliane, I. F.-E. (2024). Analyse de l’impact de la parole synthétique sur l’identification de la langue parlée. AL-Lisaniyyat, 30(2), 53-72. Consulté à l’adresse https://crstdla.dz/ojs/index.php/allj/article/view/730
Rubrique
Articles

Références

Ambili, A.R. & Roy, R. C. (2023). The Effect of Synthetic Voice Data Augmentation on Spoken Language Identification on Indian Languages. IEEE Access.
Alashban, A.A. et al. (2022). Spoken language identification system using convolutional recurrent neural network. Applied Sciences, 12(18), 9181.
Alshutayri, A. & Albarhamtoshy, H. (2011). Arabic spoken language identification system (ASLIS): A proposed system to identifying modern standard Arabic (MSA) and Egyptian dialect. IInformatics Engineering and Information Science: International Conference, ICIEIS 2011, Kuala Lumpur, Malaysia, November 14-16, 2011. Proceedings, Part II, pp.375-385. Springer Berlin Heidelberg.
Biswas, M., et al. (2023). Automatic spoken language identification using MFCC based time series features. Multimedia Tools and Applications, 82(7), 9565-9595.
Duffy, S.A. & Pisoni, D.B. (1992). Comprehension of synthetic speech produced by rule: review and theoretical interpretation. Language and Speech, 35(4), 351-389.
Ganapathy, S. et al. (2014). Robust language identification using convolutional neural network features, Interspeech, pp. 1846-1850.
Gelly, G. & Gauvain, J.L. (2017). Spoken Language Identification Using LSTM-Based Angular Proximity. Interspeech, pp. 2566-2570.
Jothilakshmi, S., Ramalingam, V. & Palanivel, S. (2012). A hierarchical language identification system for Indian languages. Digital Signal Processing, 22(3), 544-553.
Kumar, P. et al. (2010). Spoken language identification using hybrid feature extraction methods. arXiv preprint arXiv:1003.5623.
Kumar, S. S. & Ramasubramanian, V. (2005). Automatic language identification using ergodic-HMM. In Proceedings. (ICASSP’05), IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005. (Vol. 1, pp. I-609).
Maguolo, G. et al. (2021). Audiogmenter: a MATLAB toolbox for audio data augmentation. Applied Computing and Informatics.
Manchala, S. et al. (2014). GMM based language identification system using robust features. International Journal of Speech Technology, 17, 99-105.
Mc Fee, B. et al. (2015). librosa: Audio and music signal analysis in python. In SciPy, pp. 18-24.
Sarmah, K. & Bhattacharjee, U. (2014). GMM based Language Identification using MFCC and SDC Features. International Journal of Computer Applications, 85(5).
Sefara, T.J. et al. (2019). HMM-based speech synthesis system incorporated with language identification for low-resourced languages. In 2019 International Conference on Advances in Big Data, Computing and Data Communication Systems (icABCD), pp. 1-6.
Singh, G. et al. (2021). Spoken language identification using deep learning. Computational Intelligence and Neuroscience, 2021(1), 5123671.
Wazir, A.S.B., et al. (2020). Spectrogram based classification of spoken foul language using deep CNN. In 2020 IEEE 22nd International Workshop on Multimedia Signal Processing (MMSP), pp. 1-6.
Wicaksana, V.S. & Kom, A.Z.S. (2021). Spoken language identification on local language using MFCC, random forest, KNN, and GMM. International Journal of Advanced Computer Science and Applications, 12(5).
Zazo, R. et al. (2016). Language identification in short utterances using long short-term memory (LSTM) recurrent neural networks. PloS one, 11(1), e0146917.