Analyzing the Impact of Synthetic Speech on Spoken Language Identification

خالد لوناس; عبد الرحمن قمقاني; عماد فتح النور عليان

doi:10.61850/allj.v30i2.730

pdf (English)

منشور: Dec 30, 2024

DOI: https://doi.org/10.61850/allj.v30i2.730

الكلمات المفتاحية:

تحديد اللغة المنطوقة، اللغة العربية، زيادة البيانات، مجموعة البيانات الاصطناعية، LSTM، MLP.

خالد لوناس

مركز البحث العلمي و التقني لتطوير اللغة العربية

عبد الرحمن قمقاني

جامعة الجزائر 01

عماد فتح النور عليان

جامعة الجزائر 01

الملخص

تستكشف هذه الدراسة تأثير الكلام الاصطناعي على أداء أنظمة تحديد اللغة المنطوقة من خلال تحليل أنواع مختلفة من الميزات - الصوتية والزمنية والإيقاعية - عبر عدة هياكل من التعلم الآلي والتعلم العميق. استخدمت الدراسة شبكات البرسيبترون (Perceptron) متعدد الطبقات (MLP)، وآلات المتجهات الداعمة (SVM)، وشبكات الذاكرة طويلة وقصيرة المدى (LSTM) لتقييم ثلاثة سيناريوهات مختلفة: تحديد اللغات من الكلام الطبيعي، والكلام الاصطناعي، ومزيج من الاثنين. علاوة على ذلك، بحثت الدراسة في ما إذا كان دمج جميع أنواع الميزات يمكن أن يعزز أداء النظام. كشفت النتائج أن طيف ميل الصوتي كان باستمرار الميزة الأكثر فعالية عبر جميع النماذج التي تم اختبارها، حيث حقق كل من MLP وLSTM أفضل النتائج الإجمالية. في الواقع، حقق طيف ميل دقة مذهلة بنسبة 100٪، مما يجعله أفضل ميزة أداء. وبالمثل، حققت ميزات MFCC أيضًا دقة بنسبة 100٪ في سيناريو الكلام الاصطناعي، مما يبرز قوتها كثاني أفضل ميزة. ومن الجدير بالذكر أن الجمع بين جميع الميزات لم يؤدِ دائمًا إلى تحسين الأداء، مما يؤكد أهمية الاختيار الاستراتيجي للميزات. كما تناولت الدراسة تحديات مثل التباين في تسجيلات الكلام الطبيعي وعدم التوازن في توزيع البيانات، مشددةً على ضرورة وجود طرق قوية لتعزيز البيانات. ومن خلال تسليط الضوء على التفاعلات بين أنواع الميزات، وهياكل النماذج، ومصادر بيانات الكلام، تعزز هذه الدراسة تطوير أنظمة تحديد اللغة المنطوقة بدقة ومرونة أكبر.

Plum Analytics

Artifact Widget

كيفية الاقتباس

لوناسخ., قمقانيع. ا., & عليانع. ف. ا. (2024). تحليل تأثير الكلام الاصطناعي على تحديد اللغة المنطوقة. AL-Lisaniyyat, 30(2), 53-72. https://doi.org/10.61850/allj.v30i2.730

إصدار

مجلد 30 عدد 2 (2024): v30i22024

القسم

Articles

وفقًا لسياسة النشر المعتمدة في الوصول الحر، تقرّ مجلة السانيات وتضمن احتفاظ المؤلفين بالملكية الكاملة والحصرية لحقوق التأليف وحقوق الملكية الفكرية المتعلقة بإسهاماتهم العلميةولا يترتب على نشر المقال في المجلة أي نقل أو تنازل أو تقييد لهذه الحقوق. ويظل للمؤلفين الحق الكامل في أعمالهم دون الحاجة إلى الحصول على إذن كتابي مسبق من المجلة

المراجع

Ambili, A.R. & Roy, R. C. (2023). The Effect of Synthetic Voice Data Augmentation on Spoken Language Identification on Indian Languages. IEEE Access.
Alashban, A.A. et al. (2022). Spoken language identification system using convolutional recurrent neural network. Applied Sciences, 12(18), 9181.
Alshutayri, A. & Albarhamtoshy, H. (2011). Arabic spoken language identification system (ASLIS): A proposed system to identifying modern standard Arabic (MSA) and Egyptian dialect. IInformatics Engineering and Information Science: International Conference, ICIEIS 2011, Kuala Lumpur, Malaysia, November 14-16, 2011. Proceedings, Part II, pp.375-385. Springer Berlin Heidelberg.
Biswas, M., et al. (2023). Automatic spoken language identification using MFCC based time series features. Multimedia Tools and Applications, 82(7), 9565-9595.
Duffy, S.A. & Pisoni, D.B. (1992). Comprehension of synthetic speech produced by rule: review and theoretical interpretation. Language and Speech, 35(4), 351-389.
Ganapathy, S. et al. (2014). Robust language identification using convolutional neural network features, Interspeech, pp. 1846-1850.
Gelly, G. & Gauvain, J.L. (2017). Spoken Language Identification Using LSTM-Based Angular Proximity. Interspeech, pp. 2566-2570.
Jothilakshmi, S., Ramalingam, V. & Palanivel, S. (2012). A hierarchical language identification system for Indian languages. Digital Signal Processing, 22(3), 544-553.
Kumar, P. et al. (2010). Spoken language identification using hybrid feature extraction methods. arXiv preprint arXiv:1003.5623.
Kumar, S. S. & Ramasubramanian, V. (2005). Automatic language identification using ergodic-HMM. In Proceedings. (ICASSP’05), IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005. (Vol. 1, pp. I-609).
Maguolo, G. et al. (2021). Audiogmenter: a MATLAB toolbox for audio data augmentation. Applied Computing and Informatics.
Manchala, S. et al. (2014). GMM based language identification system using robust features. International Journal of Speech Technology, 17, 99-105.
Mc Fee, B. et al. (2015). librosa: Audio and music signal analysis in python. In SciPy, pp. 18-24.
Sarmah, K. & Bhattacharjee, U. (2014). GMM based Language Identification using MFCC and SDC Features. International Journal of Computer Applications, 85(5).
Sefara, T.J. et al. (2019). HMM-based speech synthesis system incorporated with language identification for low-resourced languages. In 2019 International Conference on Advances in Big Data, Computing and Data Communication Systems (icABCD), pp. 1-6.
Singh, G. et al. (2021). Spoken language identification using deep learning. Computational Intelligence and Neuroscience, 2021(1), 5123671.
Wazir, A.S.B., et al. (2020). Spectrogram based classification of spoken foul language using deep CNN. In 2020 IEEE 22nd International Workshop on Multimedia Signal Processing (MMSP), pp. 1-6.
Wicaksana, V.S. & Kom, A.Z.S. (2021). Spoken language identification on local language using MFCC, random forest, KNN, and GMM. International Journal of Advanced Computer Science and Applications, 12(5).
Zazo, R. et al. (2016). Language identification in short utterances using long short-term memory (LSTM) recurrent neural networks. PloS one, 11(1), e0146917.

##plugins.themes.bootstrap3.article.sidebar##

##plugins.themes.bootstrap3.article.main##

الملخص

##plugins.themes.bootstrap3.article.details##

المراجع