Combinaison CNN-LSTM combiné pour améliorer la reconnaissance vocale propre et bruyante


Noussaiba Djeffal
Djamel Addou
Hamza Kheddar
Sid Ahmed Selouani


Cet article présente une approche hybride de réseau neuronal convolutionnel et de mémoire à long terme (CNN-LSTM) pour la reconnaissance automatique de la parole (ASR) utilisant des techniques d'apprentissage profond sur la base de données Aurora-2. Cette base de données comprend des modes propres et multi-conditions, englobant quatre scénarios de bruit : métro, babillage, voiture et hall d'exposition, chacun évalué à différents rapports signal/bruit (SNR) et condition propre, et les résultats sont comparés à ceux de l'ensemble de données ASC-10 et de la base de données ESC-10. Le problème abordé est le besoin de modèles ASR robustes qui fonctionnent bien dans les environnements bruités et non bruités (propres). L'objectif de l'utilisation de l'architecture CNN-LSTM est d'améliorer les performances de reconnaissance en combinant les points forts des CNN et des LSTM, plutôt que de s'appuyer uniquement sur les CNN ou les LSTM pris en isolés. Les résultats expérimentaux démontrent que le modèle combiné CNN-LSTM atteint de hautes performances de classification, dans des environnements non bruités sur l'ensemble de données Aurora2, atteignant une précision de 97,96 %, surpassant les modèles CNN et LSTM pris individuellement, qui ont atteint respectivement 97,21 % et 96,06 %. Dans des conditions bruitées, le modèle hybride surpasse également les deux modèles cités, avec une précision de 90,72 %, contre 90,12 % pour CNN et 86,12 % pour LSTM. Ces résultats indiquent que le modèle hybride CNN-LSTM est plus efficace pour gérer diverses conditions de bruit et améliorer la précision globale du taux de reconnaissance de la parole.


Comment citer
Djeffal, N., Addou, D., Kheddar, H., & Selouani, S. A. (2024). Combinaison CNN-LSTM combiné pour améliorer la reconnaissance vocale propre et bruyante. AL-Lisaniyyat, 30(2), 5-26. Consulté à l’adresse


