اختيار البيانات النصية لنمذجة اللغة في نطاق التعرف التلقائي على الكلام


Freha Mezzoudj
David Langois
Denis Jouvet


Le modèle linguistique est un module important dans de nombreuses applications produisant du texte en langage naturel, en particulier la reconnaissance vocale. La formation de modèles linguistiques nécessite de grandes quantités de données textuelles correspondant au domaine cible. La sélection des données du domaine cible (ou du domaine) a été étudiée dans le passé. Par exemple [1] a proposé un critère basé sur la différence d'entropie croisée entre les modèles représentant des données spécifiques au domaine et non spécifiques au domaine. Cependant, les évaluations ont été réalisées en utilisant seulement deux sources de données, l'une correspondant au domaine et l'autre aux données génériques à partir desquelles les phrases sont sélectionnées. Dans le cadre des systèmes de transcription d’informations diffusées et d’émissions télévisées, les modèles linguistiques sont construits en interpolant plusieurs modèles linguistiques estimés à partir de diverses sources de données. Cet article étudie le processus de sélection de données dans ce contexte de construction de modèles linguistiques interpolés pour la transcription vocale. Les résultats montrent que, dans le processus de sélection, le choix des modèles de langage pour représenter les données spécifiques au domaine et non spécifiques au domaine est critique. De plus, il est préférable d'appliquer la sélection de données uniquement sur certaines sources de données sélectionnées. Ainsi, le processus de sélection conduit à une amélioration de 8,3 en termes de perplexité et de 0,2% en termes de taux d'erreur de mots sur la tâche de transcription diffusée en français.


Mezzoudj, F., Langois, D., & Jouvet, D. (2016). اختيار البيانات النصية لنمذجة اللغة في نطاق التعرف التلقائي على الكلام. AL-Lisaniyyat, 22(2), 28-33. https://doi.org/10.61850/allj.v22i2.370


