Sélection de données textuelles pour la modélisation du langage dans le cadre de la reconnaissance vocale automatique
يعد نموذج اللغة وحدة مهمة في العديد من التطبيقات التي تنتج نصًا باللغة الطبيعية، وخاصة التعرف على الكلام. يتطلب تدريب النماذج اللغوية كميات كبيرة من البيانات النصية التي تتوافق مع المجال المستهدف. لقد تم التحقيق في اختيار بيانات المجال المستهدف (أو داخل المجال) في الماضي. على سبيل المثال، اقترح [1] معيارًا يعتمد على اختلاف الإنتروبيا المتقاطعة بين النماذج التي تمثل البيانات داخل المجال والبيانات غير الخاصة بالمجال. ومع ذلك، تم إجراء التقييمات باستخدام مصدرين فقط للبيانات، أحدهما يتوافق مع المجال الداخلي والآخر للبيانات العامة التي يتم اختيار الجمل منها. في نطاق أنظمة نسخ الأخبار والبرامج التلفزيونية، يتم بناء نماذج اللغة عن طريق استيفاء العديد من نماذج اللغة المقدرة من مصادر البيانات المختلفة. تبحث هذه الورقة في عملية اختيار البيانات في هذا السياق لبناء نماذج لغوية محرفة لنسخ الكلام. تظهر النتائج أنه، في عملية الاختيار، يعد اختيار نماذج اللغة لتمثيل البيانات داخل المجال والبيانات غير الخاصة بالمجال أمرًا بالغ الأهمية. علاوة على ذلك، فمن الأفضل تطبيق اختيار البيانات فقط على بعض مصادر البيانات المحددة. بهذه الطريقة، تؤدي عملية الاختيار إلى تحسن قدره 8.3 من حيث الحيرة و0.2% من حيث معدل خطأ الكلمات في مهمة النسخ الإذاعي الفرنسي.
