اختيار البيانات النصية لنمذجة اللغة في نطاق التعرف التلقائي على الكلام
##plugins.themes.bootstrap3.article.main##
Résumé
Le modèle linguistique est un module important dans de nombreuses applications produisant du texte en langage naturel, en particulier la reconnaissance vocale. La formation de modèles linguistiques nécessite de grandes quantités de données textuelles correspondant au domaine cible. La sélection des données du domaine cible (ou du domaine) a été étudiée dans le passé. Par exemple [1] a proposé un critère basé sur la différence d'entropie croisée entre les modèles représentant des données spécifiques au domaine et non spécifiques au domaine. Cependant, les évaluations ont été réalisées en utilisant seulement deux sources de données, l'une correspondant au domaine et l'autre aux données génériques à partir desquelles les phrases sont sélectionnées. Dans le cadre des systèmes de transcription d’informations diffusées et d’émissions télévisées, les modèles linguistiques sont construits en interpolant plusieurs modèles linguistiques estimés à partir de diverses sources de données. Cet article étudie le processus de sélection de données dans ce contexte de construction de modèles linguistiques interpolés pour la transcription vocale. Les résultats montrent que, dans le processus de sélection, le choix des modèles de langage pour représenter les données spécifiques au domaine et non spécifiques au domaine est critique. De plus, il est préférable d'appliquer la sélection de données uniquement sur certaines sources de données sélectionnées. Ainsi, le processus de sélection conduit à une amélioration de 8,3 en termes de perplexité et de 0,2% en termes de taux d'erreur de mots sur la tâche de transcription diffusée en français.
##plugins.themes.bootstrap3.article.details##
Références
N.Jaitly,P.Nguyen,A.SENIOR,and V.Vanhoucke, Application of pretrained deep neural networks to large vocabulary speech recognition,in proceedings of interspeech,2012.
E.S.Ristad and P.N. Yianilos ,Learning string-edit distance,Pattern analysis and machine intelligence ,IEEE Transaction on , vol.20,no.5,pp.5222-532,1998.
A.C.Morris, V. Maier ,and P.Green, From wer and ril to mer and wil: improved evaluation measures for connected speech recognition.in INTERSPEECH,2004.
I.A.McCowan ,D.Moore, J.Dines , D.Gatica-perez,M.Flynn,p.Wellner, and H.Bourlard , On the use of information retrieval measures for speech recognition evaluation, IDIAP, Tech.rep., 2004.
I.A.Mcowan,D.Moore , J.Dines,D.Gatica-perez,M.Flynn,P.Wellner, and H.Bourlard, On the use of information retrieval measures for speech recognition evaluating automated speech recognition devices and the consequences of using probabilistic string edit distance as input , 3rd year project,Sheffield university ,2002.
J.Hoffman ,Papoulis ,a-probability random variables and stochastic processes,1967.
H.Nanjo and T.Kawahara.A new asr evaluation measure and minimum bayes-risk decoding for open-domain speech understanding .in in the proceeding of the IEEE International conference on acoustics, speech, and signal processing ICASSP ,2005,pp.1053-1056.
B.Favre,K.Cheung ,S .Kazemian,A.Lee, Y.Liu, C.Munteanu, A.Nenkova,D.Ochei,G.Penn,S.Tratz et al.,Automatic human utility evaluation of asr systems: does wer really predict performance in Interspeech,2013,pp.3463-3467.
H.Jiang,Confidence measures for speech recognition:A Survey, speech communication,vol 45,no .4pp.466-470,2005.
L.Zhou,Y.Shi,JFeng, and A.Sears,Data mining for detecting erroes in dictation speech recognition,speech and audio processing,IEEE Transactions on ,vol.13,no.5,pp.681-688,2005.
A.Allauzen ,Error detection in confusion network .in INTERSPEECH?2007,pp.1749-1752.
T.Pellegrini and I.Trancoso,ERROR detection in broadcast news asr using markov chains ,in human language technology.Challenges for computer science and linguistics.Springer ,2011,pp.59-69.
W.Chen ,S. Ananthakrishnan ,R.Kumar ,R.Prasad ,and P.Natarajan, ASR error detection in a conversational spoken language translation system ,in the proceedings of the IEEE International conference on acoustics ,speech and signal processing ICASSP. IEEE,2013,pp.7418-7422.
T.Pellegrini and I.Trancoso,Improving asr error detection with nondecoder based features.in Interspeech,2010,pp.1950-1953.
W.A.Ainsworth and S.Pratt,Feedbach strategies for error correction in speech recognition systems,International journal of man-machine studies,vol.36,no.6,pp.833-842,1992.
A.Murray,C.Frankish ,and D.jones , data-entry by voice :Facilitating correction of misrecognitions, in interactive speech technology.Taylor and francis , INc., 1993,pp.137-144.
B.Suhm,B. Myers, and A.Waibel ,Multimodal error correction for speech user interfaces ,ACM transactions on computer-human interaction TOCHI , vol.8,no.1.pp.60-98,2001.
J.Feng and A.Sears, Using confidences scores to improve handsfree speech based navigation in continuous dictation. Systems, ACM transactions on computer-human interaction Tochi ,vol.11,no.4,pp.329-356,2004.
D.YU?M.-y.H wang, P.Mau,A.ACERO, and L.Deng, Unsupervised learning from users error correction in speech dictation .in interspeech,2004.
Y.Shi and L.ZHOU,Supporting dictation supporting dictation speech recognition erroe correction : the impact of external information, Behaviour and information technology,vol.30.no.6,pp.961-774,2011.*
A.Sarma and D.D.Palmer.Context-based speech recognition error detection and correction, in proceedings of HLT-NAACL 2004,pp.85-88.
Y.Bassil and P.Semaan, Asr context-sensitive error correction based on Microsoft n-gram dataset,arxiv preprint arxiv:1203.5262,2012.