L’annotation des catégories grammaticales arabes dans le corpus linguistique arabe et son importance pour le traitement automatique de la grammaire arabe.
Résumé
Malgré tous les résultats obtenus dans le domaine du traitement automatique des langues naturelles, notamment pour la langue anglaise, le processus de développement de ce champ continue d’attirer de nombreux efforts de recherche, tant linguistiques qu’informatiques.
Dans ce contexte, la langue arabe nécessite encore davantage d’attention et d’efforts dans le domaine de la linguistique computationnelle, aussi bien sur le plan théorique que sur le plan appliqué.
À partir de cette perspective, la présente étude soulève la problématique suivante : quelles sont les possibilités qu’offre la recherche en linguistique de corpus pour faire progresser le traitement automatique de la langue arabe ? Et quels sont les avantages pratiques de l’annotation et du balisage des corpus arabes selon les catégories grammaticales (parties du discours) dans la construction de processeurs grammaticaux arabes ?
Cette étude vise notamment à identifier certaines méthodes d’étiquetage et d’annotation des corpus arabes et à montrer l’importance de la reconnaissance automatique des catégories grammaticales dans la conception d’un processeur grammatical arabe.
De manière plus générale, elle cherche à mettre en évidence les apports de la recherche en linguistique de corpus dans le traitement automatique de la langue arabe.
Enfin, la recherche décrira les différentes méthodes d’annotation des corpus arabes et la manière dont celles-ci peuvent être exploitées pour l’automatisation du traitement grammatical.