Corpus régional de l’arabe standard moderne


Ahmed Abdelali
Jim Cowie


Jusqu'à récemment, seuls deux corpus arabes étaient couramment disponibles pour les chercheurs : le fil de presse arabe de l'Agence France-Presse (AFP) du Linguistic Data Consortium (LDC) et la collection de journaux Al-Harm' de l'Agence européenne de distribution des ressources linguistiques (ELDA). La disponibilité d'un corpus approprié est une clé pour de nombreuses recherches objectives en ingénierie du langage ou dans tout autre domaine lié au langage naturel. Cet article présente les résultats expérimentaux de comparaison de corpus. pour Modern Standard Arabic IMSA) collectés à partir d’échantillons de journaux publiés en ligne dans différents pays arabes. Les résultats des expériences montrent des différences significatives de vocabulaire et de styles au sein des différentes régions. Des études approfondies de ces différences permettront une meilleure compréhension de la langue et auront des implications sur différentes recherches informatiques et linguistiques. Développer des ressources adéquates est plus crucial que jamais pour mener à bien cette tâche.


Comment citer
Abdelali, A., & Cowie, J. (2011). Corpus régional de l’arabe standard moderne. AL-Lisaniyyat, 17(2), 1-10.


