L'étude de la linguistique de corpus dans l'étude de la linguistique arabe : de la théorie à l'application

  • Naman Bouguerra Collège universitaire d'Al-Qunfudhah, Université Umm Al-Qura, Royaume d'Arabie Saoudite
Mots-clés : Réception des programmes de linguistique de corpus, linguistique de corpus introductive, répertoire arabe – Traitement automatisé

Résumé

L’émergence de la science du répertoire linguistique et de la linguistique de corpus au milieu du XXᵉ siècle, sous l’impulsion de Geoffrey Leech et d’autres chercheurs américains et européens, a marqué une étape décisive dans l’évolution de la théorie linguistique. Ce développement a accompagné l’ouverture du système linguistique, tant dans son fonctionnement que dans ses usages, à de multiples approches liées au traitement automatique des langues naturelles. Cela a également favorisé une coopération interdisciplinaire, notamment avec la linguistique computationnelle et l’analyse automatisée des discours numériques.

Depuis cette période, de nombreux efforts ont été déployés pour construire de vastes corpus linguistiques écrits et oraux — tels que le British National Corpus — et pour exploiter ces données à des fins de description linguistique, d’enseignement des langues, de lexicographie ou encore de traduction automatique. Rapidement, les applications de la linguistique de corpus ont dépassé leur cadre initial pour s’étendre à l’analyse du discours, la stylistique, la linguistique juridique, la géolinguistique et la dialectologie, malgré les réserves formulées par Chomsky et ses partisans quant à sa capacité explicative.

Cependant, malgré les avancées majeures observées en Occident, la réception de ces travaux dans le champ linguistique arabe reste relativement limitée, surtout en comparaison de l’accueil réservé aux approches qualitatives. Cette situation peut s’expliquer par divers obstacles que cette étude vise à mettre en lumière. Elle examine notamment les contributions des linguistes arabes visant à établir un discours linguistique explicatif susceptible de servir de fondement à une véritable linguistique de corpus arabe, après avoir dépassé la phase de simple réception pour entrer dans celle de la production. Dans ce contexte, elle rappelle des expériences pionnières souvent oubliées, comme le projet arabe d’arsenalisation automatique (Arab Automated Ammunition Project sur Internet), considéré comme un précurseur dans la constitution de corpus informatisés.

La recherche tente ainsi de répondre à plusieurs questions :

  • Quelles sont les principales étapes de l’émergence de la linguistique de corpus, et comment s’articulent-elles à la théorie linguistique ?

  • Quels textes arabes relèvent véritablement d’une écriture linguistique explicative fondée sur des corpus, tant du point de vue théorique qu’opérationnel ?

  • Quels liens existent entre le concept occidental de linguistique de corpus et ses premières déclinaisons arabes ?

  • Quelles sont les bases théoriques et pratiques du projet de répertoire linguistique arabe ?

  • Peut-on élaborer une théorie arabe de la linguistique de corpus à partir des acquis existants ?

  • Enfin, existe-t-il des corpus arabes suffisamment solides pour constituer le socle d’une linguistique de corpus arabe ?

L’ensemble de ces interrogations confirme l’importance et l’urgence d’établir une véritable linguistique de corpus en langue arabe, capable de soutenir la recherche, d’enrichir la compréhension de la langue et de valoriser ses usages.

Publié-e
2024-12-26
Comment citer
Bouguerra, N. (2024). L’étude de la linguistique de corpus dans l’étude de la linguistique arabe : de la théorie à l’application. Knowledge Prospects Journal , 3(3), 37-57. https://doi.org/10.61850/kpj.v3i3.82
Rubrique
Articles