Base DiCo

Le DiCo (acronyme pour dictionnaire de combinatoire) est une base de données lexicale du français, développée depuis plusieurs années à l’OLST par Igor Mel’čuk et Alain Polguère. La finalité première de cette base est de décrire chaque lexie apparaissant dans la nomenclature du DiCo selon deux axes : les dérivations sémantiques (relations sémantiques fortes) qui la lient à d’autres lexies de la langue et les collocations (expressions semi-idiomatiques) qu’elle contrôle. Cette description s’accompagne d’une modélisation des structures syntaxiques régies par la lexie et d’une modélisation de son sens, sous forme d’étiquetage sémantique.

Finalité du DiCo

Le but du projet DiCo est de construire une base de données décrivant le lexique noyau du français, base à partir de laquelle peuvent être dérivés deux types de produits lexicographiques.

Premièrement, on doit pouvoir produire automatiquement à partir du DiCo (par compilation de celui-ci) des lexiques de systèmes de TAL. Une expérimentation a eu lieu, dans le cadre d’une recherche portant sur la construction des modules linguistiques d’un générateur de texte conçus selon les principes de la théorie Sens-Texte (Lareau 2002). Le prototype développé dans cette recherche se caractérise notamment par le fait qu’il utilise un lexique entièrement construit par compilation de fiches du DiCo. D’autre part, un système de compilation de fiches DiCo sous forme de tables de données interrogeables au moyen d’un langage de requête type SQL est en cours de finalisation au laboratoire Lattice-Talana du CNRS (Steinlin et al. 2004).

Deuxièmement, le DiCo doit contenir toute l’information nécessaire pour en dériver des versions « vulgarisées » à l’usage du grand public; voir le site du Lexique actif du français (LAF).

Au niveau de son « design » général et de l’information qu’il encode, le DiCo se caractérise par le fait qu’il implémente une approche sophistiquée de la modélisation du lexique : la lexicologie explicative et combinatoire (LEC), qui est la composante lexicale de la théorie Sens-Texte. Une base de données de type DiCo est une version plus formelle et moins riche d’un dictionnaire théorique conçu selon les principes de la lexicologie explicative et combinatoire. Un tel dictionnaire est appelé Dictionnaire explicatif et combinatoire (DEC).

Haut de page

Méthodologie de construction du DiCo

La nomenclature initiale du DiCo est très sélective. Nous nous concentrons avant tout sur la description des lexies ayant les trois caractéristiques suivantes : 1) ce sont des lexies courantes du français ; 2) elles contrôlent un certain nombre de dérivations sémantiques ou de collocations, ce qui en rend la description plus pertinente dans le cadre d’une base de type DiCo ; 3) elles forment ensemble une sorte de noyau lexical de la langue – un « français fondamental ». Nous nous sommes d’ailleurs inspirés de la nomenclature du Français fondamental (Gougenhein et al, 1967) et d’autres lexiques pédagogiques de base pour constituer une nomenclature initiale d’environ 3000 vocables. La progression du travail s’étant avérée beaucoup plus lente que prévu, nous ne diffusons pour l’instant, aux fins de recherche, qu’un sous-ensemble d’environ 500 vocables dont la description peut être considérée comme entièrement finalisée.

Pour ce qui est de la « chaîne de production », une fiche DiCo se construit en six étapes principales :

  1. dégrossissage par identification grossière des acceptions ;
  2. identification de liens de fonctions lexicales et récupération d’exemples (extraits de corpus) ;
  3. encodage formel ;
  4. affinage de la description, qui se fait simultanément avec l’introduction d’éléments de vulgarisation nécessaires pour le passage au LAF ;
  5. traduction en format LAF, qui permet d’améliorer la description du DiCo (repérage d’erreurs d’encodage, d’omissions) ;
  6. révision finale.

Haut de page

Voir aussi

Le groupe DICE, de l’Université de Corogne en Espagne, est en train de développer un dictionnaire des collocations de l’espagnol fondé sur la LEC. Un prototype peut être consulté sur la page du groupe.

Haut de page

Bibliographie

  • Lareau F. (2002). La synthèse de textes comme outil de développement et de vérification de modèles linguistiques formels, Mémoire de maîtrise, Département de linguistique et traduction, Université de Montréal. [PDF (1.1MB)] + programme Prolog Sentence Garden (240KB)
  • Milićević J. (1997). Étiquettes sémantiques dans un dictionnaire formalisé du type Dictionnaire explicatif et combinatoire, Mémoire de maîtrise, Département de linguistique et traduction, Université de Montréal.
  • Polguère A. (2000a). Towards a theoretically-motivated general public dictionary of semantic derivations and collocations for French, Actes de EURALEX’2000, Stuttgart, pp. 517-528. [PDF (129KB)]
  • Polguère A. (2000b). Une base de données lexicale du français et ses applications possibles en français, Revue de Linguistique et de Didactique des Langues, no 21, pp. 75-97.
  • Polguère A. (2003b). Étiquetage sémantique des lexies dans la base de données DiCo, Revue TAL, vol. 44, no 2, pp. 39-68.
  • Polguère, Alain. (2005) Typologie des entités lexicales d’une base de données explicative et combinatoire. Présentation donnée à la Journée de l’ATALA : Interface lexique-grammaire et lexiques syntaxiques et sémantiques, École nationale supérieure des télécommunications (ENST), Paris. [PDF (64KB)]
  • Popovic S. (2004). Paraphrasage des liens de fonctions lexicales, Mémoire de maîtrise, Département de linguistique et traduction, Université de Montréal. [PDF (364KB)]
  • Steinlin J., Kahane S., Polguère A., El Ghali A. (2004). « De l’article lexicographique à la modélisation objet du dictionnaire et des liens lexicaux », Actes de EURALEX’2004, Lorient (France), 177-186. [PDF (200KB)]

Haut de page