Vient de paraître : Lexicalisation souple en réalisation de texte. (Mémoire de maîtrise) – Observatoire de linguistique Sens-Texte (OLST)

Gazeau, Avril (2023) Lexicalisation souple en réalisation de texte. Département de linguistique et de traduction, Université de Montréal. [PDF (3,9Mo)].

GenDR est un réalisateur de texte symbolique qui prend en entrée un graphe, une représentation sémantique, et génère les graphes sous forme d’arbres de dépendances syntaxiques lui correspondant. L’une des tâches de GenDR lui permettant d’effectuer cette transduction est la lexicalisation profonde. Il s’agit de choisir les bonnes unités lexicales exprimant les sémantèmes de la représentation sémantique d’entrée. Pour ce faire, GenDR a besoin d’un dictionnaire sémantique établissant la correspondance entre les sémantèmes et les unités lexicales correspondantes dans une langue donnée.

L’objectif de cette étude est d’élaborer un module de lexicalisation souple construisant automatiquement un dictionnaire sémantique du français riche pour GenDR, son dictionnaire actuel étant très pauvre. Plus le dictionnaire de GenDR est riche, plus sa capacité à paraphraser s’élargit, ce qui lui permet de produire la base de textes variés et naturels correspondant à un même sens. Pour y parvenir, nous avons testé deux méthodes.

La première méthode consistait à réorganiser les données du Réseau Lexical du Français sous la forme d’un dictionnaire sémantique, en faisant de chacun de ses noeuds une entrée du dictionnaire et des noeuds y étant reliés par un type de lien lexical que nous appelons fonctions lexicales paradigmatiques sémantiquement vides ses lexicalisations.

La deuxième méthode consistait à tester la capacité d’un modèle de langue neuronal contextuel à générer des lexicalisations supplémentaires potentielles correspondant aux plus proches voisins du vecteur calculé pour chaque entrée du dictionnaire afin de l’enrichir.

Le dictionnaire construit à partir du Réseau lexical du français est compatible avec GenDR et sa couverture a été considérablement élargie. L’utilité des lexicalisations supplémentaires générées par le modèle neuronal s’est avérée limitée, ce qui nous amène à conclure que le modèle testé n’est pas tout à fait apte à accomplir le genre de tâche que nous lui avons demandée.

Mots-clés : réalisation automatique de texte, interface sémantique-syntaxe, lexicalisation, plongements lexicaux.

Contact

Articles récents