Vient de paraître : Création automatique d’un dictionnaire des régimes des verbes du français. (Mémoire de maîtrise) – Observatoire de linguistique Sens-Texte (OLST)

Hassert, Naïma (2023) Création automatique d’un dictionnaire des régimes des verbes du français. Département de linguistique et de traduction, Université de Montréal. [PDF (610Ko)].

Les dictionnaires de valence sont utiles dans plusieurs tâches en traitement automatique des langues. Or, les dictionnaires de qualité de ce type sont créés au moins en partie manuellement ; ils nécessitent donc beaucoup de ressources et sont difficiles à mettre à jour. De plus, plusieurs de ces ressources ne prennent pas en compte les différents sens des lemmes, qui sont pourtant importants puisque les arguments sélectionnés ont tendance à varier selon le sens du verbe. Dans ce mémoire, nous créons automatiquement un dictionnaire de valence des verbes du français qui tient compte de la polysémie. Nous extrayons 20 000 exemples de phrases pour chacun des 2 000 verbes les plus fréquents du français. Nous obtenons ensuite les plongements lexicaux de ces verbes en contexte à l’aide d’un modèle de langue monolingue et de deux modèles de langue multilingues. Puis, nous utilisons des algorithmes de regroupement pour induire les différents sens de ces verbes. Enfin, nous analysons automatiquement les phrases à l’aide de différents analyseurs syntaxiques afin de trouver leurs arguments. Nous déterminons que la combinaison du modèle de langue français CamemBERT et d’un algorithme de regroupement agglomératif offre les meilleurs résultats dans la tâche d’induction de sens (58,19% de F₁ B³), et que pour l’analyse syntaxique, Stanza est l’outil qui a les meilleures performances (83,29% de F₁). En filtrant les cadres syntaxiques obtenus à l’aide d’une estimation de la vraisemblance maximale, une méthode statistique très simple qui permet de trouver les paramètres les plus vraisemblables d’un modèle de probabilité qui explique nos données, nous construisons un dictionnaire de valence qui se passe presque complètement d’intervention humaine. Notre procédé est ici utilisé pour le français, mais peut être utilisé pour n’importe quelle autre langue pour laquelle il existe suffisamment de données écrites.

Mots-clés : induction de sens, valence, lexicographie computationnelle.

Contact

Articles récents