Condensé de textes pour une assimilation rapide de l’information biomédicale

Description générale du projet

Ce projet vise à démontrer la viabilité d’une approche pour produire des condensés de textes qui soient non pas des résumés documentaires habituels, mais un type d’outil d’aide à la lecture, un « digest » du document original qui reprenne l’essentiel du discours exposé dans le document. En effet, l’objectif général du projet est de contribuer au développement d’outils qui facilitent l’assimilation de l’information, dont celle présente dans les documents non structurés ou partiellement structurés. L’outil visé est un système de condensé de texte. Les objectifs spécifiques du projet incluent le développement d’un prototype pour ce système et une évaluation des résultats. Le domaine du génie biomédical a été retenu comme champ d’application, ainsi des textes divers dans ce domaine sont utilisés pour entraîner et tester le système.

L’approche s’appuie sur trois opérations :

  1. la segmentation thématique du document source (par des moyens automatiques)
  2. l’extraction de phrases-clés provenant de chaque segment résultant
  3. la compression des phrases extraites en s’appuyant sur une analyse syntaxique par dépendance

Le projet prévoit également une évaluation du système résultant, de trois points de vue : linguistique (pour vérifier la grammaticalité des phrases compressées), disciplinaire (par des experts en génie biomédical) et documentaire (pour évaluer la conformité des condensés produits aux principes de méthodes de résumés documentaires).

L’équipe

Chercheurs

  • Lyne Da Sylva (École de bibliothéconomie et des sciences de l’information), chercheuse principale
  • Michel Gagnon (Département de génie informatique et de génie logiciel, École Polytechnique de Montréal), co-chercheur
  • Alain Polguère (Linguistique et traduction, Université de Montréal; Nancy-Université & RELIEF ATILF CRNS), co-chercheur
  • Robert Leblanc (Institut de génie biomédical, Université de Montréal), collaborateur

Étudiants

  • Sara Maria Constantin, Maîtrise en génie biomédical, Université de Montréal
  • Sara-Anne Leblanc, doctorat en linguistique, Université de Montréal
  • Fabien Barbas, maîtrise en génie informatique
  • Eric Charton, stagiaire post-doctoral, Département de génie informatique et génie logiciel, École Polytechnique de Montréal

Financement

Ce projet est financé par la Chaire Bell en recherche interdisciplinaire sur les technologies émergentes, Programme de Financement de démarrage des recherches avec une subvention de 12 000 $ (2006 – extension accordée).