Outils d’accès au contenu de documents numériques

Description générale du projet

Il s’agit ici d’un programme de recherche dans le vaste domaine de la gestion d’informations et de documents. Vu la croissance des collections de documents numériques, et leur importance pour les organismes de tous types, le développement d’outils de gestion de documents et d’accès à leur contenu s’impose. Spécifiquement, les moyens pour un utilisateur de s’approprier le contenu d’un document donné sont limités et ne profitent pas suffisamment des principes issus de la gestion documentaire, tel que développés dans la tradition bibliothéconomique. Cela constitue un chantier de recherche d’une importance stratégique certaine. Ces principes qui régissent l’élaboration de systèmes de transfert de l’information peuvent avantageusement être mis à contribution dans le développement de systèmes informatiques, avec des techniques pertinentes de traitement automatique de la langue. Des possibilités non explorées se trouvent du côté des outils de représentation du contenu d’un seul document.

Ce programme s’articule présentement autour de trois axes :

  1. une application pour les traditionnels index de livres (ou index de monographies), outils classiques de description détaillée du contenu (Da Sylva, 2005; Da Sylva et Doll, 2005a, 2005b; Da Sylva et al., 2006; Da Sylva, 2009a; Da Sylva, 2010b)
  2. l’étude des liens entre (i) la représentation sommaire d’un document par mots-clés, (ii) un résumé du document, et (iii) un index détaillé de celui-ci. Le programme de recherche explore tour à tour différentes façons de développer chacune de ces représentations de documents, les liens entre elles, et des techniques pour dériver l’une à partir de l’autre. (Gagnon et Da Sylva, 2006; Gagnon et Da Sylva, 2005; Da Sylva, Gagnon et Charton, en préparation)
  3. le développement de ressources numériques pour soutenir l’indexation automatique et ses dérivés, notamment la constitution d’un vocabulaire savant de base qui sert à construire des entrées d’index complexes (Da Sylva, 2009b; Da Sylva, 2009c; Da Sylva, 2010a)

Ce travail sert à contribuer au développement de meilleurs outils d’aide à la fouille de texte, de repérage de l’information, d’organisation des documents et d’accès au contenu intellectuel des documents numériques.

Responsable

  • Lyne Da Sylva (École de bibliothéconomie et des sciences de l’information)

Étudiants

  • Eric Charton, stagiaire post-doctoral, Département de génie informatique et génie logiciel, École Polytechnique de Montréal (2011-2012)
  • Eliana Coelho, maîtrise en sciences de l’information, EBSI (2008-2009)
  • Dominic Letarte, maîtrise en génie informatique (École Polytechnique de Montréal) (2006)
  • Gisel Villalobos, maîtrise en sciences de l’information, EBSI (2006)

Assistants de recherche

  • Frédéric Doll, École de bibliothéconomie et des sciences de l’information (2005-2006)

Financement

Ce projet est financé par le Conseil de recherche en sciences naturelles et en génie du Canada (CRSNG). 13 000$ par année (65 000$ au total). 2005-2010 (extension accordée).

Publications

Da Sylva, Lyne. 2010a. Extraction semi-automatique d’un vocabulaire savant de base pour l’indexation automatique. In Actes du Congrès TALN (Traitement automatique des langues naturelles), Université de Montréal, 22 juillet 2010. 10 pages.
Disponible en ligne : http://www.iro.umontreal.ca/~felipe/TALN2010/Xml/Papers/all/taln2010_submission_86.pdf

Da Sylva, Lyne. 2010b. Integrating knowledge from different sources for automatic back-of-the-book indexing. In Actes du Congrès 2010 de l’Association canadienne des sciences de l’information, Université Concordia, Montréal, 3 juin 2010. http://www.cais-acsi.ca/proceedings/2010/CAIS061_DaSylva_Final.pdf

Da Sylva, Lyne. 2009a. Outil de butinage du contenu des documents de collections numériques. In Patrimoine 3.0. Actes du 12e Colloque International sur le Document Électronique, Montréal, 21-23 octobre 2009, pp. 263-273.

Da Sylva, Lyne. 2009b. Corpus-based derivation of a “basic scientific vocabulary” for indexing purposes. In Proceedings of the Corpus Linguistics Conference, University of Liverpool, Liverpool, 21-23 juillet 2009. [http://ucrel.lancs.ac.uk/publications/cl2009/224_FullPaper.doc]

Da Sylva, Lyne. 2009c. Classes de vocabulaire et indexation automatique : le cas des index de livres. In Premier Workshop international sur la Terminologie et la sémantique lexicale (TLS’09), Montréal, 19 juin 2009, pp. 67-76.

Da Sylva, Lyne ; Russell, Graham ; Marcoux, Yves ; Doll, Frédéric. 2006. L’équipe du GRDS au défi Fouille de textes 2006 : Indexo-II. In : Actes du colloque DEFT’06 (DÉfi Fouille de Textes), Université de Fribourg, Suisse, 21-22 septembre 2006 (accepté).

Gagnon, Michel ; Da Sylva, Lyne. 2006. Text Compression by Syntactic Pruning. In : Proceedings of the Conference of the Canadian Society for Computational Studies of Intelligence, Canadian AI 2006, Université Laval, Québec, 7-9 juin 2006, pp. 312-323.

Gagnon, Michel ; Da Sylva, Lyne. 2005. Text Summarization by Sentence Extraction and Syntactic Pruning. In : Proceedings of Computational Linguistics in the North East (CliNE’05), Université du Québec en Outaouais, Gatineau, 26 août 2005, 8 pages. [http://www.crtl.ca/cline05/cline05_papers/GagnonDaSylva.pdf].

Da Sylva, Lyne ; Doll, Frédéric. 2005a. Information Architecture for Document Description: Semantic Thematization of Text Segments. In : Tochtermann, Klaus ; Maurer, Hermann (réds). Proceedings of I-KNOW ’05. 5th International Conference on Knowledge Management, Graz, Autriche, 29 juin – 1er juillet 2005, pp. 612-620.

Da Sylva, Lyne ; Doll, Frédéric. 2005b. A Document Browsing Tool: Using Lexical Classes to Convey Information. In : Lapalme, Guy ; Kégl, Balász. Advances in Artificial Intelligence: 18th Conference of the Canadian Society for Computational Studies of Intelligence, Canadian AI 2005 (Proceedings), New York : Springer-Verlag, 2005, pp. 307-318.