Affordable Access

Apprentissage statistique pour l'extraction de concepts à partir de textes : application au filtrage d'informations textuelles

Authors
Publisher
Université Louis Pasteur - Strasbourg I
Publication Date
Keywords
  • Terminologie (Science) -- Informatique
  • Intelligence Artificielle
  • Traitement De Corpus
  • Lexicométrie
  • Schémas Morphosyntaxiques
  • Extraction De Concepts
  • Classification Automatique
  • Diffusion Sélective De L'Information
Disciplines
  • Linguistics
  • Mathematics

Abstract

Cette thèse présente un modèle de construction automatique et approximatif de la représentation du sens d'un texte. On adapte des techniques de documentation automatique à des bases documentaires non indexées. Les techniques classiques reposent sur une indexation vectorielle. Chaque document est représenté par un descripteur, on définit une distance entre ces descripteurs. L'accès aux documents pertinents est basé sur des calculs de proximité entre ces descripteurs. Une structuration du domaine, couvert par des documents, est obtenue par une classification (en anglais « clustering ») faisant apparaître des thèmes sémantiques. Il faut améliorer les techniques en leur permettant de traiter les documents non indexés, en améliorant les résultats par une adaptation de connaissances linguistiques et une analyse des relations que marquent les cooccurrences entre termes. La quantité grandissante d'informations électroniques permet de constituer des échantillons de données variés et significatifs. Les techniques pour décrire les relations entre termes sont issues de méthodes mathématiques usuellement appliquées aux données structurées non textuelles. Le couplage de connaissances propres aux données avec une méthodologie adaptée aux données textuelles devrait apporter une amélioration des résultats. Nous tentons de justifier : d'une part l'utilisation de mécanismes linguistiques réduisant les biais d'une statisque descriptive des occurrences d'un terme, d'autre part l'utilisation d'une méthode basée sur les graphes dont les motifs permettraient de récupérer les relations conceptuelles entre termes. Dans un troisième temps nous facilitons l'interprétation des résultats émanant de traitements automatiques par la qualification consensuelle du thème représenté par une classe. L'interprétation de classes reste difficile, due aux multiples points de vue qu'un lecteur peut se faire des associations entre termes. Des classes de meilleure qualité facilitent l'interprétation, assistée par un théssaurus, que l'on peut attribuer à la structuration conceptuelle des termes d'un domaine. Le développement d'Internet renforce l'échange de documents électroniques entre les acteurs de différents sites. Le développement de systèmes logiciels d'échanges de documents appelés « workflow » dans les intranets d'entreprise augmente la fluidité des documents entre individus et entre services. Un système qui permet d'apprendre automatiquement des profils d'utilisateur et d'exploiter ces connaissances pour distribuer l'information semble incontournable. Nous essayons de caractériser un centre d'intérêt par des classes de termes.

There are no comments yet on this publication. Be the first to share your thoughts.