Affordable Access

Étude du contrôle de contenu et de la compression de la génération automatique neuronale de textes

Authors
  • Leng, Yuanmin
Publication Date
Sep 03, 2020
Source
HAL-Descartes
Keywords
Language
French
License
Unknown
External links

Abstract

La génération automatique de textes (GAT) à partir de données est l’une des tâches les plus importantes dans le domaine du TAL. Les méthodes de génération de textes les plus utilisés peuvent être divisés en trois catégories : la première est basée sur textes à trous, la seconde consiste en modèles neuronaux de bout-en-bout qui peuvent générer des textes directement à partir de données sans aucune étape intermédiaire, tandis que la dernière regroupe tous les modèles en pipeline. Avec l’émergence de l’apprentissage profond qui s’appuie sur des réseaux de neurones, la plupart des systèmes de GAT actuels améliorent continûment la fluidité et la qualité grammaticale du texte, s’intéressent peu au contrôle de la structure et de la longueur du texte. Cependant, le contrôle joue un rôle important dans les applications industrielles telles que les messages commerciaux et les descriptions de produit. <br> Dans ce mémoire, nous présentons d’abord la tâche de génération de textes à partir de données (ici sous forme de connaissances de type triplets RDF) et les ensembles de données souvent utilisés dans cette tâche. Nous présentons ensuite des modèles récents, qui occupent une grande partie du mémoire. Enfin, nous appliquons différentes stratégies de contrôle dans les systèmes, notamment en ce qui concerne la structure et la longueur du texte. Pour la structure du texte, nous présentons une approche d’alignement entre l’entrée et la cible. Elle permet de s’assurer que le nombre de phrases, l’ordre des entités et la distribution des entités dans le texte de sortie respectent ceux des données d’entrée. Quant au contrôle de la longueur du texte, nous présentons deux approches différentes. L’une consiste à fournir la contrainte de longueur en entrée tandis que l’autre consiste à forcer l’inclusion de la balise de fin de phrase lors de la phase de génération du réseau de neurones (décodage). Nous proposons quatre mesures pour évaluer à quel point ces méthodes affectent les capacités d’un système de la GAT à contrôler la structure et la longueur du texte. Nos analyses quantitatives démontrent que toutes les méthodes améliorent efficacement les capacités du système avec un impact minimal sur fluidité du texte.

Report this publication

Statistics

Seen <100 times