A supervised formulation of Reinforcement Learning - with SuperLinear Convergence
- Authors
- Publication Date
- Apr 20, 2023
- Source
- HAL-Descartes
- Keywords
- Language
- English
- License
- Unknown
- External links
Abstract
L'apprentissage profond par renforcement utilise des simulateurs comme oracles abstraits pour interagir avec l'environnement. Dans les domaines continus des systèmes robotiques multi-corps, des simulateurs différentiables ont récemment été proposés mais sont encore sous-utilisés, même si nous avons les connaissances nécessaires pour leur faire produire des informations plus riches. Ce problème, lorsqu'il est juxtaposé au coût de calcul élevé de l'exploration-exploitation dans un espace d'état de haute dimension, peut rapidement rendre les algorithmes d'apprentissage par renforcement impraticables. Dans cette these, nous proposons de combiner l'apprentissage et les simulateurs de sorte que la qualité des deux augmente, tandis que la nécessité d'explorer exhaustivement l'espace d'état diminue. Nous proposons d'apprendre la fonction de valeur, l'état et les trajectoires d'etat et de contrôle à travers les exécutions localement optimales de l'optimiseur de trajectoire. La fonction d'valeur apprise, ainsi qu'une estimation des politiques optimales d'état et de contrôle, est ensuite utilisée dans l'optimiseur de trajectoire ~ l'estimation de la fonction d'valeur sert de proxy pour raccourcir l'horizon de prévision, tandis que les approximations d'état et de contrôle servent de guide dans la recherche de politiques pour notre optimiseur de trajectoire. L'approche proposée démontre une meilleure relation symbiotique, avec une convergence super linéaire, entre l'apprentissage et les simulateurs, dont nous avons besoin pour l'apprentissage de bout en bout de systèmes polyarticulés complexes.