La résolution de Processus Décisionnels de Markov de grande dimension est habituellement basée sur le calcul hors ligne d'une approximation de la fonction de valeur optimale. Cette fonction de valeur est ensuite exploitée en ligne pour définir une politique a priori. Toutefois, quand l'espace d'états est très vaste et qu'aucune représentation struc...
La résolution de Processus Décisionnels de Markov de grande dimension est habituellement basée sur le calcul hors ligne d'une approximation de la fonction de valeur optimale. Cette fonction de valeur est ensuite exploitée en ligne pour définir une politique a priori. Toutefois, quand l'espace d'états est très vaste et qu'aucune représentation struc...
L'objectif de ce travail de thèse est de proposer des approches algorithmiques permettant de traiter la problématique du routage adaptatif (RA) dans un réseau de communication à trafic irrégulier. L'analyse des algorithmes existants nous a conduit à retenir comme base de travail l'algorithme Q-Routing (QR); celui-ci s'appuie sur la technique d'appr...
La contribution principale de ce travail de recherche est la proposition d'un modèle flou avec des fonctions d'appartenance dynamiques à paramètres ajustables en ligne, par un algorithme basé sur l'Apprentissage par Renforcement (AR). L'approche présentée prend en compte la dynamique des variables du système en introduisant, dans les fonctions d'ap...
Cette thèse est une étude de méthodes permettant d'estimer des fonctions valeur avec des réseaux de neurones feedforward dans l'apprentissage par renforcement. Elle traite plus particulièrement de problèmes en temps et en espace continus, tels que les tâches de contrôle moteur. Dans ce travail, l'algorithme TD(lambda) continu est perfectionné pour ...