Affordable Access

Comparaison des lois conjointes et marginales par permutation des labels pour la régression et l’estimation de densité conditionnelle

Authors
  • Riu, Benjamin
Publication Date
Sep 13, 2022
Source
HAL-Descartes
Keywords
Language
French
License
Unknown
External links

Abstract

Cette thèse introduit de nouvelles techniques qui exploitent des permutations du vecteur des observations de la variable à expliquer pour améliorer les performances de généralisation dans la tâche de régression et transformer l’estimation de la fonction de densité conditionnelle en un problème de classification binaire. Des justifications théoriques et des benchmarks empiriques sur des jeux de données tabulaires sont proposés pour démontrer l’intérêt de ces techniques, en particulier lorsqu'elles sont combinées avec des réseaux de neurones profonds. La généralisation est un problème central en l'apprentissage machine. La plupart des modèles prédictifs nécessitent une calibration minutieuse des hyper-paramètres sur un échantillon de validation pour obtenir de bonnes performances de généralisation. Une nouvelle approche qui contourne cette difficulté est présentée. Elle est basée sur une nouvelle mesure du risque de généralisation qui quantifie directement la propension d'un modèle à sur-ajuster les données d’entraînement. Le critère associé, appelé MLR (Muddling Labels Regularization) est évalué sur le jeu de données d’entraînement et permet d’estimer la performance sur le jeu de données test. Pour cela, il utilise des permutations du vecteur des observations de la variable à expliquer pour quantifier la propension d'un modèle à mémoriser la part de bruit contenu dans les données. Pour transformer le critère MLR en une fonction de perte pour les réseaux de neurones profonds, l'opérateur Tikhonov est introduit. Il module la capacité de mémorisation d'un réseau de manière adaptative, différentiable et dépendante des données. En combinant la perte MLR et l'opérateur Tikhonov, on obtient la technique d’apprentissage AdaCap (ADAptative CAPacity control) qui optimise la capacité du réseau afin qu'il puisse apprendre les représentation abstraite de haut niveau correspondant au problème posé plutôt que de mémoriser le jeu de données d’entraînement. Le problème d’estimation de densité conditionnelle est également traité. Il est à la base de la majorité des tâches d'apprentissage machine, y compris l'apprentissage supervisé et non supervisé ainsi que les modèles génératifs. Une nouvelle méthode, MCD (Marginal Contrastive Discrimination) inspirée du noise contrastive learning est introduite. MCD reformule la tâche initiale en un problème d'apprentissage supervisé qui peut être résolu à l’aide d’un classifieur binaire. Des techniques de construction de jeux de données de contraste basées là encore sur des permutations du vecteur de la variable à expliquer sont également proposées. Elles permettent d’obtenir des jeux de données d’entraînement beaucoup plus grands que le jeu de données initial, et de tirer parti d'observations non-étiquetées et d’observations pour lesquelles on dispose de plusieurs réalisations.

Report this publication

Statistics

Seen <100 times