Belmerhnia, Leïla
Le présent travail de thèse se propose de développer des techniques innovantes pour l'automatisation de tri de déchets de bois. L'idée est de combiner les techniques de spectrométrie proche-infra-rouge à des méthodes robustes de traitement de données pour la classification. Après avoir exposé le contexte du travail dans le premier chapitre, un état...
Belmerhnia, Leïla
Le présent travail de thèse se propose de développer des techniques innovantes pour l'automatisation de tri de déchets de bois. L'idée est de combiner les techniques de spectrométrie proche-infra-rouge à des méthodes robustes de traitement de données pour la classification. Après avoir exposé le contexte du travail dans le premier chapitre, un état...
Genuer, Robin Poggi, Jean-Michel
Deux des algorithmes proposés par Leo Breiman : les arbres CART (pour Classification And Regression Trees) introduits dans la première moitié des années 80 et les forêts aléatoires apparues, quant à elles, au début des années 2000, font l'objet de cet article. L'objectif est de proposer sur chacun des thèmes abordés, un exposé, une garantie théoriq...
Makkhongkaew, Raywat
We are drowning in massive data but starved for knowledge retrieval. It is well known through the dimensionality tradeoff that more data increase informative but pay a price in computational complexity, which has to be made up in some way. When the labeled sample size is too little to bring sufficient information about the target concept, supervise...
Geronimi, Julia
Les études cliniques permettent de mesurer de nombreuses variables répétées dans le temps. Lorsque l'objectif est de les relier à un critère clinique d'intérêt, les méthodes de régularisation de type LASSO, généralisées aux Generalized Estimating Equations (GEE) permettent de sélectionner un sous-groupe de variables en tenant compte des corrélation...
BONNET, Anna
We study statistical methods toestimate the heritability of a biological trait,which is the proportion of variations of thistrait that can be explained by genetic factors.First, we propose to study the heritability ofquantitative traits using high-dimensionalsparse linear mixed models. We investigate thetheoretical properties of the maximumlikeliho...
Bécu, Jean-Michel
Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthodes usuelles ne s’appliquent pas dans le cadre de la...
Perthame, Emeline
Les données à haut-débit, par leur grande dimension et leur hétérogénéité, ont motivé le développement de méthodes statistiques pour la sélection de variables. En effet, le signal est souvent observé simultanément à plusieurs facteurs de confusion. Les approches de sélection habituelles, construites sous l'hypothèse d'indépendance des variables, so...
Devijver, Emilie
Les modèles de mélange pour la régression sont utilisés pour modéliser la relation entre la réponse et les prédicteurs, pour des données issues de différentes sous-populations. Dans cette thèse, on étudie des prédicteurs de grande dimension et une réponse de grande dimension. Tout d’abord, on obtient une inégalité oracle ℓ1 satisfaite par l’estimat...
Kouwayè, Bienvenue Fonton, Noël Rossi, Fabrice
Nous étudions dans ce travail une méthode de sélection de variables basée sur le Lasso dans le contexte épidémiologique. L'un des objectifs est de construire automatiquement un modèle prédictif en limitant le recours aux experts médicaux qui opèrent des prétraitements sur les données collectées. Ces prétraitements consistent entre autres à recoder ...