Data-visualisation, machine learning…

le data mining sur tous les fronts

General Public
Specialist

Le data mining est un creuset au sein duquel se retrouvent de nombreuses disciplines connexes. On le réduit très souvent au machine learning, thématique où le plus grand nombre de développements ont été réalisés, mais il ne s’y limite pas. Le data mining fait appel à des méthodes relatives à la manipulation de données, leur visualisation, leur prétraitement. Le machine learning n’intervient que relativement tard dans la chaîne même si c’est généralement l’opération la plus longue.

 

Cet article est le deuxième d’une trilogie portant sur le data mining :

1- Le data mining : des données au savoir
2- Data-visualisation, machine learning… le data mining sur tous les fronts
3- Enjeux du datamining à l'ère du cloud computing et des réseaux sociaux

 

Parmi les nombreuses étapes d’un processus de data mining, la première est généralement la visualisation de données. Malheureusement peu mise en avant dans des cursus peut-être un peu trop amoureux de la rationalité des chiffres, la visualisation est une thématique intéressante car c’est un des premiers outils utilisés dans la chaîne d’analyse. Suivant l’adage qu’une image vaut mille mots, c’est également un des aspects les plus accessibles aux profanes. Pour bien se représenter la problématique de la visualisation des données, il faut comprendre que les données prennent généralement place dans des espaces qui peuvent atteindre quasi-systématiquement une centaine de dimensions, du millier en général à des millions (voir plus) pour les cas les plus extrêmes. Si on représente de manière correcte plusieurs données sur deux dimensions, on commence à avoir recours à des artifices à partir de trois dimensions. L’ajout d’une quatrième dimension passe généralement par l’usage de la variable « temps »  par simple analogie avec notre perception du monde physique. La représentation de plus de quatre dimensions est un problème complexe, il faut réussir à ce que l’œil fasse des analogies avec le monde physique, par exemple l’affirmation « A est proche de B » doit être vraie dans la représentation et dans les données. Pour illustrer cela, une des solutions communes est de représenter les données sous toutes les projections possibles en deux dimensions. (Voir illustration. Les données présentées s’intéressent à la classification de trois espèces de plante en fonction de dimensions physiologiques).

 

http://mbostock.github.com/d3/talk/20111116/iris-splom.html
data mining data visualisation

Le prétraitement des données fait également parti des thématiques un peu délaissées. Il vise à pallier les défauts des données : valeurs erronées, valeurs extrêmes, valeurs manquantes. Certains algorithmes s’accommodent très bien de valeurs manquantes, d’autres en revanche le supportent moins. Que faire dans ce cas ? Une des pistes pourrait être de supprimer les cas gênants. Sur plusieurs millions ou milliards de tickets de caisse, l’opération peut-être innocente, en revanche si vous considérez un problème avec 100 attributs et 1% de données manquantes, il n’est pas impossible que vous supprimiez 80% de vos entrées simplement parce qu’une seule case manquait à chaque ligne. La quasi totalité des algorithmes de data mining fonctionnent en considérant leurs données comme des lignes d’une table de base données. Une des étapes de prétraitement peut aussi transformer les données de manière à les réduire à des lignes. Ce prétraitement, particulièrement utilisée dans le cadre de l’analyse de réseaux sociaux, peut devenir une étape très importante et lourde (en temps) lorsque l’objet de l’étude est complexe : un son, un texte ou encore une image. Dans ce dernier cas, on utilisera généralement des outils de traitement d’image connus (binarisation, dilatation, détection de contour, …) et on résumera généralement une image à sa signature avant de poursuivre sa manipulation.

Un des enjeux majeurs du data mining  est de procéder à l’automatisation de la découverte de connaissance. Ce sont les thématiques principales du machine learning (apprentissage artificiel). Beaucoup limitent même le data mining à ce seul champ d’étude comme nous l’avions soulevé dans un précédent article. On distingue ici deux grandes familles de modèles : l’apprentissage supervisé (et semi-supervisé) et l’apprentissage non supervisé. L’apprentissage supervisé est présent dans les problématiques de classification. Dans ce cas, on dispose d’un moyen de valider ce que l’algorithme a appris et tel un professeur indiquant ses erreurs à un élève. On permet à l’algorithme de « comprendre » dans quel sens corrigé. Parmi ces méthodes, on note les réseaux de neurones, les arbres de décisions, les approches bayésiennes ou encore les régressions. Sur d’autres problématiques, on souhaite en revanche voir émerger des dynamiques sur lesquelles on n’a aucune connaissance a priori sur le problème (clustering). On peut souhaiter par exemple agréger un ensemble de textes par groupe, le résultat pourrait être un classement thématique ou stylistique selon les données fournies en entrée. C’est ce type de méthode qui est utilisée très concrètement pour tenter de retrouver des auteurs de textes anonymes. Beaucoup de ces modèles étant paramétriques, on notera une certaine proximité avec les problématiques de recherche opérationnelle plus généralement appelé optimisation pour les profanes.

Les données étant généralement éclatées entre des systèmes hétérogènes ou bien structurées de manière inexploitables, le data mining n’est jamais très loin de la manipulation de base de données et de data warehouses (base de données structurées de manière à optimiser l’analyse des données plus que leur manipulation). Ces thématiques sont généralement regroupées autour du sigle ETL (Extract, Transform, Load) qui vise à faire communiquer, à faciliter l’analyse et à structurer des données initialement hétérogènes. Par exemple, un data warehouse va généralement agréger des données en les regroupant par similitude (e.g. : par mois et date pour une facture) et précalculer des moyennes de manière à rendre quasi-instantanés des calculs qui auraient été très longs pour des données dites unitaires. Avec les problématiques de visualisation de données et de conception de tableau de bord, c’est l’activité de la moitié des consultants en business intelligence qui est représentée.

 

A propos de l’auteur :

 

Fräntz Miccoli a étudié l’ingénierie au sein de l’EISTI et le management à Grenoble Ecole de Management. Entrepreneur, il a fondé des structures autour des technologies de l’information et de la communication : KenaGard et plus récemment izzijob. Il s’intéresse à l’innovation et plus spécifiquement aux développement des sciences du traitement de l’information.

 

En savoir plus :

 

http://inmaps.linkedinlabs.com/ visualiser votre réseau social et ses communautés sur LinkedIn

Un ouvrage de référence sur le sujet http://www.amazon.fr/Data-Mining-Techniques-Jiawei-Han/dp/0123814790

Un tutoriel autour de Weka une des solutions les plus répandues dans les milieux universitaires http://www.youtube.com/watch?v=m7kpIBGEdkI

 

1
ghzaiel ali : visualiser l’information est l'étape clé pour faire accéder l'humanité à la culture numérique et faire passer le traitement par les graphèmes dans la préhistoire ...
Reply to this comment
Comment on this article
Become a scientific journalist
Help popularize science!
suggest-article Submit an article

Thematic Collections

  • Women In Science

    The place of women in science, portraits of women scientists

    The First European Women Researchers Day: “Let us add more than a factor of two!”
    The First European Women Researchers Day: “Let us add ...
    Tomorrow, European Women Researchers Day Launches in Paris
    Tomorrow, European Women Researchers Day Launches in Par...
  • Open Access

    All about open access in science

    [Open Access Interview] Christine Ollendorff: “Opening science to citizens is one of the main goals of open access.”
    [Open Access Interview] Christine Ollendorff: “Opening...
    [Open Access Interviews] Hervé Le Crosnier
    [Open Access Interviews] Hervé Le Crosnier
  • Science 2.0

    News and the development of Science 2.0

    [Open Access Interviews] Odile Hologne
    [Open Access Interviews] Odile Hologne
    Open communities bring the Open Access Button to life
    Open communities bring the Open Access Button to life