Enjeux du data mining

à l’ère du cloud computing et des réseaux sociaux

Le data mining a évolué du point de vue des thématiques de recherche. Les sujets d’aujourd’hui sont pilotés par deux problématiques. La première s’emploie à intégrer de nouvelles possibilités techniques de calcul distribué qu’il s’agisse du Cloud ou des architectures multiprocesseurs. La seconde s’emploie à analyser de nouveaux sujets d’étude comme les réseaux sociaux. Les premiers demandent de repenser les outils actuels pour pouvoir profiter des nouvelles opportunités technologiques en matière de puissance de calcul. Les seconds sont de nouveaux sujets d’études partiellement traités par les thématiques actuelles.

Le data mining a évolué du point de vue des thématiques de recherche. Les sujets d’aujourd’hui sont pilotés par deux problématiques. La première s’emploie à intégrer de nouvelles possibilités techniques de calcul distribué qu’il s’agisse du Cloud ou des architectures multiprocesseurs. La seconde s’emploie à analyser de nouveaux sujets d’étude comme les réseaux sociaux. Les premiers demandent de repenser les outils actuels pour pouvoir profiter des nouvelles opportunités technologiques en matière de puissance de calcul. Les seconds sont de nouveaux sujets d’études partiellement traités par les thématiques actuelles.

Cet article est le dernier d’une trilogie portant sur le data mining :

1- Le data mining : des données au savoir
2- 
Data-visualisation, machine learning… le data mining sur tous les fronts
3- Enjeux du data mining à l'ère du cloud computing et des réseaux sociaux

 

Paul Erdös à la fois sujet d’étude et personnage important de l’étude des graphes sociaux. Source : Wikipedia

Paul Erdös

 

Contrairement à ce qui était vrai dans la décennie passée, pour des raisons de limitations physiques l’augmentation de la puissance des processeurs se fait de moins en moins grâce à une croissance de leur fréquence de calcul mais plus grâce à la multiplication du nombre d’unités exécutant ces calculs (CPU). Il n’est plus rare de voir des machines affichant 8 cœurs voire bien plus lorsqu’il s’agit de serveurs. Jusqu’à l’apparition des premiers processeurs multi-cœur, il y a un peu moins de 10 ans, lorsque la fréquence augmentait, l’algorithmique pouvait rester identique et voir ses performances techniques suivre. Lorsque les machines se sont vues, non plus avoir un « cerveau » plus rapide, mais plusieurs « cerveaux », l’accélération de la vitesse d’exécution des applications a demandé une réflexion sur l’implémentation et les algorithmes sous-jacents. L’idée est similaire quand il s’agit de distribuer un calcul à la mode Cloud, sur un réseau de machines. Comment profiter de ces évolutions technologiques ?

 

Il convient alors de penser les algorithmes de manières parallélisables ou d’en penser de nouveaux. Très concrètement cela revient à découper le travail à effectuer en blocs conséquents et indépendants de manière à pouvoir les confier à plusieurs unités de calculs pour profiter de leur multiplicité. Lorsqu’un algorithme procède à une série de calculs où chaque calcul a besoin du calcul précédent, on ne peut pas effectuer deux calculs en parallèle, l’algorithme cantonne donc son utilisation à une seule unité de calcul. Ainsi l’enjeu est de réussir à casser la linéarité des étapes d’un algorithme pour pouvoir paralléliser le traitement.

 

Les réseaux sociaux fournissent des thématiques nouvelles permettant également de repenser des problèmes existants. Traditionnellement, le data mining s’intéresse à des données relativement linéaires de dimensionnalité finie. Dans un réseau les personnes sont connectées entre elles. Cela pose des problèmes dans la mesure où ce n’est pas seule la personne qui intéresse mais bien ses liens vis-à-vis des autres, ce que l’on appelle la topologie du réseau. L’idée sous-jacente est de dire que les liens entre les personnes sont aussi importants que les personnes en elle-même pour comprendre les dynamiques.

 

L’étude des réseaux sociaux ne se limite pas à Facebook et consorts. Certains chercheurs emploient le terme de « graphe de terrains » pour désigner un domaine plus large. La relation entre les coauteurs des publications scientifiques, les télécommunications, les actes d’achats ou encore des pages web, toutes ces thématiques ont des propriétés similaires d’un point de vue topologiques, et ainsi, les méthodes développées pour un problème sont transverses. L’algorithme le plus connu sur le sujet est probablement l’algorithme de PageRank à l’origine de la domination de Google sur le monde des moteurs de recherche. Au-delà de mesurer le prestige d’une page web, le data mining peut également s’intéresser à la détection de communautés d’intérêt au sein d’un groupement de personne.

 

Généralement ces problèmes requièrent une des techniques nouvelles car ils sont plus complexes et concernent des ensembles de données très vastes. Il est en effet douteux de procéder à un échantillonnage des données dans la mesure où obtenir un sous-graphe représentatif au sein d’un graphe n’est pas forcément une question triviale.

 

Mais pour venir compléter le problème, la question est aujourd’hui également d’étudier les dynamiques au sein de ces graphes de dimensions titanesques. Par exemple, un opérateur télécom va vouloir anticiper le départ d’un client (attrition) en fonction des appels qu’il passe, ou encore, dans le cas de la publication scientifique, on va souhaiter être capable d’anticiper les nouvelles dynamiques qui peuvent émerger au sein d’une communauté d’auteurs pour anticiper des croisements de thématiques. On va souhaiter prédire l’apparition de nouvelles arêtes au sein d’un graphe de très grande taille en vue d’anticiper les évolutions topologiques de l’espace que nous étudions. Naturellement une des approches les plus courantes consiste à venir enrichir les nœuds de propriétés topologiques caractérisant leur place au sein d’un réseau, avant de procéder à une analyse plus classique en réduisant le problème aux seuls nœuds, ce faisant on se rapproche des problèmes traditionnels en se limitant par la suite à l’analyse des seuls noeuds.

 

Si les réseaux sociaux sont un sujet d’étude récent qui donne lieu à de nouvelles applications au data mining, ils répondent au « pourquoi » du data mining. A l’opposé de la réflexion, l’émergence de la problématique du calcul parallèle vient répondre au « comment ».

 

 

A propos de l'auteur :

 

Fräntz Miccoli a étudié au sein de l’ingénierie à l’EISTI et le management Grenoble Ecole de Management. Entrepreneur, il a fondé des structures autour des technologies de l’information et de la communication : KenaGard et plus récemment izzijob. Il s’intéresse à l’innovation et plus spécifiquement aux développement des sciences du traitement de l’information.

 

En savoir plus :

 

Quelques détails sur les limitations de l’augmentation de la puissance des processeurs http://www.quora.com/Why-havent-CPU-clock-speeds-increased-in-the-last-5-years

Cours sur PageRank http://professeurs.esiea.fr/wassner/?2007/06/03/74-l-algorithme-pagerank-comment-a-marche

Gephi un outil de visualisation pour les graphes https://gephi.org/