L’informatique a permis d’accumuler des quantités massives de données sur des sujets divers et variés, qu’il s’agisse du génome humain, de simples opérations de vente ou encore de données textuelles. Une donnée brute, tant sous sa forme numérique que papier, n’est pas intéressante en elle-même. Le data mining (« fouille de données » pour les francophones, également appelé Knowledge Discovery From Data) lui apporte tout son intérêt. Comment transformer les données en sources de savoir ? Voici l’une des grandes questions qui préoccupent les experts de la donnée. Le data mining tente d’apporter des réponses à cheval sur un grand nombre d’autres disciplines, soit en tant qu’outils comme les statistiques et la recherche opérationnelle, soit en tant que domaine d’application comme la sociologie, le marketing ou la biologie.
Cet article est le deuxième d’une trilogie portant sur le data mining :
1- Le data mining : des données au savoir
2- Data-visualisation, machine learning… le data mining sur tous les fronts
3- Enjeux du data mining à l’ère du cloud computing et des réseaux sociaux
Mining out of Silverton source : adambarhan/flickr
Le terme « data mining » est inadéquat ; c’est un terme péjoratif qui a su avec le temps gagner ses lettres de noblesse et devenir une discipline. Il fait en effet référence à la donnée, alors que l’objet d’intérêt est plutôt le savoir obtenu à partir de celle-ci. Des auteurs jugent le substantif « data mining » aussi adéquat que celui de « mine de terre » pour désigner une mine d’or ou de diamant. Les données ne sont pas le produit fini mais la matière première. Il est admis aujourd’hui que le terme Knowledge Discovery from Data (KDD, découverte de savoir à partir de données) est plus précis et moins sujet à caution, il est cependant peu utilisé. Dater l’apparition de cette science est une tâche malaisée dans la mesure où une question légitime se pose : doit-on compter son origine à partir de l’apparition des premières bases de données (plusieurs milliers d’années) ? Ou plutôt acter cela au développement des premiers algorithmes qui forment aujourd’hui sa base comme les réseaux de neurones, ce qui nous ramènerait en 1943 (avec les travaux de Pitts et McCulloch) ? Ou encore, doit-on se baser sur les algorithmes conçus spécifiquement pour cette discipline dans les années 1980 ?
Faute d’avoir une date de naissance précise, l’apparition du data mining est cependant rattachée à un mythe originel repris dans la quasi totalité des introductions sur ce sujet. Walmart, grand groupe de distribution américain disposant d’une base de données importante constituée de ses ventes, se serait décidé à les analyser. L’analyse mit en avant une corrélation importante entre les ventes de couches et de bière les samedis. Pourquoi ? Il s’est avéré que le samedi était un jour privilégié pour les achats de dernière minute en matière de couches. Les pères venus approvisionner leur famille se trouvaient tentés d’acheter de la bière pour les événements sportifs diffusés en soirée. Walmart se serait servi de cette information pour réorganiser ses rayons en vue de favoriser ce comportement d’achat. Il s’en serait suivi une augmentation des ventes. Cette anecdote relève aujourd’hui d’une légende plus que d’une réalité.
« Comment extraire des connaissances à partir de données ? » Cette question se découpe généralement en deux types de sous-problèmes. Le premier est la prédiction d’un phénomène (classification). On va par exemple disposer d’un ensemble de lignes de base de données représentant des opérations bancaires : montant, date, solde du compte, lieu de la transaction, montant moyen des opérations sur le compte, lieu moyen des transactions précédentes, nature frauduleuse de l’opération ; le jeu va être d’apprendre à reconnaître quels sont les attributs permettant de caractériser une opération frauduleuse. Notons qu’il ne s’agit pas ici de tester une hypothèse, comme on pourrait souhaiter le faire en statistique, mais bien de partir uniquement des données et d’attendre du système qu’il nous fournisse l’hypothèse à travers un modèle.
L’autre grande famille de problèmes vise à structurer un ensemble de données de manière à former des groupements cohérents selon des critères qui peuvent être variés (clustering). Ici, l’exemple évident est celui d’un moteur de recherche, mais on peut également penser à la constitution d’une segmentation marketing qui, mathématiquement, revient à déterminer à l’espace de données des sous-ensembles autour de zones de concentration élevées de point, de sorte que chaque point n’appartienne qu’à un seul sous-ensemble.
Il est commun d’entendre dire que le data mining ne serait que des statistiques qui se seraient abâtardies par manque de formalisme. Si le data mining fait appel à des méthodes statistiques comme la régression, il ne faut pas l’y limiter. Ce domaine apporte ses propres outils ou en emprunte à d’autres disciplines ; il offre également de nouvelles perspectives par exemple de part son lien fort avec la théorie de l’information. Deux citations illustrent ce débat de manière humoristique :
« Le machine learning (NDLA : apprentissage artificiel très lié au data mining) c’est les statistiques dont on a retiré le contrôle des modèles et des hypothèses. »
Brian D. Ripley
Ce à quoi Andrew Gelman a répondu :
« Dans ce cas, peut-être devrions-nous nous débarrasser du contrôle des modèles et des hypothèses. Alors, peut-être, pourrions nous résoudre des problèmes que les pratiquants du machine learning ont résolu et pas nous. »
Les applications du data mining sont légion. En marketing, les données vont être le support pour suggérer de nouvelles opérations de promotion cherchant à favoriser des comportements d’achat préalablement identifiés. Elles peuvent également fournir des informations pour recommander des produits à un utilisateur en fonction de ses achats précédents, comme c’est le cas sur Amazon. Dans le milieu bancaire, on utilise le data mining dans le cadre du « credit scoring », c’est-à-dire le fait de décider si l’on prête ou non à un individu en fonction des informations que l’on possède sur lui. L’objectif est de minimiser les débiteurs faisant défaut. En matière de qualité, il peut être un outil de minimisation des pannes expliquant mieux l’apparition de celles-ci. Les forces de police s’en servent aussi pour identifier et anticiper « les zones à risque ». En biologie, le data mining permet d’identifier les causes de maladies. En ce sens, le séquençage du génome humain ouvre de nouvelles perspectives. Aujourd’hui, même si les données en matières d’acides aminés encodés sont trop colossales pour la technologie actuelle, dans le futur nous pouvons imaginer que des analyses de ces données précises permettront l’étude des facteurs génétiques de certaines maladies.
A propos de l’auteur :
Fräntz Miccoli a étudié l’ingénierie au sein de l’EISTI et le management à Grenoble Ecole de Management. Entrepreneur, il a fondé des structures autour des technologies de l’information et de la communication : KenaGard et plus récemment izzijob. Il s’intéresse à l’innovation et plus spécifiquement aux développement des sciences du traitement de l’information.
En savoir plus :
La police de Charleston utilise le data mining contre le crime http://blogs.reuters.com/mediafile/2012/06/12/charleston-police-to-use-data-mining-to-fight-crime/
Le graphe de collaboration avec Erdös étalon maitre en matière de publication en mathématiques https://netfiles.uiuc.edu/sspain/www/public/FIGS/cgraph.jpg
Un ouvrage de référence sur le sujet http://www.amazon.fr/Data-Mining-Techniques-Jiawei-Han/dp/0123814790
Quelques mots sur le modèle de neurone formel de McCulloch et Pitts (1943) http://fr.wikipedia.org/wiki/Neurone_formel#Le_neurone_formel_de_McCulloch_et_Pitts