Ressources humaines
CRM
Accueil.Nos logiciels.Education.La société.Télécharger.Contact.
 Des logiciels fondamentalement différents
Laissez vous guider et retrouvez performance et réactivité
Soyez au coeur de la stratégie
Découvrez l'intelligence économique
Semantis - Editeur de logiciels
2- Comment fonctionne le data mining ?

Data mining et KDD

Dans sa plus ancienne acception, le datamining est le processus central du KDD (Knowledge Discovery in Databases). Cette étape si importante que le terme de KDD est maintenant souvent remplacé par celui de Data mining, plus parlant. Le KDD peut être schématisé par une suite d'opérations de transformation et d'analyse des données :

Data cleaning : phase d'élimination du bruit et des données inutiles : filtrer, trier, homogénéiser, nettoyer. Les données peuvent être incomplètes, contradictoires, ou contenir des erreurs humaines ou informatiques. Lors du data cleaning les données sont comparées, pour tenter de combler automatiquement les lacunes et corriger les erreurs.

Data integration : phase d'association de multiples sources des données sous une forme unique, généralement dans le cadre de l'architecture d'une data warehouse. Cette étape sert à régler le problème des incompatibilités entre les différents systèmes informatiques et systèmes de stockage des données d'une même entreprise. Par exemple toutes les sommes indiquées dans des devises différentes peuvent être converties eu euros. Ou encore, le champ adresse peut être décomposé en champs ville, rue et pays. Les données sont aussi datées et résumées.

Data selection : les données ayant un rapport avec l'analyse demandée sont retrouvées dans la base.

Data transformation : les données sont regroupées, normalisées, et transformées dans un format qui les prépare au mining.

Data mining : un processus essentiel où des méthodes intelligentes sont appliquées pour extraire des éléments remarquables, des patterns. Il s'agit de configurations de données dont la structure est inhabituelle, qui présentent des corrélations imprévues, des écarts statistiques, ou tout ce qui sort de l'ordinaire.

Pattern evaluation : On identifie les patterns intéressants, ceux qui représentent de l'information. L'intérêt des patterns est évalué par les outils de data mining en utilisant des règles objectives basées sur la structure des patterns et les statistiques qui les sous-tendent, ainsi que des règles subjectives basées sur les croyances des utilisateurs (ce savoir est stocké dans une base de connaissances). Par exemple, une information est intéressante si elle contredit les croyances de l'utilisateur.

Knowledge présentation : des techniques de visualisation et de représentation sont utilisées pour présenter clairement à l'utilisateur le savoir extrait des données : tables, arbres, règles, graphiques, courbes, matrices, cubes, etc.

Les techniques et outils du data mining

Les outils de data mining ne sont pas tous basés sur les mêmes principes. Différentes méthodes peuvent être utilisées en fonction de la nature des données dont on dispose, et des informations recherchées. Voici quelques unes des techniques les plus couramment employées :
- Analyse du panier de la ménagère (APM) ou recherche d'associations,
- Statistiques,
- Raisonnement basé sur la mémoire (RBM),
- Découvertes de règles,
- Arbres de décision,
- Pattern recognition,
- Réseaux neuraux,
- Apprentissage automatique,
- Fuzzy set theory,
- Détection automatique des clusters,
- Analyse des liens,
- Algorithmes génétiques,
- Traitement analytique en ligne (TAEL),
- Réseaux bayesiens.

- Les systèmes de data mining les plus sophistiqués combinent plusieurs de ces techniques.

L'une des méthodes les plus importantes est l'analyse de clusters, qui consiste à segmenter une population hétérogène en sous-populations homogènes. Un cluster est un ensemble de données qui sont similaires aux autres dans le même cluster, et différents des objets dans les autres clusters. On appelle clustering le processus qui consiste à regrouper un ensemble d'éléments en classes d'objets similaires, sans modèle préconçu (ce en quoi ce concept se différencie de celui, plus large, de classification). En clair, différencier spontanément les chiens des chats dans la petite enfance, est de l'analyse de clusters.

Le datamining.
Le datamining 3.
LABORATOIRE