Des logiciels fondamentalement différents
Laissez vous guider et retrouvez performance et réactivité
Soyez au coeur de la stratégie
Découvrez l'intelligence économique
Le Datamining
I- Petite histoire des bases de données
Les débuts
Dans les années 70, l'évolution des technologies de l'information a abouti au développement de techniques d'indexation, d'organisation et de manipulation des données. A la même époque, au centre IBM de San José, E.F. Codd inventait le modèle relationnel, qui devint vite un standard pour les bases de données. Peu à peu les interfaces s'améliorèrent et l'accès aux données fut facilité pour l'utilisateur grâce à l'introduction de langages de requêtes (SQL, System Query Langage).
Puis, avec l'apparition de l'OLTP (On-Line Transaction Processing), un type d'opération informatique où l'ordinateur répond immédiatement à la requête (par opposition au mode batch), les bases de données relationnelles ont été rapidement reconnues comme un outil majeur de stockage, de classement et de restitution des données.
OLAP et data warehouses
Au milieu des années 80, les bases de données relationnelles étaient déjà largement répandues. Leur succès, ainsi que l'émergence de systèmes d'information globaux comme le World-Wide Web, a motivé le développement de nouveaux systèmes de stockage des données, et surtout de méthodes pour les analyser.
L'une des architectures de bases de données les plus utilisées aujourd'hui est le data warehouse (entrepôt de données), qui réunit des données venant de sources multiples et hétérogènes, par exemple celles issues des différentes succursales d'une même entreprise. Les données sont automatiquement nettoyées, corrigées, datées et transformées sous un format unique qui les prépare à l'analyse. Celle-ci est effectuée en extrayant des blocs de données intéressantes sous forme de cubes, c'est à dire de tableaux structurés autour de 3 axes (par exemple employé, salaire, et ancienneté), ou d'hypercubes, des cubes de données à n dimensions, organisés autour de plus de trois axes. Les cubes et hypercubes sont manipulés grâce à l'OLAP (On-Line Analytical Processing), une technique qui permet une analyse multidimensionnelle et interactive.
Cependant, d'autres méthodes sont vite devenues nécessaires pour des analyses en profondeur, car l'accroissement prodigieux de la quantité de données a rendu impossible leur analyse sans outils très performants. Certaines entreprises doivent gérer des millions de transactions par jour, stockées dans des bases de données de plusieurs tera-octets ; de plus on estime que la quantité de données collectées par les entreprises double tous les 20 mois. De telles quantités sont impossibles à analyser à la main et même les outils de l'OLAP (ainsi que ses nombreux dérivés : ROLAP, MOLAP, etc...) se révèlent insuffisants.
Ainsi bien que très riche en données, notre monde est pauvre en information. Par manque d'outils permettant d'extraire les connaissances utiles à partir des données brutes, les bases de données sont inexploitables, et les décisions sont plus souvent prises sur la la base d'intuitions que d'informations valables.
L'émergence du data mining
Aujourd'hui, le gouffre qui sépare données et information est peu à peu comblé par le développement des techniques de data mining. Issu de la technologie des data warehouse, il était au départ destiné à aider à la découverte d'informations cachées (ou passées inaperçues) dans ces grands réservoirs. Mais le data mining se diversifie de plus en plus, et s'adapte maintenant à toutes sortes de bases de données.
Outre le fait que le data mining s'applique à des données plus diverses que l'OLAP, ce qui différencie les deux outils est surtout la capacité du data mining à incorporer des techniques de compréhension intelligente des données. L'OLAP doit être guidé étape par étape, il est entièrement contrôlé par l'utilisateur, qui doit poser des questions précises (" a-t-on vendu plus d'eau minérale en Rhone-Alpes qu'en Aquitaine en 2003 ? ") et indiquer sous quelle forme elles seront représentées. En revanche, avec le data mining l'utilisateur pose des questions plus générales, comme " quelles sont les caractéristiques de l'achat d'eau minérale ? ". L'outil de data mining peut repérer seul les informations potentiellement utiles et choisir les représentations les plus adaptées.
Qu'est ce que le data mining ?
Littéralement, datamining signifie " extraction de données ", pourtant parler d'extraction d'informations serait plus juste. Le terme se réfère initialement à une étape centrale du processus connu sous le nom de KDD (Knowledge Discovery in Databases), mais à l'usage il a acquis une signification plus large. Aujourd'hui le data mining désigne l'ensemble des techniques informatiques, outils et applications, permettant de découvrir automatiquement des connaissances nouvelles au sein des grandes bases de données.
En fonction du type de données stockées et des informations recherchées, le datamining utilise des outils issus de nombreuses spécialités différentes : statistiques, algorithmes génétiques, réseaux neuronaux, etc. C'est un champ de recherche multidisciplinaire qui s'est progressivement constitué au cours des dix dernières années.
Ses applications sont très diverses, allant de l'informatique décisionnelle à la recherche scientifique et médicale, en passant par le marketing, la mesure de la performance, et les logiciels de ressources humaines ou de gestion du personnel.