Analyse sémantique

Le dialogue entre l’ homme et la machine

semantiqueL’analyse d’une langue naturelle passe par des opérations communes aux linguistes et aux informaticiens : L’analyse lexicale (ou morphologique) consiste à identifier les lexèmes, c’est à dire les unités signifiantes les plus fines. Il s’agit des mots et des expressions (les ensembles de mots qui ont une signification fixe, par exemple  » boite postale « ).

L’analyse syntaxique est l’étude de la structure de la phrase, dans le but de définir comment les lexèmes sont organisés et quelles fonctions ont les mots qui servent à les mettre en relation. Les lexèmes sont réunis en syntagmes, des groupes de mots dont la fonction est connue.

L’analyse sémantique (et en informatique l’analyse pragmatique) tente de découvrir de façon plus générale le sens des phrases ou de textes entiers. C’est la phase la plus laborieuse pour les machines, et pour cette raison elle reste encore assez peu employée. Les outils qui opèrent cette analyse font souvent appel à de gigantesques thésaurus, permettant de classer chaque terme dans une arborescence de concepts pour déterminer les thèmes dominants d’un texte, ainsi qu’à des algorithmes complexes permettant d’évaluer les relations entre les différentes idées d’un texte donné.

Grâce à ces méthodes, un programme peut (avec plus ou moins de succès) faire des résumés de textes, traduire ou corriger, comparer les styles de plusieurs auteurs, comprendre des expressions d’apparence différente mais de même signification, rechercher par thèmes plutôt que par mots-clef, ou extraire automatiquement de certains éléments signifiants en plein texte pour les intégrer dans une base de données. C’est ce que propose Semantis pour  CVTracker avec la création automatique de CVthéques (analyse sémantique des CV), et pour CRM VisualProspect (analyse sémantique de taches à réalisées). Les applications potentielles sont très variées, car l’analyse sémantique peut aider tout système où un humain et une machine doivent échanger des informations : domotique, reconnaissance vocale, documentation, moteurs de recherche…

Rendre la machine capable de mieux interpréter notre langage ne veut pas dire pour autant qu’elle deviendra forcément  » intelligente « , comme l’ont compris depuis longtemps les scientifiques qui travaillent sur le TAL (Traitement Automatique de la Langue). L’objectif de ce champ de recherche est de créer des interfaces entre les langues naturelles et la machine. Un bon système de TAL doit passer le test de Turing, c’est à dire que la machine doit pouvoir discuter avec l’homme sans que ce dernier ne se rende compte que son interlocuteur n’est pas humain. Les succès sont donc très rares, et pourtant ils n’impliquent pas forcément une grande complexité ni une quelconque intelligence de la part de la machine. Historiquement, le premier système artificiel à avoir passé le test de Turing est le programme de dialogue ELIZA, crée en 1966 par Joseph Weizenbaum. Bien que très simple dans sa conception et basé sur une analyse sommaire du langage, ce programme de simulation de discussion avec un psychanalyste réussit à tromper de nombreux utilisateurs – mais pas tous, loin de là. Ce n’est qu’un demi-succès, et jusqu’à aujourd’hui aucun programme n’a obtenu de réussites systématiques au test de Turing.

Aujourd’hui, l’analyse sémantique et les outils de TAL visent moins souvent à tromper l’humain, qu’à l’assister dans ses tâches quotidiennes en interprétant ses requêtes avec plus d’efficacité. C’est donc naturellement dans le domaine de la recherche d’informations que les applications seront les plus performantes. La quantité toujours croissante de documents textuels sur le web rend très difficile la découverte des informations pertinentes, obligeant ainsi les outils de recherche à améliorer sans cesse leurs méthodes, en intégrant peu à peu la sémantique dans leur techniques d’indexation. Cependant il existe peu de vrais moteurs sémantiques à l’heure actuelle, car ce type d’analyse consomme trop de ressources. La plupart du temps, ce sont encore les méthodes statistiques qui sont employées pour indexer les sites.

 

L’émergence du web sémantique

Indéniablement l’avenir de l’analyse sémantique se trouve sur internet. Depuis quelques années une idée nouvelle, celle de  » web sémantique « , gagne en popularité. Défini en 1999 par Tim Berners-Lee, le web sémantique est une amélioration du web actuel par le biais de méta-données, c’est à dire de données sur les données, qui permettront aux machines de mieux interpréter le sens des textes parcourus. Les éléments de base de ce web sont déjà posés : le XML (eXtensible Markup Langage) et surtout le RDF (ressource Description Framework), des langages destinés à mieux décrire et indexer les contenus des documents circulant sur internet, afin de faciliter l’analyse des pages.

Aujourd’hui, XML et RDF se répandent progressivement, et les applications capables d’en tirer parti sont toujours plus nombreuses. Ils transformeront notre web si mal organisé en une base de données plus utilisable et presque intelligente. Ainsi, grâce à l’analyse sémantique, le web de demain comprendra mieux nos questions, saura évaluer nos besoins et pourra communiquer plus clairement avec nous.