Le web sémantique : un projet pour amener le web à son plein potentiel

Le web sémantique (généralement associé au terme « web 3.0 »), est une notion que l’on rencontre de plus en plus. Que désigne cette association des mots « web » et « sémantique » qui appartiennent tous deux à des disciplines relativement éloignées que sont l’informatique et la linguistique ? Le web du futur sera-t-il « intelligent » et capable de juger de la pertinence d’une réponse en analysant  la sémantique de la question correspondante ? Nous offrira-t-il la possibilité d’exploiter l’ensemble des contenus du web de façon parfaitement pertinente et précise ?

Le web sémantique (généralement associé au terme « web 3.0 »), est une notion que l’on rencontre de plus en plus. Que désigne cette association des mots « web » et « sémantique » qui appartiennent tous deux à des disciplines relativement éloignées que sont l’informatique et la linguistique ? Le web du futur sera-t-il « intelligent » et capable de juger de la pertinence d’une réponse en analysant  la sémantique de la question correspondante ? Nous offrira-t-il la possibilité d’exploiter l’ensemble des contenus du web de façon parfaitement pertinente et précise ?

 

Le web sémantique est un projet initié en 2001 par Tim Berners Lee1, inventeur du World Wide Web. Ce projet s’est développé sous l’égide du W3C qui est un organisme de standardisation des formats informatiques utilisés sur internet. A l’origine et depuis lors, son ambition a été de développer un ensemble de technologies visant à décrire et exploiter de manière systématique la sémantique des ressources du web. Sans remettre en question les fondements technologiques du web actuel, il a pour objectif son extension et une meilleure structuration des contenus.

 

Web semantique et ontologies - source : Samuel Huron/Flikr
web sémantique mots

 

Les ressources et leur sémantique

 

Pour en comprendre les concepts de base, on peut tout d’abord tenter de définir les notions de "ressource" et de "sémantique".

Actuellement le web contient un ensemble de pages localisées grâce à des adresses virtuelles, les URLs (Uniform Resource Locator) et d’autres objets, recensés par des URNs (Uniform Resource Names). Une ressource, identifiée de manière unique par ces dernières, peut renvoyer à une simple page HTML s’affichant dans un navigateur, mais aussi à une image, à une vidéo, à un paragraphe de texte, à une définition wikipédia, etc… La limitation du web actuel naît du fait qu’un ordinateur ayant à manipuler des URLs ne sait pas « rentrer » dans le contenu des ressources associées pour réaliser des traitements informatiques plus fins. Par exemple, on souhaiterait qu’un ordinateur puisse répondre correctement et automatiquement à un autre ordinateur lui posant la question : « Transmets-moi une image de chien ». Pour cela, il faut que les deux programmes possèdent chacun des informations supplémentaires sur les images qu’ils ont à disposition. C’est à ce niveau qu’intervient la notion de sémantique [1].

Cette dernière peut se caractériser par le triplet (ressource, agent, concept), où une ressource est définie comme précédemment (ex. une image), un agent peut être un simple programme s’exécutant sur un ordinateur et un concept est le terme utilisé par le web sémantique pour désigner l’information associée à une ressource, et qui définit à quelle catégorie cette dernière appartient. La sémantique consiste donc fondamentalement en une relation d’interprétation [2]. Soit en langage courant : « Que veut dire pour X le terme Y ? » Une réponse possible : Cette image, pour ce programme donné, est un chien ! Ce principe est déjà utilisé en informatique, notamment avec les métadonnées et les TAG. Les métadonnées sont des informations inscrites à l'intérieur d'un fichier, qui le décrivent et n'apparaissent pas lorsqu'on le visualise. Elles sont la base de l’archivage et du catalogage. Le web sémantique en propose une utilisation systématique, structurée et normalisée.

Ce principe de construction des données prend toute son ampleur et son sens dans le contexte du web, où les ressources sont entièrement distribuées. Localement les données nécessaires ne sont pas  toujours disponibles. Par conséquent, un système doit être capable de mettre en œuvre des procédures automatiques d'exploration et d'interrogation. Deux agents logiciels peuvent par exemple échanger à distance des données, mais sous réserve qu'ils partagent le même système de description et les mêmes conventions d'interprétation sémantique des objets qu'ils manipulent (ils doivent parler le même langage). D’où l’intérêt de la standardisation et le rôle du W3C (World Wide Web Consortium) ou des différentes normes industrielles comme ISO (International Organization for Standardization) pour assurer cette interopérabilité.

 

Les ontologies

 

Ce système de description basé comme on l’a vu sur la notion de concept, consiste en fait en un réseau de concepts désigné par le terme « ontologie » en référence à la discipline philosophique développée par Aristote qui s’attache à investiguer « l’être en tant qu’être ». Néanmoins dans le cadre technologique du web sémantique, une ontologie n’est pas un programme d’investigation mais un objet mathématique et informatique recevant une définition précise.

Les concepts d'une ontologie sont reliés entre eux par différents types de relations comme la relation de spécification (ex : la catégorie des chiens est une spécification de la catégorie des mammifères), ou bien encore des relations propres à un domaine comme « X se trouve dans Y », « X est l’auteur de Y », « X est le titre de Y» etc... Une ontologie exprime des relations généralement vérifiées entre des catégories d'entités d'un domaine donné. Ainsi, si une ontologie spécifie que le concept désignant la catégorie des chiens est une spécification du concept relatif aux mammifères, alors un système peut facilement exploiter cette nouvelle information pour par exemple renvoyer  l'image d'un chien quand la requête soumise à un moteur de recherche sémantique est : « Transmets moi une image de mammifère ». Ces mécanismes dotent ainsi le web de capacités de raisonnement participant à l’amélioration de la pertinence des réponses lors d’une recherche sur internet.

Des ontologies simples existent déjà pour des domaines particuliers comme FOAF (Friend Of A Friend) décrivant l’identité et les liens sociaux entre personnes ou DublinCore pour la description des ressources numériques multimedia (titre, auteur, format...). Toutes deux consistent en un vocabulaire XML étendu et normalisé. L’ontologie actuelle la plus importante est the « Gene Ontology ». Issue d’un projet de bioinformatique, elle a pour objectif de standardiser la représentation des gènes de toutes les espèces pour rendre possible l’interopérabilité des bases de données.


Gene ontology, un réseau complexe de catégories d’objets décrivant les gènes. source : Wandora.org
Gene ontology réseau

 

Les facteurs de diffusion du web sémantique

 

Un préalable à la mise en place de sites web aux normes du web sémantique à grande échelle consiste notamment à savoir comment attribuer les bonnes métadonnées (faire la bonne catégorisation sémantique) aux contenus. Or, à la vue de la taille des données présentes sur internet, il est difficile d’envisager cette opération sans l'utilisation d'outils adaptés. Au moins deux solutions se présentent ; 1) associer des fonctions supplémentaires aux outils d’édition et de création de contenus web. Sous cette option un producteur (par exemple un rédacteur de textes) pourra lui-même décider des concepts sémantiques décrivant au mieux sa production, ou 2) utiliser des outils d’analyse automatique de contenus dont la tâche a posteriori est de faire de la catégorisation sémantique. Par exemple, il existe des outils d’analyse de la parole (passage de l’oral vers l’écrit), d’analyse d’images (par exemple pour reconnaître qu’une photo est la représentation d’un chien), ou encore d’analyse automatique de textes (à partir du lexique et de la syntaxe, rendre « compréhensibles » les phrases) puisque l’essentiel des contenus web est sous forme textuelle. Concernant le traitement automatique des requêtes exprimées en langage naturel dans les moteurs de recherches, l’analyse linguistique n’est pas très fine puisque ils se basent sur des mots-clés sans tenir compte de phénomènes tels que l’homonymie, la synonymie, les expressions etc… Tous ces domaines techniques de recherche et développement sont autant de facteurs qui participent et participeront à la diffusion de cette technologie.

D’un point de vue informatique et plus concrètement, une ontologie est un fichier (XML) associé au contenu qu’il s’attache à décrire. Le W3C recommande en fait une famille de langages à l’expressivité variable : RDF (Resource Description Framework), OWL (Web Ontology Language)… En termes d’outils, il existe plusieurs éditeurs d’ontologies pour manipuler du code RDF/OWL comme Protégé ou Altova SemanticWorks, et aussi des API (Application Programming Interface) comme Jena ou OWL-API. Au niveau interrogation, SPARQL est un langage de requête pour RDF dont le modèle de données sous-jacent est le graphe. Par ailleurs, des outils comme Fact++ ou Pellet sont des raisonneurs automatiques pouvant tester la consistance d’un ensemble d’assertions ou bien réaliser certains types d’inférences. Au niveau des acteurs industriels se plaçant dans ce cadre technologique en France, il y a par exemple Exalead (moteur de recherche), Arisem, Temis ou Mondeca (applications de veille automatique, gestion électronique de documents et traitement automatique des langues). Aux Etat-Unis, Google ou Oracle s'y intéressent également.

L’essor du web sémantique sera optimum seulement si les standards sont massivement adoptés. Pour cela il y a plusieurs enjeux préalables :

_ L’effort de standardisation

_ La facilité de description et d’attribution des descriptions sémantiques aux ressources

_ La compatibilité avec l’existant.

Pour approfondir les aspects techniques, voir notamment le site du W3C ou bien : Pascal Hitzler, Markus Krötzsch, et Sebastian Rudolph, Foundations of Semantic Web Technologies, 1er éd. (Chapman and Hall/CRC, 2009).

En conclusion, le web sémantique vise à faciliter l’exploitation des données structurées du web et leur exploitation par les machines. Désigné en 2001 comme l’évolution logique du web par son créateur, il nécessite néanmoins un important effort de standardisation à l’échelle globale. C’est un projet ambitieux dans lequel d’importants progrès ont déjà été faits et restent à faire. L’espoir est encore entier d’obtenir un jour un web qui répondrait à nos besoins de façon pertinente  tout en optimisant la gestion des contenus mis en ligne.

 

Sources :

 

T. Berners-Lee, J. Hendler, et O. Lassila, « The semantic web », Scientific American 284, no. 5 (2001): 34-43. Franz Baader, The description logic handbook: theory, implémentation, and applications (Cambridge Univ Pr, 2003). http://www.w3.org/TR/2009/REC-owl2-primer-20091027/

 

Notes :

 

[1] http://www.semantique-gdr.net

[2] Cette problématique du sens à son pendant en philosophie de l’esprit avec le philosophe américain John Searle qui réfutait la conception de l'esprit humain calquée sur le modèle de l'ordinateur. Pour lui, une machine, à la différence de l'humain, est un manipulateur de symboles sans capacités d'interprétation et de « compréhension ». Le projet du web sémantique, même si cela reste intrinsèquement impossible pour une machine, tend vers l'atténuation de cette lacune. La définition du sens pour un esprit humain, quant à elle, reste à être investigué par les sciences cognitives.

 

En savoir plus :

 

Les cours de Serge Abiteboul au Collège de France http://www.college-de-france.fr/site/serge-abiteboul/le-web-semantique.htm

Web sémantique et web social : nouvelles pratiques de recherche et circulation des savoirs sur le web 3.0 http://www.centre-dalembert.u-psud.fr/index.php?option=com_content&view=article&id=319