Vous êtes ici : Accueil > Tous les numéros > Focus > Recherche documentaire > Le Web sémantique. Une approche nouvelle de l’accès à l’information pertinente
N°16 - Juin 2013

Actualites

Du mercredi 20 au vendredi 22 novembre 2013

Educatec-Educatice : salon professionnel de l'éducation

Mercredi 11 et jeudi 12 décembre 2013

Les boussoles du numérique

Recherche

Recherchez sur le site

Newsletter

S'inscrire à la lettre d'information L'École numérique

La librairie en ligne de l'éducation
Agence nationale des usages TICE

Le Web sémantique. Une approche nouvelle de l’accès à l’information pertinente

François FEYLER

Web sémantique, Web 3.0, Web de données : trois appellations pour une même notion

Dans le cas du « Web sémantique/Web 3.0 », comme dans celui de la plupart des autres notions, les appellations correspondant à la notion peuvent être multiples, même si l’on se limite à la langue française : sur Google, le 11 mai 2010, une recherche sur « Web sémantique » donne environ 875 000 résultats, sur « Web 3.0 » environ 1 370 000 et sur « Web de données » environ 220 000. « Data Web » et « Semantic Web » donnent respectivement 1 310 000 et 3 220 000 résultats. Comme pour toutes les autres notions, la recherche avec un outil comme Google affiche des résultats totalement fluctuants et aléatoires en fonction de la chaîne de caractères recherchée.

Comme l’indique l’article de Wikipedia, « le Web sémantique désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessible et utilisable par les programmes et agents logiciels, grâce à un système de métadonnées formelles, utilisant notamment la famille de langages développés par le W3C. Le Web sémantique est fondé sur les protocoles et langages standards du Web : le protocole HTTP ; les Uniform Resource Identifiers (URI) ; le langage XML (dans le cas, majoritaire, où RDF est sérialisé en XML). À ces standards s’ajoutent ceux qui sont propres au Web sémantique : RDF (modèle conceptuel permettant de décrire toute donnée), RDF Schema (langage permettant de créer des vocabulaires, ensembles de termes utilisés pour décrire des choses), OWL (langage permettant de créer des ontologies, vocabulaires plus complexes servant de support aux traitements logiques – inférences, classification automatique…), SPARQL (langage de requêtes pour obtenir des informations à partir de graphes RDF). Ces quatre standards sont ouverts et issus du W3C. Ils forment l’ossature du Web sémantique ».

Le Web sémantique dans le contexte général de l’évolution d’Internet

Si Internet et le Web sont aujourd’hui des notions familières pour le grand public français, cela est relativement récent : les premiers articles qui leur ont été consacrés dans la presse française datent de 1993, pour la presse spécialisée dans le domaine de la documentation, et du début de l’année 1994, pour des publications comme Le Monde et Le Monde de l’éducation.
Issu du réseau de télécommunications militaires ARPANET (mis en place aux États-Unis à la fin des années 1960), Internet a été créé au début des années 1980 pour permettre à un ensemble de réseaux universitaires américains fonctionnant sous le protocole de connexion TCP/IP de travailler en commun.
Au cours de ces mêmes années 1980 un certain nombre de pays d’Europe occidentale et septentrionale (Allemagne, Grande-Bretagne, Pays-Bas, pays scandinaves) ont développé des réseaux nationaux de télécommunications pour la recherche. L’équivalent en France, RENATER, s’est constitué à partir de 1990 et est devenu le maillon français d’Internet aujourd’hui accessible sur le plan mondial.

Agrandir le graphique

Le Web (= World Wide Web = WWW = W3) a été développé par le Centre européen de recherche nucléaire (CERN) à Genève, fin des années 1980. Les services Web sont intimement liés aux notions d’architecture client serveur, d’hypertexte et d’hypermédias : protocole de communication HTTP (HyperText Transfert Protocol) entre un client et un serveur Web, langage de marquage de l’information HTML (HyperText Mark-up Language) pour l’accès à l’information dans un serveur Web.
Après avoir envisagé diverses possibilités d’utilisation d’Internet dans les bibliothèques et centres de documentation, les préoccupations des professionnels de l’information se sont depuis concentrées sur les problèmes d’accès à des informations pertinentes et sur les problèmes juridiques d’utilisation des ressources documentaires accessibles par Internet.

Le Web sémantique est beaucoup plus récent puisque, à partir d’une idée initiale émise par Tim Berners-Lee vers 1999, le W3C (World Wide Web Consortium) a élaboré, dans le courant des années 2000, les divers outils qui le constituent par le moyen de « recommandations » publiées entre 2004 et 2009. Pour plus d’informations sur l’historique, l’organisation et les buts du Web sémantique, on peut se référer à l’article de Bernard Vatant « Web sémantique et Web social : un mariage de raison » (Documentaliste, n° 1, 2009, P. 59-60) et à celui de Nigel Shadbolt et Tim Berners-Lee « L’émergence de la science du Web » (Pour la Science, n° 159, mai 2009, p. 74-79).
Le Web sémantique est actuellement en pleine croissance, mais on peut raisonnablement penser que son émergence va profondément faire évoluer les conditions pratiques de la recherche d’information dans les années à venir.

RDF, OWL, SKOS : outils du Web sémantique et recommandations du W3C

Les trois outils mis en œuvre par le W3C dans cette optique s’orientent vers un renouveau de l’information documentaire structurée. Il s’agit de :

  • RDF (Resource Description Framework), pour la structuration générale (Framework) du dispositif : « Resource Description Framework est un modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions. Développé par le W3C, RDF est le langage de base du Web sémantique. » (Wikipedia)
  • OWL (Web Ontology Language) est un dialecte XML basé sur une syntaxe RDF. Il fournit les moyens pour définir des ontologies Web structurées. » (Wikipedia)
  • SKOS (Simple Knowledge Organization System), pour la mise en œuvre de la conceptualisation et de l’interopérabilité entre les langages documentaires préexistants : « SKOS (Système simple d’organisation des connaissances) est une famille de langages formels permettant une représentation standard des thésaurus, classifications ou tout autre type de vocabulaire contrôlé et structuré. SKOS est construit sur la base du langage RDF, et son principal objectif est de permettre la publication facile de vocabulaires structurés pour leur utilisation dans le cadre du Web sémantique. » (Wikipedia)

La Recommandation SKOS du W3C et l’interopérabilité des diverses représentations d’un même concept

La version officielle de cette recommandation du W3C a été publiée en août 2009, après 5 ans de préversions diverses (2004-2009) et plus de 8 ans après l’article de Tim Berners-Lee, ce qui témoigne de toute la complexité de la mise en œuvre d’un dispositif de ce type. SKOS (traduit en français par « système simple d’organisation des connaissances ») est un élément essentiel du Web sémantique dans la mesure où il offre une structure et une syntaxe permettant de prendre en compte les différentes représentations d’un même concept : termes (descripteurs issus de thésaurus, vedettes-matières, mots et expressions du langage naturel), mais aussi notations diverses pouvant représenter la même notion (dans une classification par exemple).
Pour reprendre l’exemple de « Web sémantique/Web 3.0 », le concept SKOS correspondant [balise skos : Concept] pourra être accompagné de balises de termes préférentiels [balise skos : prefLabel] et de balises de termes alternatifs [balise skos : altLabel]. Il peut en outre comporter des balises de mise en correspondance (=mappage, alignement) permettant d’aller chercher le concept concerné dans tel ou tel système d’indexation existant [balises skos : mappingRelation ; skos : exactMatch, skos : narrowMatch...], en exprimant à la fois des correspondances et des degrés d’équivalences entre les termes d’indexation présents dans ces vocabulaires source et le concept représenté dans le vocabulaire cible. Pour reprendre le même exemple, « Web sémantique » existe à la fois dans RAMEAU et dans Motbis 2010, et « Semantic Web » dans LCSH (système d’indexation de la Bibliothèque du Congrès des États-Unis) : la balise [skos : exactMatch] pourrait donc leur être aussi adjointe.

Si SKOS est un élément important du Web sémantique, il se place également dans un cadre plus général d’accès conceptuel à l’information pertinente et d’interopérabilité sémantique pour lequel la problématique a grandement évolué, dans le monde et même en France, au cours de ces 10 dernières années.

Le Web sémantique dans le contexte général de l’interopérabilité sémantique, années 2000

Interopérabilité dans le domaine des vocabulaires contrôlés et démarche globale d’interopérabilité (2000-2005)
S’il convient de bien différencier compatibilité et interopérabilité, il est tout aussi nécessaire de noter que des dispositifs d’interopérabilité ont été mis en œuvre avant même que le terme ne soit employé : l’ISBD, les formats UNIMARC (données bibliographiques et autorités) et ISO 2709, le modèle OSI, TCP-IP ou Z39.50 en sont l’illustration dans divers domaines.
Si la notion d’interopérabilité est actuellement au centre des réflexions concernant l’évolution et la normalisation des vocabulaires contrôlés (dans la récente norme britannique correspondante, elle constitue une partie d’une cinquantaine de pages), il faut la replacer dans un contexte plus large de la gestion de l’information numérisée. À ce titre, il est intéressant de se reporter au RGI (Référentiel général d’interopérabilité) publié par le ministère du Budget et de la Réforme de l’État en 2005 (www.ateliers.modernisation.gouv.fr/ministeres/domaines_d_expertise/architecture_fonctio/public/rgi) et au « Cadre commun d’interopérabilité » du ministère des Services gouvernementaux du Québec.

L’émergence de la notion d’interopérabilité (interoperability) en français et en anglais
La notion d’interopérabilité est une notion relativement nouvelle en France. Bien que le terme apparaisse souvent dans des documents en français accessibles sur Internet, il est loin d’être aussi communément utilisé que son équivalent anglophone interoperability. Une recherche effectuée sur Google le 31 décembre 2006 sur ce terme donnait 1 310 000 pages (dont 1 070 000 pages – France) pour le français et 17 900 000 pages pour l’anglais.
De la même façon, si on consultait les dictionnaires du CILF (Conseil international de la langue française – www.cilf.org/bt.fr.html) à la même époque, on ne trouvait pas le terme recherché alors que le Grand Dictionnaire terminologique (office québécois de la langue française – www.oqlf.gouv.qc.ca/ressources/gdt.html) apportait un résultat positif comportant l’équivalence indiquée et la définition suivante : « Capacité que possèdent des systèmes informatiques hétérogènes à fonctionner conjointement, grâce à l’utilisation de langages et de protocoles communs, et à donner accès à leurs ressources de façon réciproque. » En note, était indiqué que « l’interopérabilité implique qu’un programme tournant sur un système ouvert fonctionnera également sur un autre système. L’interopérabilité a besoin de plus qu’une bonne connectivité technique puisqu’elle nécessite l’utilisation d’éléments comme des interfaces de programmation et des formats de données standardisés. L’interopérabilité définie ici est l’interopérabilité technique, mais il en existe d’autres types dont l’interopérabilité sémantique qui est associée à un mode de description de l’information contenue dans une base de données (cette description forme les métadonnées) ».
En fait par-delà l’interopérabilité des systèmes informatiques (ou interopérabilité technique) définie dans les années 1980 par le modèle OSI et les divers protocoles de réseaux d’ordinateurs (protocole TCP-IP, protocole HTTP…), les préoccupations actuelles concernent de plus en plus l’interopérabilité des données elles-mêmes. C’est dans ce cadre que se place la problématique de l’interopérabilité terminologique.

Interopérabilité terminologique et repérage de l’information pertinente
Depuis le début de la décennie 2000, plusieurs documents, essentiellement d’origine anglo-saxonne, ont mis l’accent sur l’intérêt et l’importance de l’interopérabilité en ce domaine.

On peut citer, d’abord, diverses interventions relatives à ce sujet lors des 67e, 68e et 69e conférences générales de l’IFLA (2001-2003).

  • Amélioration de l’interopérabilité des systèmes grâce à Z39.50 : profils Z39.50 et bancs d’essai pour des développements en bibliothèques, William E. Moen (2001).
    Cette intervention d’un membre de l’École de bibliothèque et sciences de l’information de l’université du Nord-Texas met l’accent, dès son introduction, sur les objectifs d’interopérabilité recherchés par ce protocole ANSI/NISO défini au début des années 1980, ainsi que sur les améliorations apportées à ce protocole à la fin des années 1990 (profils Z39-50) et présente les caractéristiques et les apports du profil de Bath publié en 2001 pour améliorer l’interopérabilité en ce domaine. Dans le cas de cette première référence, il convient donc de préciser que l’interopérabilité recherchée ne se limite pas à l’interopérabilité terminologique sur des indexations de natures et d’origines différentes, mais concerne des ensembles de notices bibliographiques dans des formats MARC hétérogènes. Cependant, cette situation se retrouve dans une bonne partie des cas dans lesquels des systèmes d’interopérabilité terminologique sont susceptibles d’être mis en œuvre.
  • Interopérabilité des accès matière : conclusions du projet HILT (High Level Thesaurus), Dennis Nicholson (2002).
    Cette contribution d’un membre du Centre pour la recherche informatisée en bibliothèque de la Strathclyde University de Glasgow présente les différentes phases du projet cité dans le titre et le prototype « d’interopérabilité des accès matières » TeRM (Terminologies route map = navigateur terminologique) mis en œuvre à cette occasion en 2001-2002 sur LCSH et les thésaurus de l’UNESCO et de l’AAT dans une approche Z39.50.
  • Réalisation de l’interopérabilité entre vocabulaires d’accès matière et systèmes d’organisation de la connaissance : une analyse méthodologique, Lois Mai Chan et Marcia Lei Zeng (2002).
    Cette contribution de deux membres de l’École de bibliothèque et sciences de l’information de l’université du Kentucky aborde le problème indiqué dans le titre dans le cadre de « l’environnement hétérogène de la recherche documentaire sur le Web, [...] du besoin d’interopérabilité entre différents vocabulaires et classifications mais aussi différentes langues » et dresse un panorama des méthodes employées pour réaliser l’interopérabilité.
  • Schémas de métadonnées pour les répertoires par sujet, Lynne C. Howarth (2003).
    L’auteur de cette communication, membre de la faculté d’Études de l’information de l’université de Toronto, présente dans un premier temps les différents types de sujets définissables avant d’étudier les structures de métadonnées applicables à ces divers sujets et d’examiner les moyens d’améliorer les dispositifs actuels parmi lesquels il place l’interopérabilité en toute première préoccupation : « La nécessité d’améliorer les protocoles de métadonnées inter-domaines et les passerelles pour supporter l’échange des enregistrements ira grandissante ; les standards de métadonnées supportant l’interopérabilité aux niveaux technique, sémantique, organisationnel, inter-communauté et international peuvent nécessiter d’être développés ou améliorés… »

Ensuite, vient la parution de la première édition de la norme ISO 16642 : « Computer Applications in Terminology – Terminological Markup Framework = Applications informatiques en terminologie – Plateforme pour le balisage de terminologies informatisées » (août 2003).
L’introduction de cette norme définit un méta-modèle de plateforme informatisée fondée sur une approche intégrée utilisable « aussi bien dans l’analyse de nomenclatures terminologiques existantes que dans la détermination de nouvelles » et inscrit délibérément cette approche dans l’optique de formats SGML (ISO 8879 de 1986) et de XML (W3C). Elle indique également qu’une implémentation spécifique du méta-modèle terminologique exprimée en XML est appelée TML (Terminological Markup Language). Par ailleurs le point 4 de la norme définit les principes généraux et le principe d’interopérabilité applicables à un ensemble de balisages TML.

Enfin, citons le changement d’intitulé de la norme américaine ANSI/NISO Z39.19 qui, dans sa dernière édition d’août 2005, devient « Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies » alors qu’elle s’intitulait « Guidelines for the Construction, Format, and Management of Monolingual Thesauri » depuis sa première édition en 1974.
L’une des nouveautés majeures de cette nouvelle édition réside dans le fait qu’elle consacre dans ses annexes une quinzaine de pages à la question de l’interopérabilité à établir entre des vocabulaires contrôlés existants de diverses natures (listes d’autorités matière comme LCSH et RAMEAU, mais aussi thésaurus comme ERIC...) et envisage plusieurs dispositifs pour y parvenir.

Outre ces éléments, essentiellement d’origine anglo-saxonne (nord-américaine et britannique), il faut également citer le projet multilingue européen MACS (Multilingual Access to Subjects = Accès multilingue par sujet). Ainsi que le présente la BnF [cf. BnF-RAMEAU Cooperation internationale.mht], ce projet « a pour but de développer l’accès multilingue par sujet, afin de permettre à l’utilisateur final ou professionnel d’interroger directement, dans sa langue maternelle, le contenu de catalogues étrangers : un utilisateur français pourrait ainsi rechercher, en français, sur le sujet qui l’intéresse, tous les documents signalés par les catalogues de bibliothèques étrangères, même s’ils sont indexés en allemand, en anglais, ou en toute autre langue. Actuellement, dans le prototype proposé, l’interrogation par sujet peut se faire, au choix, en anglais, en allemand ou en français, dans les catalogues des quatre bibliothèques nationales partenaires : la Bibliothèque nationale suisse (SNL), la BnF, la British Library et la Deutsche Bibliothek. Mais, tel qu’il a été conçu, ce projet pourrait être étendu à d’autres langues. L’interrogation multilingue a été rendue possible grâce au travail effectué par les gestionnaires des trois langages d’indexation utilisés dans ces bibliothèques : RAMEAU (pour le français), LCSH (pour l’anglais), SWD (pour l’allemand). À terme, relier ainsi les langages d’indexation déjà existants par des équivalences devrait permettre d’accéder, via le protocole Z39.50, aux millions d’indexations déjà réalisées avec ces langages [...] ».

Sur le plan français, il convient également de citer « Accès thématique en bibliothèque numérique : le rôle du langage documentaire de type thésaurus » (in Les bibliothèques numériques, sous la direction de Fabrice Papy, Hermès – Lavoisier, 2005 ; p. 151-177, ISBN : 2-7462-1036-3).
Ce travail, huitième chapitre d’une étude menée sous la direction d’un enseignant-chercheur de l’université Paris 8 aborde successivement les points suivants :

  • la problématique de l’accès thématique en bibliothèque numérique ;
  • l’interopérabilité sémantique et les langages documentaires ;
  • le « macrothésaurus » en action : application en contexte gouvernemental.

Dans la troisième partie du chapitre concerné, l’étude présente et compare les « macrothésaurus » Eurovoc (Union européenne), TSBGC (Thésaurus des sujets de base du gouvernement du Canada), GILS Topic Tree (États-Unis) et GLL (Government Category List, Grande-Bretagne).

Bien qu’initialement, il n’ait pas été envisagé dans cette perspective d’interopérabilité multilingue, le projet OTAREN (Outil thématique d’aide à la recherche pour l’Éducation nationale), mené à titre expérimental par la DRT (Direction des ressources et des technologies) du SCÉRÉN-CNDP depuis 2004, s’inscrit dans une problématique similaire.

Le CNDP, OTAREN et l’approche d’interopérabilité des vocabulaires contrôlés
La logique d’élaboration d’OTAREN par le CNDP (DRT puis DMID) est totalement cohérente avec celle de SKOS et, donc, du Web sémantique.

OTAREN a été élaboré par la DRT à partir de janvier 2004 sur la base initiale de la version 3.1 de 2001 du thésaurus Motbis et de la liste d’identificateurs ID-MEMO (complément à Motbis de noms de personnages et de sites maintenu par le CRDP de Poitou-Charentes entre 1992 et 2004). Cette opération s’est par ailleurs déroulée dans la double perspective de l’élaboration de la nouvelle version du thésaurus Motbis (2006) et de la compatibilité descendante avec le système d’indexation RAMEAU (utilisé pour l’indexation des références bibliographiques dans la plupart des grandes bases bibliographiques françaises actuelles : BN-Opale de la BnF, Sudoc de l’AbesS et Electre...).
Dans sa version la plus aboutie (fin avril 2006), OTAREN comportait donc 7 989 notions déclarées équivalentes, avec 59 825 autres termes parmi lesquels 29 804 « constructions » RAMEAU.
Le vocabulaire disponible était alors essentiellement français, mais des concordances dans d’autres langues utilisées dans les pays de l’Union européenne (anglais, allemand, espagnol, italien…) étaient relativement faciles à établir par l’intermédiaire de RAMEAU (LCSH) et par celui d’outils terminologiques tels que les dictionnaires du CILF ou le Grand dictionnaire terminologique.
OTAREN 2006-2007 était élaboré en cohérence avec RAMEAU (liste nationale française d’autorités matières) et avec Motbis. À ces compatibilités déjà établies se sont ajoutées des équivalences avec d’autres grands systèmes d’indexation multilingues (UNBIS – United Nations Bibliographic Information System et thésaurus de l’UNESCO) dans leurs équivalences francophones et anglophones. Les équivalences de même type avec « Gemet. Thésaurus multilingue de l’environnement » ont été également prises en compte.

Les évolutions d’OTAREN depuis 2006 et l’interopérabilité terminologique

Alors que ses versions précédentes étaient monolingues et avaient été élaborées dans une perspective de compatibilité par rapport à RAMEAU et Motbis, OTAREN 2010 (tout comme OTAREN 2007) est délibérément bilingue (français/anglais). Outre les systèmes d’indexation précédemment indiqués, il vise la compatibilité avec d’autres systèmes d’indexation utilisés en France et à l’étranger, dans les régions francophones et anglophones. Cette évolution a été possible grâce aux évolutions récentes et prévisibles de la normalisation nord-américaine et européenne relative aux vocabulaires contrôlés (Controlled Vocabularies) de représentation des connaissances telles que la version 2005 de la norme ANSI/NISO Z39.19 « Guidelines for the Construction, Format and Management of Monolingual Controlled Vocabularies » ou dans la partie 4 de la norme britannique British Standard (BS 8723) : « Structured vocabularies for information retrieval – Guide. Part 4 : Interoperability between vocabularies ». Il convient également de prendre en compte la future norme ISO 25964 relative aux vocabulaires structurés.

Dans cette optique, et en utilisant les équivalences déjà établies avec RAMEAU, OTAREN a pu en faire de même, dans de très nombreux cas, avec LCSH et MeSH. De la même façon, des équivalences ont été établies entre les termes préférentiels d’OTAREN et des formes jugées équivalentes dans les thésaurus de l’UNESCO (UNESCO-ENG et UNESCO-FRE), de l’ONU (UNBIS-ENG et UNBIS-FRE), de l’Union européenne (Eurovoc-ENG et Eurovoc-FRE) ainsi qu’avec le Thésaurus européen de l’Éducation (TEE-ENG et TEE-FRE) et le Thésaurus multilingue sur l’environnement (GEMET-ENG et GEMET-FRE). La quasi-totalité des concepts et entités présents depuis près de 20 ans dans Motbis est également susceptible d’acquérir, par l’intermédiaire de cette version bilingue d’OTAREN, des équivalences dans les grands systèmes d’indexation proposés par des institutions telles que la Bibliothèque nationale de France, la Bibliothèque du Congrès, le Système universitaire de documentation, l’UNESCO, l’ONU, l’Union européenne ou encore l’INRP. Par rapport à OTAREN 2007, la version 2010 a pris en compte des équivalences supplémentaires avec Eurovoc et avec Termsciences.

OTAREN 2010 et ses principaux vocabulaires source

OTAREN 2010 et ses principaux vocabulaires source

Pour en savoir plus

Sur l’historique, l’organisation et les buts du Web sémantique

  • Tim Berners-Lee, James Hendler and Ora Lassila, “The Semantic Web” in Scientific American, mai 2001.
    www.scientificamerican.com/article.cfm?id=the-semantic-web
  • Bernard Vatant, « Web sémantique et Web social : un mariage de raison », in Documentaliste, n° 1, 2009, p. 59-60.
  • Nigel Shadbolt et Tim Berners-Lee, « L’émergence de la science du WEB », in Pour la Science, n° 159, mai 2009, p. 74-79.

Sur le Web sémantique

Sur OTAREN et l’interopérabilité des vocabulaires contrôlés