Vous êtes ici :

Le web de données et son évolution
Le web de données et son évolution

En l'espace d’une trentaine d’années les conditions d’une recherche d’information ont totalement évolué, en même temps que les outils et l’environnement technologique même de toute recherche d’information ont été totalement bouleversés par l’émergence successive des ordinateurs personnels, de nouveaux supports de l’information, de nouveaux modes d’accès à l’information et, depuis le début des années 1990, avec l’émergence du Web et ses évolutions.

En parallèle, les outils utilisés pour représenter le contenu des documents analysés et la normalisation les concernant ont connu une évolution quelque peu saccadée : de la fin des années 1980 jusqu’au début des années 2000, les documents de normalisation concernant les langages documentaires/vocabulaires contrôlés, évoluaient peu, du moins sur le plan français (AFNOR) et international (ISO) et il faut attendre le début des années 2000 pour que l’approche conceptuelle des langages documentaires/systèmes d’organisation des connaissances apparaisse de façon explicite et non plus semi clandestine. La publication de la recommandation SKOS du W3C (août 2009) et celle de la norme ISO 25964-1 (août 2011) sont deux manifestations essentielles de cette évolution fondamentale.

1. Le contexte général

Evolution des outils d’indexation documentaire et des systèmes d’information documentaire (vers 1970- vers 2010)

1.1. Les « langages documentaires » (fin du 19e siècle-fin du 20e siècle)

  • Les classifications décimales

Les classifications décimales, dont le prototype a été la Classification Décimale de Dewey, sont apparues à partir de la fin du 19e siècle et sont a priori fondées sur une organisation des connaissances en classes, c’est à dire sur une approche disciplinaire de ces connaissances

  • Les listes d’autorités de matières

Les listes d’autorités de matières, dont le prototype a été la liste de vedettes-matière de la Bibliothèque du Congrès des Etats-Unis (Library of Congress Subject Headings = LCSH) élaborée à partir de 1914 et qui a été à la base à la fois des listes LAVAL (au Québec à partir des années 1940) et RAMEAU (en France à partir des années 1980) privilégient au contraire une approche pluridisciplinaire d’étude de concepts précis et sont fondées sur la notion de sujet.

  • Les thésaurus

Enfin les thésaurus, dont le prototype est apparu aux Etats-Unis à l’extrême fin des années 1950 et dont l’énorme développement a correspondu avec celui de l’informatique et des équations de recherche booléennes, ont permis de bénéficier à la fois d’une approche conceptuelle et combinatoire, tout en offrant une organisation thématique permettant des extensions automatiques de recherche (autopostage) sur un même thème (= microthésaurus) regroupant des descripteurs représentant des concepts thématiquement en relation hiérarchique ou d’association.

1.2. Les évolutions constatées en France (années 1970 - années 1990)

  • Des classifications décimales…

Jusqu'au milieu des années 1970, la recherche documentaire dans les bibliothèques et centres de documentation français s'effectuait essentiellement à partir de fichiers (catalogues) systématiques sur support papier utilisant comme langage documentaire des classifications décimales.

  • … à RAMEAU (Répertoire d’Autorité de Matières, Encyclopédique et Alphabétique Unifié), depuis 1985

RAMEAU représente la version française de listes d’autorités de matières préexistantes, élaborées en Amérique du Nord (Etats-Unis et Québec) au cours de la première moitié du 20e siècle et régulièrement mises à jour depuis cette époque pour permettre l’indexation matière des fonds de nature encyclopédique de très grandes bibliothèques

  • … et à Motbis (thésaurus pour les CDI et autres centres de l’Education nationale), depuis 1989

La version 1.0 du thésaurus Motbis a été publiée fin 1989 par le CNDP. Motbis a été initialement élaboré, entre 1987 et 1989 en liaison avec le Bureau Van Dijk et dans le cadre du CNDP, par un groupe de documentalistes de la direction documentaire du CNDP et de différents CRDP. Ce « groupe de pilotage » a constamment travaillé en relation avec des équipes de documentalistes de collèges et de lycées et s’est appuyé, lors de la collecte initiale du vocabulaire de Motbis sur deux thésaurus préexistants publiés début 1986 : « Mémobase » (évolution du « Répertoire alphabétique de mots clés », élaboré entre septembre 1979 et janvier 1982) élaboré par des équipes de documentalistes de l’académie de Poitiers au cours des années 1984-1985) et « Thélyce » (THEsaurus LYCEe, élaboré entre septembre 1980 et décembre 1985 par des équipes de documentalistes pilotées par l’INRP puis, à partir de septembre 1984 par les CRDP de Grenoble et de Lyon.

2. Problématique de la création, de la maintenance et de l’utilisation de langages documentaires/vocabulaires contrôlés [de représentation de concepts]

  • Problématique des langages documentaires traditionnels (jusqu’à la fin des années 1990).
    Les langages documentaires classiques (classifications, listes de vedettes-matière, thésaurus) étaient fondés sur le postulat d’un outil commun servant à la fois au documentaliste lors de la phase d’indexation des références documentaires (issue elle-même de l’opération d’analyse documentaire) et aux utilisateurs de la base de données documentaire lors de leurs recherches de références documentaires pertinentes
  • Nouvelle approche de la problématique des vocabulaires contrôlés de représentation de concepts (années 2000).
  • Le nouvel environnement d’utilisation des vocabulaires contrôlés comme outils de représentation de concepts (indexation documentaire) et la prise en compte de la coexistence de systèmes d’indexation différents.
    Avec la publication et le changement d’intitulé de la norme américaine ANSI/NISO Z39.19, la notion même de « Vocabulaire contrôlé » qui est définie dans la norme comme fédératrice de l’ensemble des langages et nomenclatures documentaires existants (listes terminologiques d’autorités, listes de synonymes, taxonomies mono ou polyhiérarchiques, thésaurus) est délibérément envisagée dans l’optique de l’interopérabilité entre les divers outils terminologiques existants et dans la perspective de leur double utilisation à la fois dans des références bibliographiques classiques mais aussi dans l’établissement de métadonnées.
  • Différenciation entre vocabulaires contrôlés d’indexation et vocabulaires contrôlés orientés recherche/repérage (« searching/retrieval ») de l’information pertinente Cf. [FF 1999]
    La possibilité, apparue au début des années 1990 sur certains logiciels de recherche documentaire sur micro-ordinateur, d’effectuer des recherches en « plein texte » sur un ensemble de champs (mots du titre, du résumé et de l’indexation, contrôlée ou non…) avait mis en évidence trois constatations :
    • les recherches effectuées uniquement sur une zone d’indexation contrôlée par le langage d’indexation, si elles sont généralement très satisfaisantes en termes de lutte contre le « bruit documentaire », sont néanmoins toujours productrices de « silence documentaire ». Une bonne connaissance préalable du langage documentaire implanté ainsi que des procédures d’optimisation de la recherche (utilisation de l’autopostage sur le thésaurus) permettant d’obtenir de bons résultats sans pour cela approcher l’exhaustivité en termes de pertinence ;
    • les recherches effectuées en « plein texte » permettent souvent d’exhumer des références documentaires tout à fait pertinentes qui ne pourraient pas être retrouvées par l’intermédiaire du langage documentaire implanté. Par contre la recherche « plein texte » est à la fois potentiellement productrice de bruit documentaire (recherches portant sur des chaînes de caractères ambiguës) en même temps que d’un silence documentaire parfois extrêmement important ;
    • les chances d’approcher une certaine exhaustivité dans la recherche sont augmentées si l’utilisateur sait utiliser  de façon conjointe l’autopostage (dans le cas d’une recherche thématique avec un thésaurus) et la troncature, tout en restant quelque peu défensif par rapport à l’ambiguïté potentielle de certaines chaînes de caractères. Néanmoins ce type de recherche correspond fondamentalement à une recherche documentaire de type « expert », qui reste un but à atteindre dans une démarche de formation à la recherche documentaire, mais n’est, de toute évidence, pas le cas de la plupart des élèves, au début de leur cursus secondaire tout au moins.

      Le schéma classique d'utilisation des langages documentaires, outils uniques pour l'indexation et la recherche des références pertinentes montrait lui-même ses limites : il y avait en effet une contradiction apparente entre la nécessité d'élaborer des langages documentaires utilisés par le plus grand nombre de centres possible pour des raisons d'échange de références documentaires et les besoins particuliers de catégories d'utilisateurs spécifiques. Cette contradiction pouvait être surmontée si l'on acceptait de différencier la notion de "langage d'indexation" de celle "d'interface d'interrogation". Il était nécessaire que ces interfaces soient élaborées en cohérence avec les langages d’indexation préexistants et il était souhaitable que les représentations de concepts présentes dans ces derniers ne présentent aucune ambiguïté. Enfin il était également très souhaitable que cette réflexion ne se limite pas à la seule recherche documentaire stricto sensu mais soit étendue aux spécificités inhérentes à la recherche d’information en texte intégral sur des bases de données multilingues qui pose des problèmes de repérage de l’information pertinente de plus en plus cruciaux et de toute évidence encore moins bien maîtrisés par les utilisateurs de base.
  • De langages documentaires peu compatibles à des systèmes d’organisation des connaissances interopérables (Années 2000-2010)

3. Concepts, relations entre concepts et termes, relations entre concepts, relations entre systèmes d’organisation de concepts

Evolution de leur spécification dans les documents normalisés (AFNOR, ISO, W3C) des années 1980 aux années 2010

3.1. Les normes dans ce secteur des années 1970-1980

Année Organisme émetteur Domaine d’application Référence et intitulé de la norme
1978 AFNOR Indexation documentaire Z 47-102 Principes généraux pour l’indexation des documents
1980 AFNOR Thésaurus Z 47-103 Thésaurus monolingues et multilingues – symbolisation des relations
1980 AFNOR Thésaurus multilingues Z 47-101 Principes directeurs pour l’établissement des thésaurus multilingues
1981 AFNOR Thésaurus monolingues Z 47-100 Règles d’établissement des thésaurus monolingues
1985 AFNOR Liste d’autorité française de matières (LAMECH-RAMEAU) Z 47-200 Liste d’autorité de matières – Structure et règles d’emploi
1985 ISO Thésaurus multilingues ISO 5964 Principes directeurs pour l'établissement et le développement de thesaurus multilingues
1986 ISO Thésaurus monolingues ISO 2788 Principes directeurs pour l’établissement et le développement de thésaurus monolingues

Depuis les années 1980 et jusqu’au début des années 2000, les documents de normalisation concernant les langages documentaires/vocabulaires contrôlés, évoluaient peu, du moins sur le plan français (AFNOR) et international (ISO). En France et en ce qui concerne les thésaurus monolingues, en particulier, on en restait à la norme française Z 47-100 de décembre 1981  « Documentation Règles d’établissement des thésaurus monolingues » et à la norme ISO 2788 de 1986 « Documentation -- Principes directeurs pour l'établissement et le développement de thésaurus monolingues ».
Dans la norme Z 47-100, en particulier, le descripteur avait tendance à cacher le concept sous-jacent : il n’était guère question de concepts, mais plus souvent de notions et de descripteurs : la partie 4 qui représente environ la moitié du document est intitulée « Les relations entre descripteurs » et traite successivement des « Relations d’équivalence », « Relations hiérarchiques »  et « Relations associatives ». Il est à noter que le traitement des « Relations d’équivalence » parmi les  « Relations entre descripteurs » ne semble se justifier que par le point 4.1.4. « Cas d’une polyéquivalence » mais que cette présentation était de nature à susciter et entretenir la confusion entre la relation d’équivalence qui ne concerne habituellement que des termes et un concept et les relations hiérarchiques et associatives qui ne concernent que des concepts (représentés par des descripteurs) entre eux. Pour ajouter à la confusion les relations hiérarchiques et associatives entre concepts (descripteurs) sont représentées par des notations qui suggèrent des relations entre termes : en français « Terme Générique » (TG), « Terme Spécifique » (TS), « Terme Associé » (TA). Enfin il est rétrospectivement regrettable que le vocabulaire proposé dans le point 8 ne comporte ni « Concept », ni « Notion ». Il est à noter à ce sujet que la deuxième édition du « Vocabulaire de la documentation » (AFNOR, 1967) ne comportait pas non plus l’une ou l’autre de ces deux « entrées ». En fait, il fallait se reporter à la norme Z 47-102 « Principes généraux pour l’indexation des documents » pour trouver, dans l’annexe 2 (lexique), « concept » qui renvoyait sur « notion ; toute unité de pensée ».

En France, à la fin des années 1990 cependant, les articles de Jacques Maniez [JM 1997] et de Danièle Degez  [DD 1998] mettaient l’accent sur l’intérêt (et les difficultés) de la fusion et de la compatibilité entre langages d’indexation.

3.2. La nouvelle génération de normes relative aux vocabulaires contrôlés et systèmes d’organisation de concepts (années 2000-2010)

Année Organisme émetteur Domaine d’application et liens Référence et intitulé de la norme
2003 ISO (TC 37) Terminologies informatiques ISO 16642 Applications informatiques en terminologie  -- Plate-forme pour le balisage de terminologies informatisées
2003 CEN Vocabulaires contrôlés pour les métadonnées en éducation CWA 14871 Controlled Vocabularies for Learning Object Metadata : Typology, Impact analysis, guidelines and a web based Vocabularies Registry
ftp://ftp.cenorm.be/PUBLIC/CWAs/e-Europe/WS-LT/cwa14871-00-2003-Oct.pdf
2004 W3C Ontologies informatiques Recommandation OWL 1
http://www.w3.org/TR/owl-features/
2005 ANSI-NISO Vocabulaires contrôlés monolingues Z39.19 :2005 Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies http://www.techstreet.com/cgi-bin/detail?doc_no=NISO%7CZ39_19_2005&product_id=1262086
2005 CEN Vocabulaires contrôles en éducation CWA 15453 Harmonisation of vocabularies for eLearning
ftp://ftp.cenorm.be/PUBLIC/CWAs/e-Europe/WS-LT/cwa15453-00-2005-Nov.pdf
2005-2008 BSI Vocabulaires contrôlés et interopérabilté  entre vocabulaires contrôlés. BS 8723: Structured Vocabularies for Information Retrieval
http://schemas.bs8723.org/Default.aspx
2008 ISO (TC 37) Terminologies informatiques et bases de données terminologiques ISO 30042. Systèmes de gestion de la terminologie, de la connaissance et du contenu — TermBase eXchange (TBX)
2009 W3C Ontologies informatiques Recommandation OWL 2
http://www.w3.org/TR/owl2-primer/
2010 ISO (TC46) Thésaurus (monolingues et multilingues) ISO/FDIS 25964-1 Information et documentation -- Thésaurus et interopérabilité avec d'autres vocabulaires -- Partie 1: Thésaurus pour la recherche documentaire
http://www.iso.org/iso/fr/catalogue_detail.htm?csnumber=53657
2010 ISO (TC46) Interopérabilté  entre vocabulaires contrôlés ISO/AWI 25964-2 Information et Documentation -- Thésaurus et interopérabilité avec d'autres vocabulaires
http://www.iso.org/iso/fr/catalogue_detail.htm?csnumber=53658

Il faut attendre le début des années 2000 pour que l’approche conceptuelle des langages documentaires/systèmes d’organisation des connaissances apparaisse de façon explicite et non plus semi clandestine, en particulier par l’intermédiaire du compte rendu du 4e congrès d’ISKO-France [SD 2003]. Cette même année la parution de la norme de terminologie « Applications informatiques en terminologie –Plate-forme pour le balisage de terminologies informatisées » se place dans son point 5.3. « Le méta-modèle terminologique » dans une perspective résolument conceptuelle : « … Une entrée terminologique examine un concept dans une langue donnée et, dans le cas d’entrées terminologiques multilingues, un ou plusieurs concepts totalement ou partiellement équivalents dans une ou plusieurs autre(s) langue(s), alors que une entrée lexicographique contient un lemme (la forme de base d’une unité lexicale simple) et une ou plusieurs définitions (représentant différentes significations) dans une ou plusieurs langues…

Une collection de données terminologique se compose d’information globale relative à la collection et d’un certain nombre d’entrées. Chaque entrée remplit trois fonctions : elle décrit un concept, ou deux ou plusieurs concepts totalement ou partiellement équivalents, dans une ou plusieurs langues ; elle liste les termes qui désignent le(s) concept(s) ; elle décrit les termes eux-mêmes… »[1].
Dans ISO25964-1 (points 6 et 6.1.) Les concepts et leur périmètre dans un thesaurus. Base conceptuelle : La première application d'un thésaurus est la recherche d'information, dans laquelle l'objectif est de chercher des concepts. Les concepts sont représentés par des termes. Chaque terme intégré dans un thésaurus doit représenter un concept unique (ou unité de pensée). Les concepts peuvent aller du plus simple (par exemple "chats") au plus complexe (par exemple «discrimination raciale au sein des minorités ethniques»). Les termes composés ou syntagmes sont généralement nécessaires pour exprimer des concepts plus complexes... ».
Seule une approche conceptuelle est susceptible de permettre l’interconnexion et l’interopérabilité de vocabulaires contrôlés hétérogènes dans une perspective de recherche bibliographique conceptuelle  fédérée (RBCF) tout comme dans une approche conceptuelle de l’information pertinente dans le cadre du Web sémantique [FF 2010].

Note sur l’apparition et le développement des ontologies informatiques et sur les recommandations OWL du W3C.
Les ontologies informatiques sont apparues dans le courant des années 1990, à la suite des travaux de Tom R. Gruber (qui en a donné la définition initiale, en 1992) et de Nicola Guarino (sur les ontologies de haut niveau, en 1994-1996). Leur importance s’est considérablement développée avec le projet Web sémantique du W3C et les recommandations relatives à OWL 1 (2004) et à OWL 2 (2009). Enfin les ontologies informatiques font partie des vocabulaires contrôlés-systèmes d’organisation des connaissances susceptibles d’interopérer dans la future norme ISO 25964-2 (point 22).
« Une ontologie [informatique] est l'ensemble structuré des termes et concepts représentant le sens d'un champ d'informations, que ce soit par les métadonnées d'un espace de noms, ou les éléments d'un domaine de connaissances. L'ontologie constitue en soi un modèle de données représentatif d'un ensemble de concepts dans un domaine, ainsi que des relations entre ces concepts. Elle est employée pour raisonner à propos des objets du domaine concerné… Les concepts sont organisés dans un graphe… L'objectif premier d'une ontologie est de modéliser un ensemble de connaissances dans un domaine donné, qui peut être réel ou imaginaire. Les ontologies sont employées dans l'intelligence artificielle, le Web sémantique, le génie logiciel, l'informatique biomédicale et l'architecture de l'information comme une forme de représentation de la connaissance au sujet d'un monde ou d'une certaine partie de ce monde. » Source : Wikipédia.
OWL a connu deux versions successives : OWL 1 (2004) et OWL 2 (2009). Ainsi qu’il est possible de le constater infra (cf. 6.1), les ontologies OWL occupent une place stratégique dans l’architecture du  Web sémantique.

De ISO 2788 et ISO 5764 à ISO 25964 (1 et 2)
De ISO 2788 et ISO 5764 à ISO 25964 (1 et 2)

3.3. OTAREN et la nouvelle génération de normes relatives aux vocabulaires contrôlés (SKOS, ISO 25964)

OTAREN (Outil Thématique d’Aide à la Recherche pour l’Education Nationale) a été initié en 2004 pour permettre à des « chercheurs d’information » dans le domaine de l’Education en France d’accéder de façon harmonieuse aux dispositifs bibliographiques existants, ceux-ci exploitant soit le thésaurus Motbis (CDI, réseau SCEREN), soit la liste de vedettes-matières Rameau (BM, BU, Bnf), soit les deux (IUFM). L’outil OTAREN proposait dans cette première phase du projet, des équivalences entre les descripteurs de ces deux langages documentaires (permettant de procéder à des réindexations).
Dans un second temps, à partir de 2007, dans l’optique de l’interrogation de banques de données anglophones et francophones, d’autres systèmes d’indexation ont alors été pris en compte : les thésaurus de l’ONU (UNBIS), de l’UNESCO, le Thésaurus Européen de l’Education (TEE) et le Thésaurus européen multilingue de l’Environnement (GEMET) et cela, au moins dans un premier temps, dans leurs versions anglophone (anglo-américaine) et francophone. Ce nouvel axe de développement s’est appuyé sur les travaux concernant l’interopérabilité et l’interconnexion des vocabulaires contrôlés (thésaurus, listes de vedettes matière, classifications décimales…) mis en œuvre tant dans le cadre du W3C (Recommandation SKOS) que dans celui de l’ISO (norme ISO 25964 « Thésaurus pour la recherche d’information et interopérabilité avec d’autres vocabulaires »)
Par rapport à cette multiplicité de systèmes d’indexation, les procédures de « réindexation physique » par une approche de compatibilité descendante telle que mise en place dans la première phase du projet, n’était plus ni suffisante ni réaliste. Un système d’équivalences conceptuelles entre les représentations de concepts présentes dans chacun de ces vocabulaires, sans passer par une phase de modification de l’indexation initiale, semblait une solution plus pertinente et efficace.

3.3.1. Les principaux vocabulaires constitutifs d’OTAREN (février 2011)

Les principaux vocabulaires constitutifs d'Otaren
Les principaux vocabulaires constitutifs d'Otaren

3. 3. 2. Une application concrète : le schéma conceptuel d’OTAREN (février 2011)

Source : CNDP - DMID – Vocabulaires contrôlés
Source : CNDP - DMID – Vocabulaires contrôlés

Notes sur le schéma conceptuel ci-dessus :
La distinction entre « terme préférentiel » et « termes alternatifs » correspond à des balises  SKOS et à  ISO 25964. Par rapport à la norme AFNOR Z 47-100 : 1980, cela correspond à la distinction entre « descripteur » et « non descripteur » ; la notion de degré d’équivalence entre terme alternatif et concept n’est pas actuellement prise en compte dans SKOS ou ISO 25964, mais se justifie totalement dans le cadre d’une recherche sur le Web (en raison à la fois de la masse des ressources concernées et des caractéristiques actuelles des procédures d’interrogation de la plupart des moteurs de recherche).
La diversification entre les 3 premiers types de hiérarchies OTAREN (« générique-spécifique, tout-partie, classe-instance ») est prévue, comme élément personnalisé dans ISO 25964. En ce qui concerne le quatrième type (« thème-sous thème »), c’est une caractéristique propre à OTAREN (elle permet en particulier de gérer la superstructure « thématique » du dispositif de recherche) mais qui permet de distinguer, de façon délibérée ce type d’organisation hiérarchique des 3 autres. Il est à noter que la norme AFNOR Z 47-100, distinguait relation générique-spécifique et relation partitive sur le plan théorique, mais elle ne prévoyait pas de notations (balises) particulières pour les exprimer de façon formelle.

3.3.3. Degrés d’équivalence entre termes et concepts et différenciation des hiérarchies dans OTAREN (février 2011) : deux exemples

a. Séisme

Intitulé Données G3I Données ITM T3
Concept (TP) séisme séisme
Ressource(s) liée(s)
Termes alternatifs exacts Ep secousse sismique
secousse tellurique
tremblement de terre
secousse sismique
secousse tellurique
tremblement de terre
Termes alternatifs proches
Concepts associés Ta catastrophe naturelle
dérive des continents
détection des séismes
faille : géologie
frontière entre plaques tectoniques
géologie appliquée
gestion du risque sismique
mouvement de la surface terrestre
onde sismique
phénomène élastique et vibratoire
risque naturel
sismologie
vague dévastatrice
catastrophe naturelle
dérive des continents
détection des séismes
faille : géologie
frontière entre plaques tectoniques
géologie appliquée
gestion du risque sismique
mouvement de la surface terrestre
onde sismique
phénomène élastique et vibratoire
risque naturel
sismologie
vague dévastatrice
Hiérarchies Tg phénomène géologique
Ts microséisme
région d'activité sismique
réplique d'un séisme
séisme dévastateur
phénomène géologique (générique)
microséisme (spécifique)
région d'activité sismique (sous-thème)
réplique d'un séisme (spécifique)
séisme dévastateur (spécifique)
Alignements exacts Te Activité sismique
earthquake
Earthquakes
Evénement sismique
Séismes
Seismic activity
Seismic events
Activité sismique
earthquake
Earthquakes
Evénement sismique
Séismes
Seismic activity
Seismic events
Alignements proches

Présentation des données ci-dessus : la colonne « Données G3I » comporte les notations Ep, Tg, Ts, Ta correspondant aux notations normalisées prévues dans Z 47-100, plus la notation Te (terme équivalent) propre à G3I. La colonne « Données ITM T3 » est conforme au modèle de données présenté supra, cf. Le schéma conceptuel d’OTAREN.

Commentaire sur l’exemple 1 : Dans ce premier exemple les apports de la nouvelle génération de normes en matière de distinction entre équivalents exacts et équivalents proches, ainsi que dans le domaine de la distinction entre divers types de hiérarchie ne sont pas, ou très peu, concernés. L’on notera toutefois qu’une « région d’activité sismique » n’est ni une forme, ni une partie, ni une instance de « séisme/tremblement de terre/activité sismique », même si les liens avec le phénomène sont particulièrement forts. Dans ce premier cas, l’impact des nouvelles normes est très limité. Il n’en reste pas moins qu’un outil comme OTAREN renforce considérablement l’approche conceptuelle de la recherche : l’on aura exactement les mêmes résultats que l’on cherche sur séisme(s), tremblement(s) de terre, activité sismique ou earthquake(s)…

b. Italie du sud grecque

Intitulé Données G3I Données ITM T3
Concept (TP) Italie du Sud grecque Italie du Sud grecque
Ressource(s) liée(s)    Grande-Grèce (Wikipédia)
Termes alternatifs exacts Ep cités grecques du sud de l'Italie
colonisation grecque + Italie du Sud
colonisation grecque en Italie ancienne
Grande Grèce
Mezzogiorno grec
Sicile grecque
cités grecques du sud de l'Italie
colonisation grecque + Italie du Sud
colonisation grecque en Italie ancienne
Grande Grèce
Mezzogiorno grec
Sicile grecque
Termes alternatifs proches Ep ~anciennes colonies grecques de Siris et d'Eraclea
~Cité grecque de Sicile ~colonie grecque de Calabre
~colonie grecque de Sicile
~colonies grecques en Sicile
~Poséidonia-Paestum
~temples de Paestum
~ville grecque de Sicile
anciennes colonies grecques de Siris et d'Eraclea
Cité grecque de Sicile ~colonie grecque de Calabre
colonie grecque de Sicile
colonies grecques en Sicile
Poséidonia-Paestum
temples de Paestum
ville grecque de Sicile
Concepts associés Ta oeuvre de Pythagore : 570-480 avant JC
Sicile
Sicile
oeuvre de Pythagore : 570-480 avant JC (Contemporain de)
Hiérarchies Tg colonisation grecque
Italie du Sud
Italie préromaine
colonisation grecque (Ins-tance)
Italie du Sud (Générique)
Italie préromaine (Tout)
Alignements exacts Te (colonisation grecque | Antiquité grecque) + (Italie du Sud | Sicile)
Grande-Grèce
Magna Graecia (Italy)
(colonisation grecque | Antiquité grecque) + (Italie du Sud | Sicile)
Grande-Grèce
Magna Graecia (Italy)
Alignements proches Te ~Camarina (ville ancienne)
~Héraclée de Lucanie (ville ancienne)
~Himère (ville ancienne)
~Kaulonia (ville ancienne)
~Locri Epizephyrii (ville ancienne)
~Medma (ville ancienne)
~Megara Hyblea (ville ancienne)
~Messapie
~Messapiens
~Naxos (ville ancienne)
~Pithécusses (ville an-cienne)
~Sélinonte (ville ancienne)
Camarina (ville ancienne)
Héraclée de Lucanie (ville ancienne)
Himère (ville ancienne)
Kaulonia (ville ancienne)
Locri Epizephyrii (ville ancienne)
Medma (ville ancienne)
Megara Hyblea (ville ancienne)
Messapie
Messapiens
Naxos (ville ancienne)
Pithécusses (ville ancienne)
Sélinonte (ville ancienne)
Siris (ville ancienne)

Commentaire sur l’exemple 2 : Dans ce deuxième exemple l’on voit au contraire tout ce que peut apporter la distinction entre équivalences exactes et proches, ainsi que la différenciation entre différents types de hiérarchies et d’associations : la « Grande-Grèce/Italie du Sud grecque » est une forme de l’Italie du Sud, une partie de l’Italie préromaine et une instance de la colonisation grecque. En ce qui concerne l’œuvre de Pythagore, elle est contemporaine (et non simplement associée de façon indifférenciée). Enfin la distinction entre équivalence/alignements exacts et proches permet de pouvoir, lors d’une recherche, faire la différence entre ces deux types d’équivalences, si bien entendu le système de recherche le prend en compte. Il est à noter que le descripteur « Grande-Grèce » qui est apparu dans Motbis en 2001 (Motbis 3.1) a été très peu utilisé contrairement aux descripteurs « colonisation grecque », « Antiquité grecque », « Italie du Sud » et « Sicile » qui continuent à être utilisés conjointement pour indexer l’entité (cf. MémoFiches). A noter également dans cet exemple que ITM T3 permet de lier une (des) ressource(s) externe(s) à un concept.

3.3.4. Deux utilisations potentielles d’OTAREN : PertiBiblio et PertiWeb

Problématique actuelle : la gestion des degrés d’équivalence entre concepts et termes et la différenciation des hiérarchies et associations entre concepts dans la double perspective du Web sémantique (PertiWeb) et d’une Recherche Bibliographique Conceptuelle Fédérée (PertiBiblio).
Dès aujourd’hui les expérimentations menées donnent des indications sur l’utilité d’OTAREN dans ces différentes utilisations et situations, tout en attirant l’attention sur les spécificités liées à ces diverses approches : grand intérêt de l’utilisation de l’autopostage en recherche bibliographique fédérée et aspect prioritaire d’une navigation et d’un accès conceptuel de granularité fine dans l’optique d’une recherche sur le Web.

Prototype
Prototype

4. Innovations en Information-Documentation avant le Web

Quelques points de repère, en France et dans le monde (1961-1985)

  • 1961 : Conférence internationale sur les principes de catalogage 
  • 1965 : informatisation de la Bibliothèque du Congrès et création du 1er format MARC
  • 1974 : 1ère édition de l’ISBD (monographies)
  • 1976 : création de la BPI (décret 76-82 du 27 janvier 1976)
  • 1977 : 1ère édition d’UNIMARC
  • 1980 : informatisation de la Bibliothèque nationale [de France]
  • 1981 : création de l’IBM-PC et du Macintosh d’Apple
  • 1982 : définition des caractéristiques de cédérom-audio
  • 1985 : définition des caractéristiques de RAMEAU (AFNOR Z 47-200)

5. Informatisation et diversification des modes d’accès à l’information

6. Contexte général de l’évolution vers le Web sémantique

La diversification des modes d'accès à l'information sur les ressources accessibles à partir des micro-ordinateurs.

Au cours des années 1990, au fur et à mesure que les possibilités de stockage et de traitement de l’information par les micro-ordinateurs augmentaient et alors que, dans le même temps, ils permettaient d’accéder à un éventail de ressources de plus en plus diversifiées, leurs utilisateurs ont été confrontés à une diversification corrélative des modes d’accès à l’information disponible. Ainsi le passage, en 1994, du logiciel Mémolog au logiciel BCDI correspondait-il à la possibilité d’effectuer des recherches plein texte sur les chaînes de caractères présentes dans les champs « Titre », « Auteurs », « Résumé », « Thésaurus » et « Mots clés » du fichier « Notices » concurremment avec la recherche sur thésaurus déjà pratiquée depuis plusieurs années par certains utilisateurs. Dans le même temps l’accès à des documents électroniques disponibles sur des cédéroms ou sur le Web est géré par de la navigation hypertexte ou offre des possibilités de recherche en texte intégral. Il convient donc de connaître les caractéristiques, les avantages et les inconvénients de ces divers modes d’accès à l’information pour les utiliser de manière efficace.

Les débuts de la navigation "hypertexte" et de l'accès aux "hypermédias". Définie par l'un de ses inventeurs, Ted Nelson, comme "une écriture - lecture non linéaire donnant à l'utilisateur une liberté de mouvement", la notion d'hypertexte est généralement considérée comme étant issue de la notion de "memex" (MEMory EXtended) développée à la fin des années 1930 par Vannevar Bush dans le cadre de l'élaboration, par le MIT, d'un sélecteur rapide de microfilms.
Développé aux Etats-Unis, au cours des années 1960-1970 par Douglas Engelbart et Ted Nelson, l'hypertexte n'a donné lieu en France à des publications destinées au grand public qu'a partir de l'extrême fin des années 1980 (cf. Eléments de bibliographie analytique, ci-dessous), à la suite de la diffusion dans notre pays par Apple des logiciels Hypercard et Hyperdoc. La notion d'hypertexte est étroitement liée à celle d'hypermédias (objets numérisés de type texte, image fixe ou animée, enregistrement sonore) : il est ainsi possible de naviguer d'un objet numérisé à un autre en utilisant les liens hypertextes pré-établis.
Depuis le début des années 1990, l'hypertexte a été largement diffusé auprès du public français par l'intermédiaire de nombreux cédéroms qui l'utilisent ainsi que par l'accès croissant aux serveurs "WWW" (World-Wide Web = W3) du réseau Internet. La navigation hypertexte révolutionne la notion même de mode d'accès à l'information.

Au delà des limites de la recherche par mot-clé
Au delà des limites de la recherche par mot-clé

Le « Web sémantique » est en cours d’émergence : à partir d’une idée initiale émise par Tim Berners-Lee vers 1999, le W3C a élaboré dans le courant des années 2000, les divers outils qui le constituent par le moyen de « Recommandations » publiées entre 2004 et 2009. : pour plus d’information sur l’historique, l’organisation et les buts du web sémantique, l’on pourra utilement se référer à l’article de Bernard Vatant « Web sémantique et web social : un mariage de raison ». Documentaliste, 2009, n° 1, p. 59-60 et à celui de Nigel Shadbolt et Tim Berners-Lee « L’émergence de la science du WEB ». Pour la Science, , n° 159, , p. 74-79.
Source originale du schéma : Beyond the Limits of Keyword Search http://www.flickr.com/photos/calmar/2531744637/

6.1. L’architecture du Web sémantique (Semantic Web Stack), 2000-2010

L’architecture du Web sémantique
L’architecture du Web sémantique

Le « Semantic Web Stack », également connu en tant que « Semantic web Cake » ou « Semantic Web Layer Cake » illustre l’architecture du Web sémantique. Semantic Web Stack [= Pile du Web sémantique]. La Pile du Web sémantique est une illustration de la hiérarchie de langages, où chaque strate exploite et utilise les possibilités des strates inférieures. Les technologies qui sont normalisées pour le Web sémantique sont organisées pour rendre le Web sémantique possible. Il montre aussi comment le Web sémantique est une extension (pas un remplacement) du web hypertexte classique.
Etat actuel de réalisation et d’émergence du Web sémantique (février 2011)
• Les strates du dessous contiennent des technologies (IRI-URI, Unicode, XML) qui sont bien connues dans le Web hypertexte et cela sans base de changement pour le Web sémantique.
• Les strates du milieu contiennent des technologies normalisées par le W3C pour permettre la construction d’application du Web sémantique (RDF, RDFS, OWL, SPARQL)
• Les strates du dessus contiennent des technologies qui ne sont pas encore normalisées ou contiennent juste des idées qui devraient être implémentées dans le but.

6.2. Le Web de données et son évolution, de 2007 à 2010

Le web de données et son évolution
Le web de données et son évolution

Pour aller plus loin

Notes de bas de page

[1] Cette même approche conceptuelle est totalement au centre du modèle de données SKOS (Simple Knowledge Organization System), recommandation du W3C depuis août 2009 (après un certain nombre de préversions depuis 2004) et de la future norme ISO 25964 (bien que le caractère de « norme de transition » de cette dernière la fasse parfois apparaitre comme un peu en retrait par rapport à SKOS. Dans SKOS, « L’élément fondamental  du vocabulaire SKOS est le concept. Des concepts sont les unités de pensée [WillpowerGlossary]—idées, significations, ou (catégories de) objets et événements—qui sous-tendent de nombreux systèmes d’organisation des connaissances [SKOS-UCR]. En soi, des concepts existent dans l’esprit en tant qu’entités abstraites qui sont indépendantes des termes utilisés pour les étiqueter »…

Recherche avancée