Vous êtes ici :

Archive

De la différence entre langage d'indexation et langage d'interrogation. Langages documentaires et évolution des outils et des modes de recherche de l'information sur micro-ordinateurs : problématique de la différenciation entre langages d’indexation et interfaces de recherche.

1 - L’évolution des langages documentaires, des réservoirs de notices qui les utilisent et des systèmes de recherche documentaire informatisée (centres de documentation et bibliothèques), en France depuis la fin des années 1970.

Jusqu'au milieu des années 1970, la recherche documentaire dans les bibliothèques et centres de documentation français s'effectuait essentiellement à partir de fichiers (catalogues) systématiques sur support papier utilisant comme langage documentaire des classifications décimales (Classification Décimale Universelle ou Classification Décimale de Dewey). Ces classifications servaient à la fois d'outils d'indexation (établissement d'indices de classification visant à représenter le contenu du document concerné) et d'outils de cotation (établissement d'une cote indiquant à quel endroit ce document avait été rangé).

Entre le milieu des années 1970 et celui des années 1980, la situation a radicalement changé : après la décision, prise en 1976, par la Bibliothèque Publique d'Information d'utiliser le Répertoire de Vedettes Matières de l'Université Laval à Québec (et non pas une classification décimale), la Bibliothèque Nationale (de France) a pris une décision identique en 1980. Au cours de cette même période le CRDP de Poitou-Charentes a impulsé une évolution similaire en élaborant une série de listes de vedettes matières pour les CDI de collèges et de lycées puis pour les BCD des écoles primaires : élaboration du "Répertoire de mots clés" (1980-1982), devenu "Mémobase" en 1986, élaboration, toujours en 1986, de "Mémoprim". Dans le même temps le Cercle de la Librairie éditait le "Choix de vedettes matières à l'intention des bibliothèques". Enfin, en 1985, l'AFNOR publiait la norme Z47-200 définissant la "Liste française d'autorité de matières" : "LAMECH" devenue "RAMEAU" en 1987.

Entre le milieu des années 1980 et celui des années 1990, la situation, en ce domaine, a continué à évoluer :

  • Dans le cas des CDI des établissements du second degré et dans celui des centres de documentation formant le réseau du CNDP (CRDP et CDDP), les logiciels documentaires sur micro-ordinateurs, dont ils se sont massivement équipés lors de ces dix dernières années, utilisent tous aujourd'hui le thésaurus "Motbis".
  • Dans le cas des bibliothèques, qui se sont elles-mêmes largement informatisées depuis dix ans, cette informatisation, opérée dans de nombreux cas à partir des données élaborées par la Bibliothèque Nationale (base de données BN-OPALE, CD-ROM BNF), a induit une utilisation massive de RAMEAU comme langage documentaire. La décision, prise en 1990 à la suite du "Schéma directeur de l'information bibliographique", de demander aux Bibliothèques Universitaires d'utiliser RAMEAU ainsi que celle, prise en 1995 par le Cercle de la Librairie de ne plus utiliser le "Choix de vedettes matières à l'intention des bibliothèques" mais RAMEAU pour l'indexation de sa base de données (et de son CD-ROM) "Electre", font que RAMEAU est aujourd'hui le langage documentaire totalement dominant dans l'ensemble des bibliothèques françaises.

En 1998, la plupart des données documentaires élaborées en France par des centres de documentation dépendant du Ministère de l'Education nationale (CRDP, CDDP, CDI) et par la quasi-totalité des bibliothèques sont indexées soit en Motbis, soit en RAMEAU.

Il y a encore une vingtaine d'année les classifications décimales étaient encore les seuls outils d'accès à l'information dans la quasi-totalité des bibliothèques et des CDI français. Elles cumulaient trois fonctions : représentation du contenu intellectuel des documents (indexation), recherche des références documentaires pertinentes (fichiers systématiques matières) et accès aux documents eux-mêmes (cotation).

La nature codée des classification décimales les rendaient extrêmement difficiles d'accès pour des utilisateurs non formés à la recherche documentaire (jeunes élèves, "grand public") : dans leurs fonctions classiques d'indexation et de recherche documentaire, elles ont été progressivement remplacées, dans les bibliothèques et dans les CDI, par d'autres types de langages documentaires (listes de vedettes-matières, thésaurus) plus proches du langage naturel, pour ne plus conserver, en particulier dans les CDI et les BCD, que leur fonction d'accès aux documents.

Le schéma classique d'utilisation des langages documentaires, outils uniques pour l'indexation et la recherche de l'information pertinente montre lui-même ses limites : il y a en effet une contradiction apparente entre la nécessité d'élaborer des langages documentaires utilisés par le plus grand nombre de centres possible pour des raisons d'échange, national ou international, de références documentaires et les besoins particuliers de catégories d'utilisateurs spécifiques. Cette contradiction peut être surmontée si l'on accepte de différencier la notion de "langage d'indexation" de celle "d'interface d'interrogation".

De plus il faut tenir compte du fait que, si les CDI et le réseau CNDP utilisent Motbis (dont il ne faut pas oublier, malgré certaines polémiques actuelles, qu’il a été élaboré et maintenu dans l’objectif de prendre en compte les besoins spécifiques des élèves et des enseignants du second degré), les bibliothèques françaises (la BNF mais aussi les bibliothèques universitaires, les BDP et un nombre de plus en plus important de bibliothèques municipales) utilisent RAMEAU, ce qui est également le cas des deux grands « réservoirs » français de notices bibliographiques (BNF-livres et Electre). Si RAMEAU n’est pas un thésaurus (et de ce fait ne permet pas d’extensions de recherche utilisant l’autopostage) et si le niveau de langue et les concepts présents dans certaines des vedettes matières qui en sont issues ne sont, de toute évidence, pas adaptés aux besoins spécifiques des élèves des établissements d’enseignement du second degré (et en particulier aux élèves des collèges), il n’en reste pas moins vrai que RAMEAU est utilisé depuis aujourd’hui une bonne vingtaine d’années (si l’on prend en compte ses origines québécoises) par la BPI et la BNF, qu’il a servi à indexer des centaines de milliers de livres (dont les références sont disponibles en particulier sur les cédéroms de données bibliographiques proposés en licence mixte) et qu’il a fait la preuve de sa grande évolutivité. En outre RAMEAU est présent dans l’environnement documentaire immédiat des CDI (BM, BDP), de même que les étudiants y seront confrontés, dans les bibliothèques universitaires après leur sortie du lycée. Pour toutes ces raisons il est donc particulièrement intéressant aujourd’hui qu’une interface de recherche ne vise pas l’unique compatibilité avec le langage d’indexation utilisé dans la base de données bibliographique locale, mais également la compatibilité avec RAMEAU.

L'évolution prévisible vers des modes de recherche en langage naturel ne remet pas obligatoirement en cause l'intérêt de l'utilisation de langages documentaires de type thésaurus : contrairement à ce que l'on peut entendre ça et là, on peut même raisonnablement penser que, s'ils deviendront "transparents" par rapport aux questions posées par des utilisateurs de base, ils demeureront des outils importants au sein des moteurs de recherche en langage naturel.

2 - L’évolution des logiciels et des procédures de recherche documentaire sur micro-ordinateur.

En outre la possibilité, apparue au début des années 1990 sur certains logiciels de recherche documentaire sur micro-ordinateur (BCDI par exemple, mais c’est également le cas en recherche « sujet » dans le logiciel de recherche du cédérom ELECTRE sous « Windows »), d’effectuer des recherches en « plein texte » sur un ensemble de champs (mots des champs « titre », « résumé », « thésaurus », « mots clés »…) a mis en évidence trois constatations :

  • Les recherches effectuées uniquement sur une zone d’indexation contrôlée par le thésaurus implanté, si elles sont généralement très satisfaisantes en termes de lutte contre le « bruit documentaire », sont néanmoins toujours productrices de « silence documentaire ». En outre l’obtention de bons résultats à l’issue d’une recherche de ce type nécessite à la fois une bonne connaissance préalable du langage documentaire implanté ainsi que des procédures d’optimisation de la recherche (utilisation de l’autopostage dans le cas d’une recherche sur thésaurus par exemple) sans pour cela aboutir à des résultats totalement exhaustifs en termes de pertinence.
  • Les recherches effectuées en « plein texte » permettent d’exhumer des références documentaires tout à fait pertinentes qui ne pourraient pas être retrouvées par l’intermédiaire du langage documentaire implanté : quelque soient les bases de données concernées (y compris BN-OPALE, ELECTRE ou la base de données documentaires du CRDP de Poitou-Charentes) certaines références n’ont pas été indexées, d’autres ont été analysées (et donc indexées) de façon quelque peu approximative, dans certains cas les concepts nécessaires à une indexation appropriée n’étaient pas disponibles dans le langage d’indexation utilisé lors de la création des données. Par contre la recherche « plein texte » est à la fois potentiellement productrice de bruit documentaire (recherches portant sur des chaînes de caractères ambigües) en même temps que d’un silence documentaire.
  • Les chances d’approcher une certaine exhaustivité dans la recherche sont augmentées si l’utilisateur sait utiliser de façon conjointe l’autopostage (dans le cas d’une recherche thématique avec un thésaurus) et la troncature, tout en restant quelque peu défensif par rapport à l’ambiguité potentielle de certaines chaînes de caractères. Cependant ce type de recherche correspond fondamentalement à une recherche documentaire de type « expert », mode de recherche qui reste un but à atteindre dans une démarche de formation à la recherche documentaire, mais n’est, de toute évidence pas le cas de la plupart des élèves, au début de leur cursus secondaire tout au moins.

3 - Problématique et étapes de l'élaboration d'interfaces d'interrogation pour les logiciels BCDI (1994-1998).

3.1 - Dicoprim (1994-1995)

Au cours de l'année 1993, quand nous avons travaillé sur les caractéristiques du système de recherche documentaire à définir pour BCDI-Ecole, une question fondamentale s'est tout de suite posée : fallait-il utiliser un langage documentaire déjà existant ou fallait-il créer un nouveau langage documentaire ? La question posée revêtait en fait trois aspects particuliers :

- Adaptation nécessaire du langage documentaire concerné avec les besoins de ses utilisateurs potentiels (élèves et enseignants des écoles élémentaires).

- Prise en compte des documents présents dans les écoles et de références documentaires concernant ces mêmes documents. Un certain nombre d'écoles, en cours d'informatisation avec d'autres logiciels utilisaient Mémoprim (élaboré par le CRDP de Poitou-Charentes en 1986) mais la plupart du temps ces références n'existaient que hors des écoles (Bibliothèque Nationale, bibliothèques municipales, BDP, CRDP, IUFM...) et avaient alors la caractéristique commune d'être indexées soit avec Motbis, soit avec RAMEAU.

- Prise en compte des potentialités et des limites de la recherche plein-texte disponible dans BCDI-Ecole, par rapport à des utilisateurs pour la plupart non formés à la recherche documentaire.

Aucun des trois langages documentaires identifiés ne se révélant correspondre aux caractéristiques propres à BCDI-Ecole (recherche plein-texte), ni aux besoins particuliers de ses utilisateurs (le vocabulaire de Mémoprim ne correpondait qu'à l'indexation de "documentaires" pour les élèves et avait été établi dans la perspective de la constitution de fichiers-papier, alors que Motbis et RAMEAU comportaient de toute évidence un niveau de langue inadapté pour de jeunes enfants), mais tenant compte de la nécessité d'être compatible avec des langages d'indexation préexistants et d'utiliser intelligemment les potentialités du plein-texte, Dicoprim a été finalement défini non pas comme un langage documentaire classique (servant à la fois à l'indexation et à la recherche de références documentaires), mais comme une interface d'interrogation pouvant porter son action à la fois sur de l'indexation établie avec des langages préexistants (Mémoprim, Motbis, RAMEAU), mais aussi sur le plein-texte. C'est dans cette optique qu'il a été élaboré en 1994, puis légèrement modifié en 1995 pour tenir compte des tests effectués.

Dicoprim 2 est :

- "L'interface d'interrogation" d'un logiciel documentaire "plein texte" (BCDI-école, version 1.1) visant à répondre aux questions de publics biens définis (élèves et enseignants des établissements du premier degré), par l'intermédiaire de 3 modes de recherche (modes "simplifié", "normal" et "expert").

- Un "dictionnaire thématique" permettant de naviguer entre un terme représentant une notion et ses équivalents (singulier / pluriel, forme courante et forme savante, graphies différentes d'un même nombre, mais aussi adjectifs et verbes à l'infinitif). Dans les cas d'ambiguités possibles (homographies, polysémies), le même terme apparaît plusieurs fois, accompagné d'une précision entre parenthèses permettant de lever le risque d'ambiguité. Chaque notion présente dans Dicoprim est en relation hiérarchique ("sous-thème") de l'un des 45 "thèmes généraux" constituant la base de l'organisation du vocabulaire.

3.2 - Problématique d’élaboration de Dico : interface d'interrogation en «mode simple» pour les versions 2 de BCDI et BCDI-spécial (1997-1998).

Malgré les avantages et la simplicité de mise en oeuvre d'une recherche plein texte, les résultats de recherches documentaires effectuées en mode simplifié de BCDI et BCDI-spécial étaient souvent extrêmement partiels et aléatoires, même dans le cas de questions apparemment simples dans leur formulation en langage naturel (exemples : «les villes dans l'Occident médiéval», «la société japonaise depuis 1945»). Pour résoudre efficacement ce genre de questions, il convenait de mettre en oeuvre des équations de recherche complexes portant à la fois sur les descripteurs du thésaurus (avec autopostage) et sur les chaînes de caractères du plein texte (avec troncature). Par essence, la majorité des utilisateurs du mode simplifié etait incapable de dominer cette complexité. Il fallait donc de leur fournir un moteur de recherche leur permettant d'optimiser les résultats des questions qu'ils savent poser.

Elaboré au cours de l'année civile 1998, «Dico» comportait (juin 1998) environ 14500 termes répartis en 130 thèmes généraux. Si le nombre de termes disponibles dans Dico est d'un ordre de grandeur assez comparable à celui de Dicoprim 2 (12800 termes), la structuration de ce vocabulaire (130 thèmes généraux dans Dico contre 45 dans Dicoprim 2) et les objectifs de ces deux interfaces sont cependant assez sensiblement différentes :

- Alors que Dicoprim représentait, pour les utilisateurs de BCDI-Ecole, l'unique outil de recherche documentaire quel que soit le mode de recherche effectué, l'action de Dico, dans BCDI 2, ne s'exerce que dans le mode de recherche «simple» : en mode «avancé» ou en mode «expert» les recherches documentaires utiliseront le plein-texte et / ou le thésaurus.

- Alors que Dicoprim n'était destiné à exercer son action que sur des bases de références documentaires relativement restreintes (inférieures à 10 000 références dans la plupart des cas), Dico est destiné à être utilisé dans des bases de données souvent beaucoup plus importantes (médiathèques de CRDP-CDDP, CDI de gros établissements...) et s'adresse à des publics beaucoup plus hétérogènes dans leurs sujets de recherche que ceux de Dicoprim.

Evolutions de Dico (octobre -décembre 1998).

Au cours de cette période un travail important de modification de l'interface-prototype a été effectué dans le but d'améliorer la triple compatibilité visée par "l'interpréteur du plein-texte" dans BCDI :

- Compatibilité avec Motbis version 3.0 : prise en compte des modifications apportées au thésaurus dans sa version 3 et, en particulier des précisions rajoutées à certains descripteurs (ce qui augmente l'importance de la zone d'indexation contrôlée dans le travail effectué par l'interface de recherche).

- Compatibilité avec RAMEAU (par l'intermédiaire de la consultation systématique du cédérom "Les notices d'autorité de BN-Opale" : il s'agissait de rechercher systématiquement l'élément de vedette RAMEAU (tête de vedette et/ou subdivision(s)) correspondant au concept représenté par le descripteur de Motbis (ou de ID-Mémo).

- Compatibilité avec le "plein texte" : ce troisième élément a lui même été recherché de deux façons différentes : d'une part les formes exclues correspondant à des vedettes RAMEAU jugées équivalentes à des descripteurs Motbis ont été prises en considération, d'autre part un travail de recherche sur l'index "plein texte" de la base de données du CRDP de Poitou-Charentes (fonds documentaire spécifique au CRDP + dépouillement des "Mémofiches") a été systématiquement effectué. Enfin, dans de nombreux cas et, en particulier, dans ceux des noms de sites et de personnages non-ambigus, les chaînes de caractères utilisées pour la recherche ont été simplifiées au maximum : tout en s'appuyant sur l'ensemble Motbis/ID-Mémo d'une part et sur RAMEAU d'autre part, Dico n'en est cependant pas prisonnier.

Les conséquences de ce travail, effectué entre le 6 octobre et le 9 décembre 1998 et qui vise à la fois à simplifier l'interface de recherche et à augmenter ses performances, sont les suivantes :

Dico6 octobre 19986 mars 1999Évolution
Nombre de termes 1441513855- 560
Nombre de concepts (termes en relations hiérarchiques)85467317- 1229
Nombre total d'équivalences90489935+ 887
Nombre d'associations20251600- 425
Nombre total de relations2193521105- 932
Recherche avancée