Les métadonnées de la publication scientifique

Ordre, classement et partage des données scientifiques

À la manière d’une définition de mot dans un dictionnaire, les metadata sont des données qui décrivent un objet numérique ou physique. Pour avoir une idée de leur utilité, nous pouvons les comparer aux étiquettes utilisées en Grèce antique pour décrire le contenu de papyrus, ces derniers étant entassés en grand nombre sur des étagères. L'étiquette attachée à chaque papyrus permettait d'obtenir rapidement une idée de son contenu sans devoir le sortir ni le dérouler. Si en Grèce ancienne un tel système était efficace, aujourd’hui la masse de données numériques rend primordiale l’amélioration de l’efficacité des systèmes de classification.

À la manière d’une définition de mot dans un dictionnaire, les metadata sont des données qui décrivent un objet numérique ou physique. Pour avoir une idée de leur utilité, nous pouvons les comparer aux étiquettes utilisées en Grèce antique pour décrire le contenu de papyrus, ces derniers étant entassés en grand nombre sur des étagères. L'étiquette attachée à chaque papyrus permettait d'obtenir rapidement une idée de son contenu sans devoir le sortir ni le dérouler. Si en Grèce ancienne un tel système était efficace, aujourd’hui la masse de données numériques rend primordiale l’amélioration de l’efficacité des systèmes de classification.

Une version en anglais de cet article est disponible ici.

 

 
parchemin

Le principe des métadonnées s'inspire de méthodes de référencement qui existaient bien avant l’ère numérique. Source: Flickr / sukisuki

 

Les métadonnées pour mieux classer et identifier

Nous avons déjà abordé le cas des métadonnées de l’industrie de la musique au long d’une série d’articles disponibles ici. L’objet qui nous intéresse plus particulièrement dans ce blog est la publication scientifique. Objet central de la diffusion des savoirs produits par la recherche, l’article scientifique se retrouve également au centre d'un enjeu commercial important lié à sa diffusion et à son archivage. L'article scientifique est le principal outil de communication scientifique. Le but même de son existence est qu’il soit échangé et partagé, pour cela il est nécessaire qu’il soit répertorié et déposé dans des archives et des systèmes informatiques divers.

Pour favoriser les échanges et rendre possible l’interopérabilité entre les différents systèmes, il a fallu développer des normes bibliographiques. Les métadonnées numériques qui sont utilisées aujourd'hui sont inspirées en grande partie des méthodes de référencement et des normes de catalogage qui existaient bien avant l’ère numérique. Chaque document disponible dans une bibliothèque devait être décrit dans une fiche bibliographique contenant des champs comme titre, auteur, nombre de pages, discipline, etc., qui permettaient de l'identifier et de le retrouver facilement. Pour répondre à ces besoins, un grand nombre de normes de catalogage ont été créées (par ex. le Système de classification décimale de Dewey, MARC-21, Unimarc, etc.). Celles-ci restent cependant en partie incompatibles entre elles.

La définition de normes bibliographiques génériques indépendantes des disciplines scientifiques permet de proposer des standards pour les métadonnées associées aux publications scientifiques et d'ouvrir les possibilités de partage et d’échange de ces dernières. En 1995, un groupe de travail international appelé Dublin Core Metadata Initiative (DCMI) et réunissant des professionnels spécialisés dans des disciplines telles que la bibliothéconomie, l'informatique, le balisage de textes, la communauté muséologique et autres, a établi un ensemble de métadonnées génériques pour décrire les ressources numériques (vidéos, images, livres, pages web, etc.). Le format Dublin Core décrit chaque ressource à l'aide des 15 champs optionnels suivants : Titre, Créateur/Auteur, Sujet, Description, Éditeur, Contributeur, Date, Type, Format, Identifiant, Source, Langue, Relation, Couverture, Droits. D’autres standards existent, par exemple MarcXML ou le format JATS, bien plus complexe, utilisé par PubMed et mis en place par U.S. National Library of Medicine. Cependant, les normes définies par le Dublin Core sont de loin les plus couramment utilisées. Les producteurs de contenus sont encouragés à utiliser ces standards pour décrire leurs produits. Les métadonnées ne sont pas destinées à une utilisation directe par l'être humain, elles ne sont pas visibles à l'utilisateur mais elles rendent possible le développement de services liés à l'exploitation des documents scientifiques, par exemple des moteurs de recherche spécialisés. Le web sémantique représente l'ensemble des pratiques et des standards ayant pour but d'enrichir les données initiales par des métadonnées sémantiques afin de produire des fichiers adaptés à de nouvelles utilisations (voir Le web sémantique : un projet pour amener le web à son plein potentiel).

 

Les métadonnées de la publication scientifique en Open Access

Les normes introduites par Dublin Core constituent un pas important vers l'unification des formats de partage des données descriptives des ressources numériques. Si chaque nouveau format défini répond à certains besoins spécifiques, la question qui se pose naturellement est la suivante : Dans le domaine de la publication scientifique, quels sont ces besoins spécifiques ? Les scientifiques et autres personnes utilisant leurs publications, ont entre autres besoin d’identifier rapidement les articles traitant d’un sujet d’étude et les auteurs qui y sont associés. L’institution ou le laboratoire de recherche des auteurs, les droits relatifs à la publication et la date de parution sont également des informations potentiellement utiles. Si la majorité des éditeurs a déjà adopté le format Dublin Core, la façon dont les champs sont remplis peut encore varier selon les différentes sources. Par exemple, le nom et le prénom d'un auteur peuvent être donnés en utilisant plusieurs formes différentes (« Nom, P. » ou « Prénom NOM », par exemple). Le logiciel de gestion bibliographique est l’une des applications les plus parlantes en termes  d’utilisation centralisée d’articles scientifiques issus de divers éditeurs. Cependant, pour obtenir une base de métadonnées cohérente, il est parfois nécessaire de corriger manuellement les erreurs.

 

 
métadonnées
Aujourd’hui la masse de données numériques rend primordiale l’amélioration de l’efficacité des systèmes de classification. Source : Flickr / john-norris
 

La publication d'articles scientifiques en accès libre permet une plus grande visibilité puisque la diffusion est gratuite et se fait par un simple accès à internet. L’Open Archive Initiative (OAI), qui a pour objectif de promouvoir l’Open Access en développant des standards d’interopérabilité, a mis en place le protocole OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) qui permet d'établir l'échange d'informations entre les dépôts (les archives de publications scientifiques) et les fournisseurs de services. Les fournisseurs de services sont l’ensemble des institutions ou sites web permettant d'exploiter les métadonnées récoltées, par exemple des moteurs de recherche comme GoogleScholar ou des sites web comme le réseau social MyScienceWork. L’OAI-PMH, qui utilise le protocole HTTP, permet d’interroger les dépôts d’articles pour récupérer les métadonnées des documents scientifiques et éventuellement de télécharger l’intégralité des textes. Il est donc possible à chacun de ‘moissonner’ –c’est-à-dire de collecter- les metadata des contenus de dépôts en Open Access tels que PubMed, ArXiv ou HAL. Plusieurs annuaires (DOAJ, ROAR) listent des milliers de dépôts Open Access. Ce dispositif permet d'accéder à d’importantes bases de données dans des délais relativement courts. Les métadonnées fournies par le biais de l’OAI-PMH sont définies le plus souvent selon les standards établis par Dublin Core. Notons que Wikipédia fait partie des dépôts qui offrent un accès en OAI-PMH à ses données.

 

Des métadonnées pour le partage des données scientifiques ?

Les standards Dublin Core sont relativement simples. Ils peuvent décrire les publications scientifiques, quelle que soit la discipline concernée. En ce qui concerne le partage des données, aussi appelé Open Data, des difficultés supplémentaires dues à la diversité des formats rendent la définition de standards universels bien plus complexe.

L’Open Data est un concept qui prend de plus en plus d’ampleur au sein de nos institutions et gouvernements. L’Open Data en science pourrait modifier profondément le fonctionnement de la recherche actuelle. En effet, si toutes les données brutes utilisées par les scientifiques étaient librement disponibles, tous les acteurs de la société, à condition qu'ils aient la capacité et les connaissances nécessaires, pourraient potentiellement conduire des recherches sur ces mêmes données. La communauté scientifique, de manière générale, s’enrichirait de ce partage. Cela permettrait de simplifier la mise en place d'un travail collaboratif autour de problèmes complexes (voir l’exemple du projet de mathématiques collaboratif Polymath). Cela ouvrirait l’accès aux données scientifiques à tout un ensemble de personnes qui sont aujourd'hui exclues de ce système (voir l’exemple du projet Eurogenes). Enfin, cela favoriserait fortement la transparence du processus de recherche scientifique. Bien entendu, la concurrence entre les équipes et les laboratoires impose des limites aux pratiques d’ouverture des données qu’il est important de prendre en considération.

Les données scientifiques sont évidemment très hétérogènes selon les différentes disciplines et sujets d'étude. Aujourd’hui, il n’existe pas de standards universels pour les représenter et la mise en place de tels standards sera très difficile. La définition même d’une donnée scientifique n’a pas encore été clairement établie. La standardisation des formats utilisés, d'abord au sein d'une même discipline, puis dans des champs multidisciplinaires, permettrait d'avancer dans ce sens. L’avenir révèlera-t-il de nouvelles pratiques scientifiques grâce à la libération progressive des métadonnées et des données scientifiques ?

 

Merci à Iana Atanassova pour la relecture de cet article.

 

Pour en savoir plus :

Il faut gérer publiquement les données scientifiques : http://owni.fr/2010/09/01/il-faut-gerer-publiquement-les-donnees-scientifiques/

Open data in Science : http://precedings.nature.com/documents/1526/version/1

Michael Nielsen: Open science now! http://www.ted.com/talks/michael_nielsen_open_science_now.html