Web sémantique
ContexteDepuis 2011, la Bibliothèque nationale de France est entrée dans une démarche d’ouverture des données, avec l’exposition, sur le « Web de données », de données brutes, sur le site data.bnf.fr. Elle répond ainsi à sa mission de diffusion de son patrimoine le plus largement possible et par les moyens techniques les plus modernes. L’ouverture des données, dans la perspective du « Web sémantique » ou « Web de données » (linked data), est définie par le W3C. Le « Web sémantique » permet aux données disponibles d’être plus facilement utilisables et interprétables automatiquement par des machines. S’appuyant sur ces technologies, le « Web de données » (Linked Data) permet de sortir les données de leurs silos, pour les publier sur le Web et les relier entre elles pour constituer un réseau global d'informations. Pour en savoir plus sur le web sémantique, ainsi que sur son application dans les projets de la BnF : http://data.bnf.fr/semanticweb Ces outils sont une opportunité pour l’intégration des bibliothèques et la valorisation de leurs ressources sur le Web. A la BnF, ils permettent d’articuler les différentes bases comme BnF Catalogue général, BnF Archives et manuscrits, la bibliothèque numérique Gallica, et de se lier automatiquement à des données extérieures. En fournissant des données structurées et exploitables par des machines, ces techniques permettent de sortir des ressources, rares et de bonnes qualité, jusque-là cachées dans le « Web profond », afin de les rendre visibles sur le Web. La BnF étend cette expérience au site reliures.bnf.fr en diffusant ses données en RDF (Resource Description Framework). Pour l’utilisateur il s’agit de trouver facilement ou de découvrir les informations et les ressources associées de la BnF, numériques ou non, sur le Web. Les données d’une base spécialisée comme celle des reliures sont liées avec des données complémentaires, permettant notamment de les contextualiser ou de les comparer. Par exemple, depuis une page de reliures.bnf.fr, l’internaute peut naviguer vers Gallica et voir une reliure numérisée, ou encore vers data.bnf.fr, pour retrouver les autres documents associés à un ancien possesseur de reliure. Récupérer et utiliser les données de reliures.bnf.frVous pouvez récupérer les données de reliures.bnf.fr :
Les données du site reliures.bnf.fr sont disponibles sous Licence ouverte de l’État, permettant leur libre utilisation, sous réserve de la mention de la source : « Bibliothèque nationale de France ». Identifiants pérennes :La BnF fournit des identifiants qu’elle attribue selon le mécanisme ARK (Archival resource key) pour les descriptions de reliures, et les descriptions de relieurs et possesseurs (personnes et organisations). A partir de ces ARK, les URI sont constituées sur le modèle : http://reliures.bnf.fr/ark. Les URL sont construits sur le même modèle. Modèle de donnéesModèle de données RDF du site reliures.bnf.fr : Le modèle de données de reliures.bnf.fr s’appuie sur le modèle bibliographique modèle FRBR (Functional requirements for Bibliographic Records) élaboré par l’IFLA. Nous avons distingué :
Ce modèle est en relation avec le modèle de data.bnf.fr. Choix des ontologies et des vocabulairesOntologies :Nous avons choisi d’utiliser les vocabulaires et ontologies existantes, dans la mesure du possible : Pour la description de personnes et des organisations :
Pour la description de livres et des relations avec les personnes et organisations :
Les éléments spécifiques à la description de reliures sont décrits avec des propriétés propres à la BnF, et déclarées dans l’ontologie « bnf-onto ».
Vocabulaires :Pour décrire les rôles des personnes ou organisations sur un livre (relieur, ancien possesseur par exemple), nous utilisons:
Données embarquées dans le HTML : Schema.orgLes pages de reliures.bnf.fr sont ouvertes sur le Web, et accessibles directement par les internautes depuis les moteurs de recherche. C'est pourquoi, outre les méthodes traditionnelles d'indexation de la page d'accueil, nous avons choisi d'embarquer des balises de Schema.org. Créé à l’initiative des moteurs Google, Yahoo et Bing, il fournit un vocabulaire pour ajouter de l'information au contenu HTML avec un format de microdonnées, favorisant l’indexation des sites. Nous utilisons : dans les pages de description des reliures :
dans les pages de description des personnes :
dans les pages de description des organisations :
Logiciel utilisé : CubicWebCubicWeb est une plateforme open source de développement d'applications Web sémantique, publiée sous la licence LGPL. Ce logiciel permet notamment :
Il s’appuie sur le langage de requête RQL (Relation Query Language), similaire au langage SPARQL du W3C’s, et sur le langage Python Pour en savoir plus : |