Jalons pour activer la découvrabilité des données ouvertes et liées en culture

Il est actuellement déterminant de réfléchir aux enjeux de la mutualisation des données. Il faut mesurer les avancées théoriques et pratiques associées à l’ouverture et à l’interopérabilité des données. Si de plus en plus, nous apprenons à comprendre les bénéfices de ces efforts (le POURQUOI), il faut apprendre à maîtriser le COMMENT. Sinon, tout cela reste abstrait.  

En février dernier, je tentais d’en vulgariser les grands jalons dans mon article de blogue sur les mythes et réalités de la découvrabilité : https://passerelles.quebec/publication/2021/decouvrabilite-donnees-ouvertes-et-liees-mythes-et-realites. Je reviens aujourd’hui sur cette publication pour préciser chacun des points.

  1. Établir des consensus sectoriels sur les termes et métadonnées des métiers, la sémantique usuelle - définir des scénarios d'usage et des parcours utilisateur pour y parvenir;

Il s’agit ici du pré-requis qui nous semble essentiel pour tout projet, c'est-à-dire de préparer les milieux et d’animer les conversations qui pourraient permettre la validation d’un modèle documentaire commun, d’un socle minimal de métadonnées pour un secteur à modéliser, pour lequel un schéma de données doit être mis en place.

Pour guider cet exercice, il faut le centrer sur une première finalité et le développement d’un produit minimum viable, la mise à plat de scénarios d'usage et de parcours utilisateur. La réflexion sur le modèle d’affaires est aussi déterminante. 

  1. Traduire les termes métiers vers des ontologies normées exprimées en langage machine;

Un certain nombre d’ontologies tendent actuellement vers une forme de convergence. Divers secteurs artistiques ou documentaires y travaillent et il est possible de s'aligner sur leurs travaux : Wikidata, Schema,.org, FRBR et LRMoo, CIDOC-CRM. Le travail de traduction à réaliser devient relativement clair. 

  1. Associer les termes métiers à des concepts décrits en ligne de façon pérenne par des URI hiérarchiques (interprétables par les humains) ou opaques (créés pour les machines);

Voici un exemple de ce jalon, la définition d’une peinture dans Wikidata et dans Schema. Les liens ici partagés constituent ces URI pointant vers une définition. Il importe de s'aligner sur de telles définitions, d’adopter des normes internationales et multi-lingues. https://www.wikidata.org/wiki/Q3305213 / https://schema.org/Painting 

  1. Associer les ressources consignées dans les bases de données à des identifiants uniques stables;

Il est essentiel d’associer les artefacts, les événements, les créatrices et créateurs, les personnes physiques et morales engagées dans une chaîne de valeur économique, à des identifiants stables (ISNI, ULAN, ISRC, ISBN, etc.). Toutes ces ressources ne possèdent pas encore leur identifiant dédié, pensons notamment aux œuvres d’art ou aux événements des arts de la scène.

  1. Arrimer ensemble divers thésaurus et ontologies composées de triplets sujet-propriété-objet;

Ce jalon est une évolution du jalon 2. Il implique que les termes métiers traduits précédemment soient associés à des propriétés ou prédicats et à des éléments et classes d’éléments du web sémantique, afin de les rendre interprétables par les machines et procédés informatiques. C’est un jalon qui relève des sciences de l’information et qui peut s'incarner dans un prototype sur Wikidata.

  1. Préparer et faire signer les cessions de droits pour les artefacts et médias à publier;

Le mise en valeur d'œuvres implique habituellement de pouvoir exposer publiquement une image de celles-ci ou donner accès à un extrait. Une mise à disposition dans un commun de type Wikimedia Commons est à envisager. Dans quelque cas de figure que ce soit, un document de cession stipulant l’attribution de l’œuvre et les droits associés à son utilisation devrait être prévu. Ce type de mise à disposition sera balisé par une licence libre de type Creative Commons. 

  1. Déposer des données dans les communs numériques comme Wikidata et Wikimedia Commons;

Ce jalon est une évolution du jalon 6. Le recours à un dépôt dans les communs numériques peut constituer une initiative de prototypage relativement simple à mettre en place. Ce jalon permet aussi une ré-utilisation des éléments créés dans Wikidata à la fois pour assurer une sauvegarde du travail de documentation effectué, qu’une mise à disposition pour des applications tierces selon les principes du web des données ouvertes et liées. C'est un processus non-destructif et collaboratif. 

  1. Publier des données dans des bases en graphes offrant des points d'accès SPARQL;

Ce jalon est une extension du jalon 7. Le langage de requête SPARQL permet l’accès aux données ouvertes. Le jalon consiste à mettre en place une réplique privée ou dédiée d’une base documentaire selon les principes du web des données ouvertes et liées. C’est un choix motivé par une politique d’ouverture des données qui ne convient pas nécessairement à tous les projets, toutes les organisations. Toutefois il est possible de moduler cette ouverture des données, de ne pas exposer systématiquement toutes ses données de façon ouverte et réutilisable. Il est possible de consulter des répertoires de bases de données ouvertes et liées en cliquant sur les liens suivants : https://lod-cloud.net/ | https://www.w3.org/wiki/SparqlEndpoints .  

  1. Lier entre elles des bases de données, automatiser leur synchronisation;

Il est possible d'agréger des données de sources multiples (requête fédérée) pour ensuite les exposer publiquement en ligne. Si cette avenue est choisie, il faut aussi mettre en place une automation des processus d’agrégation, de compilation, afin de maintenir à jour les données mises à disposition.

  1. Publier des données sur des portails, des interfaces consultables ou interrogeables par l'humain;

Nous devons choisir selon quels modèles, sous quelles conditions les données seront publiées. Citons ici l'exemple des “Infobox” Wikipédia ou Google Search, balises programmées agrégeant un résumé du sujet de la recherche. Une fiche comme celles proposées par exemple, par la vitrine des collections du Musée national des beaux-arts du Québec (MNBAQ), puise ses données à différentes sources pour les exposer aux internautes sous forme de page web : https://collections.mnbaq.org/fr/oeuvre/600025089  

  1. Ajouter des microdonnées lisibles par les machines dans les interfaces et les pages Web;

Il est possible d’accroître la visibilité, la découvrabilité de pages web comme celles du MNBAQ en utilisant diverses méthodes de référencement. L’usage de microdonnées, notamment celles proposées par le consortium Schema.org est fortement recommandé. Il est possible de consulter les microdonnées d’une page Web avec l’outil OpenLink Structured Data Sniffer (OSDS).

  1. Assurer la gouvernance collective de données provenant de sources diverses et agrégées.

Il est implicite que la collaboration autour de la publication de données provenant d’efforts et de sources différents, complémentaires doit être encadrée par des ententes ou des processus de gouvernance dynamiques, continus. De nombreux juristes et groupes de réflexion se penchent actuellement sur ces types d’enjeux, mentionnons, entre autres, l'initiative de “Mutualisation des ressources en culture dans un contexte numérique” de Culture pour tous.

Commentaires

Pour consulter les commentaires ou pour commenter cette publication, vous devez vous connecter sur Passerelles ou vous inscrire.