Cette rubrique fournit des recommandations concernant la sélection et la mise en place des différentes technologies utilisées pour développer une plateforme Open Data. Elle traite plus particulièrement des catalogues de données ouvertes, ce terme désignant les systèmes en ligne qui servent à mettre les données à la disposition des utilisateurs finaux. Elle s’adresse aux informaticiens chargés de diriger ou de coordonner la gestion de l’infrastructure technique associée à une initiative de données ouvertes.
Les termes « catalogue », « plateforme » et « portail » sont souvent ambigus et peuvent porter à confusion. Ce guide pratique définit ces termes de la manière suivante :
- Un catalogue de données désigne la liste des jeux de données disponibles dans le cadre d’une initiative de Données Ouvertes. Les principaux éléments d’un outil de catalogage de données sont les capacités de recherche, les métadonnées, les informations relatives à la licence et, bien sûr, l’accès aux jeux de données eux-mêmes. Il s’agit en général de la clé de voûte d’une initiative d’Open Data.
- Une plateforme fournit aux utilisateurs une « porte d’entrée » qui leur permet d’accéder à toutes les ressources disponibles dans le cadre d’une initiative de données ouvertes. Outre le catalogue de données, elle comprend aussi d’autres informations et services qui font partie de l’écosystème de l’Open Data. Il s’agit généralement d’un forum dédié aux questions, à l’assistance technique et aux commentaires, d’une base de connaissances contenant de la documentation et du matériel didactique, et d’un blog pour communiquer et diffuser des informations. Les services disponibles au sein d’une plateforme sont souvent mis en place au moyen de plusieurs technologies et non d’une seule.
- Le terme de portail peut désigner bien des choses différentes. Aussi ce guide pratique évite-t-il de l’utliser pour éviter toute confusion.
Un catalogue de données ouvertes, c’est quoi?
Comme le décrivent les paragraphes suivants, les catalogues de données peuvent être relativement simples et autonomes, ou très sophistiqués et intégrés à d’autres systèmes. Toutefois, la plupart d’entre eux ont un certain nombre de caractéristiques communes (des listes plus complètes sont également disponibles):
Facilité d’accès: les catalogues permettent aux utilisateurs d’accéder aux données de manière facile, rapide, intuitive et gratuite. L’accès à ces catalogues ne nécessite ni inscription ni connexion, car cela risquerait de décourager les utilisateurs de les consulter et de les exploiter.
Recherche: les catalogues permettent de trouver facilement des données. La plupart d’entre eux classent les données par sujet, organisme ou type, et prennent en charge la recherche en texte intégral. Bon nombre de catalogues intègrent aussi l’optimisation du référencement auprès des moteurs de recherche afin que ceux-ci puissent accéder aux données.
Accès aux données exploitables par une machine: les données sont disponibles en téléchargement dans des formats électroniques non propriétaires exploitables par une machine. Dans la mesure du possible, il est préférable que toutes les données d’un jeu de données soient disponibles sous la forme d’un fichier téléchargeable unique.
Métadonnées: les métadonnées essentielles telles que la date de publication et la source sont affichées de manière bien visible pour chaque jeu de données. De nombreux catalogues utilisent la norme Dublin Core et publient les métadonnées dans des formats exploitables par une machine.
Clarté des licences applicables aux données: les licences applicables aux données sont clairement indiquées pour chaque jeu de données. Si les données sont soumises à une licence Creative Commons, Open Data ou relevant d’une autre norme, des liens transparents vers ces licences sont inclus.
Aperçu/visualisation des données: de nombreux catalogues permettent d’afficher un aperçu des données avant téléchargement ou de les visualiser à l’aide d’outils graphiques ou cartographiques intégrés.
Respect des normes: la plupart des catalogues offrent une prise en charge intégrée de différentes normes, notamment en matière de formats de données (par exemple CSV, XML et JSON) et de métadonnées (Dublin Core). Généralement, les catalogues publient chaque jeu de données sous la forme d’une URL permanente unique, ce qui permet de citer les données et de créer des liens directs vers celles-ci.
Interface de programmation d’application (API): les API permettent aux développeurs de logiciels d’accéder de manière automatisée aux catalogues, et même souvent aux données elles-mêmes. Elles facilitent la découverte des données, l’analyse, l’intégration des catalogues, la collecte des métadonnées depuis des sites externes et le développement d’une multitude d’applications.
Sécurité: les catalogues mettent en place des mesures de sécurité pour protéger les données et les métadonnées contre toute modification de la part d’utilisateurs non autorisés.
Les catalogues de données relèvent généralement de l’un ou l’autre des deux modèles suivants. Les catalogues open source sont en principe gratuits, dans le sens où ils peuvent être téléchargés sans frais, et peuvent être modifiés ou personnalisés sans restriction ni droits de licence. Ces produits peuvent être hébergés sur les propres serveurs du propriétaire ou au sein d’une infrastructure Cloud, mais ces deux approches nécessitent que l’opérateur du catalogue gère la logistique informatique. Certains fournisseurs proposent des services d’hébergement Cloud pour les produits open source. Autre possibilité, des produits SaaS (logiciels en tant que service) sont proposés par différents fournisseurs pour un abonnement mensuel ou annuel, ces derniers assumant alors la gestion informatique, la sécurité et les mises à jour logicielles. Les fournisseurs de solutions SaaS peuvent également proposer un certain degré de personnalisation.
Trois modèles possibles
Les trois modèles ci-dessous présentent les différentes façons d’envisager un système de catalogage des données ouvertes L’objectif est ici de montrer comment les différents éléments et services sont reliés les uns aux autres, et comment le système évolue à différentes échelles.
Cliquez sur le graphique ci-dessous pour l’afficher en taille réelle.