Skip to Main Navigation

Offre et qualité des données

Cette rubrique fournit des recommandations sur les opérations de gestion et de « curation » des données qui sont nécessaires pour s’assurer qu’elles sont conformes aux bonnes pratiques des Données Ouvertes et aux normes établies au sein de la communauté des professionnels des données. Bien qu’elle s’adresse aux personnes et aux organismes chargés de produire des données, tels que les ministères et les instituts de statistique, cette rubrique peut également intéresser les consommateurs de données qui souhaitent comprendre comment les données publiques sont produites.

Normes de qualité générales

Retour à la navigation locale

Si la qualité peut être un concept ambigu, sa définition dans le cadre des données est depuis longtemps clairement établie. Dans sa définition de la qualité en statistique, Eurostat présente un ensemble de six dimensions qui définissaient initialement les données statistiques mais qui peuvent également s’appliquer à d’autres types de données :

PertinenceLes données répondent-elles aux besoins actuels et potentiels des utilisateurs
Exactitude et fiabilitéLes données sont-elles exemptes d’erreurs. Dans le cas de statistiques, l’exactitude désigne la proximité entre la valeur estimée et la valeur réelle (inconnue) au sein de la population.
Actualité et ponctualitéQuel est le délai entre la publication des données et le phénomène qu’elles mesurent et la fréquence des mises à jour correspond-elle au calendrier prévu
Accessibilité et clartéLes utilisateurs peuvent-ils accéder facilement aux données et les métadonnées permettent-elles de bien les comprendre
ComparabilitéLes données peuvent-elles être comparées dans le temps ou géographiquement
CohérenceLes données sont-elles conformes aux définitions et méthodologies reconnues

On peut aussi recourir à un autre système d’évaluation similaire fourni par le Project Open Data, qui permet de mieux comprendre le concept de qualité dans le contexte spécifique des données en libre accès. Une donnée ouverte doit être :

PubliqueLes données des administrations publiques sont-elles traitées avec une volonté d’ouverture, dans les limites autorisées par la loi et conformément aux restrictions applicables (relatives notamment au respect de la vie privée, la confidentialité et la sécurité)
AccessibleLes données sont-elles mises à disposition dans des formats pratiques, modifiables et ouverts qui permettent de facilement les obtenir, les télécharger, les indexer et y effectuer des recherches
ExplicitéeLes données sont-elles décrites de manière à ce que les utilisateurs aient suffisamment d’informations pour appréhender leurs forces et leurs faiblesses, leurs limitations analytiques et leurs exigences de sécurité, et sachent comment les traiter
RéutilisableDétermine dans quelle mesure les données ouvertes sont mises à disposition avec une licence ouverte qui ne limite pas leur utilisation.
ComplèteLes données sont-elles publiées sous leur forme primaire (telles qu’elles ont été collectées à la source) avec le niveau de granularité le plus fin possible permis par la loi et les autres exigences applicables
ActualiséeLes données sont-elles publiées dans un délai qui préserve leur valeur
Gérée après publicationExiste-t-il un point de contact pour fournir une assistance à l’utilisation des données et répondre aux réclamations concernant le respect de ces exigences

Normes relatives aux données

Retour à la navigation locale

Bien que les principes de qualité décrits ci-dessus s’appliquent généralement à tous les types de données, les normes et les méthodes régissant la production et l’évaluation des données varient selon leur type. Les rubriques suivantes récapitulent les normes pertinentes pour chaque grand type de donnée.

Statistiques et comptabilité nationale

La comptabilité nationale classe l’activité économique en différentes catégories (revenu, production, dépense) et selon différentes unités institutionnelles (ménages, entreprises et administrations publiques). Ces statistiques sont généralement produites et/ou coordonnées par les instituts nationaux de statistique de chaque pays, conformément à des normes et méthodologies détaillées.

Les statistiques débordent de normes qui déterminent la manière de les classer et de les organiser ainsi que la façon d’évaluer leur qualité. Celles présentées ci-dessous sont généralement les plus utiles pour les instituts nationaux de statistique.

  • Liste des normes statistiques des Nations Unies: ce catalogue de classifications, définitions, concepts, méthodologies et procédures statistiques offre des recommandations concernant l’utilisation des produits statistiques.

  • Recommandations du gouvernement britannique sur l’évaluation de la qualité des statistiques: ces recommandations utilisent les mêmes dimensions générales que celles d’Eurostat (indiquées ci-dessus dans les normes de qualité générales).

  • Aide-mémoire pour la qualité de la production statistique: cette check-list permet d’évaluer la qualité des statistiques selon 19 critères.

  • Le Fonds monétaire international possède deux cadres connexes qui fournissent des recommandations sur les statistiques nationales : le Système général de diffusion des données et la Norme spéciale de diffusion des données. Ces dispositifs sont tous deux conçus pour améliorer la disponibilité de statistiques exhaustives et pertinentes, contribuant ainsi à la mise en place de politiques macroéconomiques saines. La norme fournit des recommandations ciblées aux membres qui cherchent à accéder aux marchés internationaux des capitaux, et vise également à améliorer le fonctionnement des marchés financiers.

  • Cadre d’évaluation de la qualité des données: cet autre outil du FMI est utilisé pour évaluer en profondeur la qualité des données des pays. Il tient compte des contextes institutionnels, des processus statistiques et des caractéristiques des produits statistiques. Il se compose d’un cadre générique et de modules supplémentaires pour les statistiques de comptabilité nationale, les indices des prix à la consommation et à la production, les statistiques de finances publiques et la dette publique, les statistiques monétaires, la balance des paiements et la dette extérieure.

  • Indicateur de capacité statistique de la Banque mondiale: cet outil offre une vue d’ensemble de la capacité statistique des pays en développement, selon un cadre diagnostique qui évalue la capacité des systèmes statistiques. Le site web connexe permet aux utilisateurs de visualiser l’évolution de la capacité statistique d’un pays au fil du temps.

  • Rapports sur l’observation des normes et codes: cette série de rapports nationaux, qui rend compte du degré de respect de normes et de codes internationalement reconnus dans un pays, s’articulent autour de dix thèmes, parmi lesquels figure la diffusion des données.

Passation des marchés

Une passation de marché est le processus qui régit l’acquisition de biens ou de services par un organisme public. Les données sur les passations de marchés comprennent des informations sur les appels d’offres et les demandes de propositions, les contrats attribués, les rapports d’évaluation des performances et d’achèvement, etc.

Pour encourager le respect de bonnes pratiques en matière de divulgation de l’information dans le domaine de la passation des marchés publics, l’Open Contracting Partnership a développé un ensemble de principes qu’il est possible d’adapter à des secteurs spécifiques et à des contextes locaux. Ces principes sont conçus pour rendre les passations de marchés plus concurrentielles et équitables, appuyer les démarches internationales en faveur de la transparence et de l’ouverture des données publiques, et guider les pouvoirs publics et les autres parties prenantes afin de mieux comprendre les enjeux de la divulgation de l’information, assurer un véritable suivi, améliorer les performances et promouvoir la responsabilisation vis à vis des résultats.

La norme OCDS régissant l’ouverture des données sur la passation des marchés a été créée pour permettre aux administrations publiques de publier des informations sur chaque étape du processus de passation des marchés, à savoir la planification, l’appel d’offres, l’attribution, la conclusion du contrat et l’exécution. Elle fournit un schéma détaillé pour la représentation des données sur les passations de marchés dans différents formats, ainsi que des conseils sur les options de diffusion. Un centre d’assistance est disponible pour fournir des conseils concernant l’application de la norme OCDS.

Données budgétaires

Les données budgétaires désignent les dépenses du secteur public, ventilées par échelon administratif, catégorie fonctionnelle ou programmatique, exercice comptable et source de financement. BOOST et OpenSpending sont deux initiatives qui illustrent parfaitement la manière de produire des données budgétaires conformes aux bonnes pratiques de l’Open Data :

  • BOOST: l’initiative BOOST est un projet collaboratif à l’échelle de l’ensemble de la Banque mondiale qui vise à faciliter l’accès aux données budgétaires et à améliorer les processus de prise de décision et la transparence. Il s’agit d’une base de données exhaustive des dépenses publiques établie pour 57 pays. Elle utilise les données publiques et un modèle à 26 dimensions pour générer des données budgétaires très fines, compréhensibles et accessibles par des utilisateurs clés tels que les parlementaires et la société civile. Les données sur les dépenses sont classées selon les différentes dimensions budgétaires de base (fonction, type économique, source de financement), et peuvent être mises en relation avec des jeux de données supplémentaires pour permettre des analyses d’efficacité et d’équité plus larges. BOOST permet également de renforcer la transparence budgétaire et d’améliorer la responsabilisation en mettant les données budgétaires à la disposition des utilisateurs dans un cadre cohérent et facile à appréhender.

  • OpenSpending: cette base de données centralisée, ouverte et de grande qualité comprend des informations sur les finances publiques (notamment les budgets, les dépenses et les bilans), une communauté d’utilisateurs et de contributeurs, et un ensemble de ressources ouvertes fournissant les informations techniques, budgétaires et politiques nécessaires pour exploiter ces données financières. OpenSpending assure le suivi et l’analyse des informations financières publiques à l’échelle mondiale, et sa base de données constitue une ressource essentielle qui permet aux journalistes, aux universitaires, aux militants, etc. de contrôler les informations financières publiques et d’en débattre.

Transport

Les données sur les transports fournissent des informations utiles sur les infrastructures, les usages et les capacités (par exemple, l’étendue du réseau routier, le nombre de véhicules dans une population ou la consommation de carburant). Ces données concernent l’offre de transports en commun (trains, bus, etc.).

Les producteurs de données sur les transports devraient bien connaître la spécification GTFS. Il s’agit d’une norme de format de données pour les informations relatives aux transports (notamment les horaires et les données géographiques connexes) conçue pour encourager leur réutilisation. TransitApp est un exemple d’application tirant parti des données au format GTFS publiées par plusieurs villes.

Données géospatiales

Les données géospatiales permettent d’identifier les caractéristiques géographiques de choses très diverses, de l’emplacement de bâtiments ou de bureaux de vote à celui de concessions forestières, en passant par les limites des quartiers et des villes, pour ne citer que quelques exemples.

Dans les initiatives d’Open Data, les données géospatiales sont généralement diffusées dans au moins l’un des formats suivants :

  • GeoJSON: comme ce format est dérivé de JSON (le format de données très populaire basé sur Javascript), les données GeoJSON sont faciles à intégrer aux applications web.
  • TopoJSON: extension de GeoJSON, ce format adopte une approche différente de la description des caractéristiques géographiques qui fait que les fichiers TopoJSON ont généralement une taille inférieure de 80 % à leurs équivalents GeoJSON.
  • Keyhole Markup Language (KML) : ce format de données basé sur XML a été introduit par Google dans Google Maps et Google Earth.
  • Shapefile: il s’agit du format natif de la suite logicielle ArcGIS d’ESRI, mais son universalité garantit une compatibilité totale avec la majorité des systèmes d’information géographique (SIG) les plus utilisés.

L’Open Geospatial Consortium (OGC) est une organisation internationale à but non lucratif réunissant près de 500 entreprises, organismes publics et universités qui collaborent pour normaliser les données géospatiales. À ce jour, l’OGC a développé plus de 30 normes pour différents types de données géospatiales, notamment le format KML élaboré par Google et soumis à l’OGC.

Microdonnées

Les microdonnées sont constituées des réponses aux enquêtes réalisées auprès des individus, des ménages ou des entreprises. Elles offrent de nombreuses applications, notamment la production de statistiques globales. Comme il existe une exigence de confidentialité implicite (et souvent juridique), les microdonnées sont soumises à des normes strictes régissant leur diffusion et font pratiquement toujours l’objet de techniques d’anonymisation.

Les références suivantes fournissent des recommandations aux organismes qui gèrent des microdonnées :

  • Méthodes et outils de la Banque mondiale en matière de microdonnées: cette ressource documente les principes et pratiques utilisées dans le catalogue de microdonnées de la Banque mondiale, et couvre les aspects liés à l’acquisition, la divulgation, le catalogage et le maintien des données ainsi qu’aux métadonnées.
  • Recommandations du Réseau international d’enquêtes auprès des ménages (IHSN): l’IHSN fournit des recommandations détaillées sur l’archivage et la diffusion des données, notamment en matière de métadonnées et de catalogage. Les recommandations de la Banque mondiale en matière de métadonnées reposent largement sur cette source. Il faut cependant noter que les recommandations de l’IHSN mettent l’accent sur les bonnes pratiques en matière de diffusion des microdonnées en général, et pas nécessairement sur les microdonnées mises en libre accès. Par exemple, les recommandations de l’IHSN abordent différentes options de licence et d’accès aux données, dont notamment l’inscription des utilisateurs et l’application de frais, ce qui est contraire aux bonnes pratiques de l’Open Data.

Aide au développement

Ces données concernent les ressources et activités par lesquelles les institutions financent le développement international. L’Initiative internationale pour la transparence de l’aide (IATI) est la principale initiative dans ce domaine. La norme IATI est une norme de publication qui permet de comparer les données sur l’aide au développement octroyée par les différents donateurs aux différents bénéficiaires. À ce jour, plus de 280 organismes ont publié des données dans le registre de l’IATI.

Recommandations supplémentaires

Retour à la navigation locale

Gouvernance des données

On entend par « gouvernance des données » la manière dont les données ouvertes sont gérées à la fois au moment de leur diffusion initiale et de manière continue par la suite. Les politiques de gouvernance vont clarifier la hiérarchisation des pouvoirs au sein des administrations et des ministères chargés de gérer les données, décrire les processus et exigences de publication et d’actualisation des données, ou encore permettre aux utilisateurs d’entrer en contact avec les fournisseurs de données pour signaler des problèmes ou poser des questions.

Elles relèvent généralement des politiques de libre accès aux données. Voici deux ressources utiles dans ce domaine:

  • Guides de configuration rapide d’un portail de données (data.gov.uk): ces ressources fournissent une vue d’ensemble des dispositifs de gouvernance au niveau global (interinstitutionnel) et local (c’est-à-dire au niveau d’un catalogue de données unique), et décrivent les différents rôles qui interviennent dans la gestion des jeux de données.

  • Guide de mise en œuvre de l’Open Data Project: ce document créé dans le cadre de Open Data Project initié par l’administration américaine fournit des recommandations aux organismes qui exécutent le décret-loi relatif à l’ouverture des données publiques. Entre autres, il contient des conseils pour réaliser les tâches suivantes:

    • Dresser l’inventaire de tous les jeux de données détenus par un organisme et le maintenir à jour
    • Dresser la liste des données publiques (un sous-ensemble de l’inventaire)
    • Impliquer les utilisateurs pour simplifier et hiérarchiser la publication des données
    • Répertorier les données qui ne peuvent pas être publiées

Anonymisation

L’anonymisation désigne le processus consistant à masquer ou supprimer d’un jeu de données les informations susceptibles d’être utilisées pour identifier des individus, des ménages ou des entreprises, de manière à préserver leur anonymat. L’anonymisation et les impératifs de confidentialité sont des aspects particulièrement importants pour les administrations qui diffusent des données publiques. Autre aspect essentiel, les organisations doivent communiquer clairement leur politique de confidentialité en matière de gestion des données aux personnes qui fournissent des données comme à celles qui les utilisent. Ceci dit, de très nombreux types de données publiques ne comportent pas d’informations confidentielles, ce qui réduit ou élimine la nécessité de recourir à des techniques d’anonymisation.

L’anonymisation dépendra donc très fortement du type des données et du jeu de données spécifique concerné. Voici quelques ressources utiles dans ce domaine:

  • Handbook on Statistical Disclosure Control: ce manuel, qui traite des questions d’anonymisation des statistiques, porte notamment sur les problèmes réglementaires, les microdonnées, les données tabulaires, les tableaux de fréquences et les problèmes associés à l’accès à distance.

  • Anonymization Guide from the UK’s Information Commissioner’s Office: ce guide fournit des recommandations sur les techniques d’anonymisation et la protection de la vie privée pour un large éventail de types de données dans le contexte de la loi britannique sur la protection des données (Data Protection Act).

  • Rethinking Personal Data: Strengthening Trust (Forum économique mondial) : ce rapport vise à encourager le dialogue autour d’un certain nombre de problèmes fondamentaux qui touchent aux données personnelles et qui doivent être résolus pour pouvoir tirer pleinement et durablement parti du libre accès aux données. Plusieurs rapports de suivi ont été publiés en 2013 et 2014.

  • Statistical Disclosure Control for Microdata Practice Guide. Ce guide pratique présente les principales étapes pour qu’une organisation fournisse un accès sécurisé aux données, tout en assurant que les microdonnées restent utiles.

  • Microdata Anonymization. Cette ressource présente les principaux principes de l’anonymisation des microdonnées, des techniques pour mesurer et réduire les risques, et des meilleurs pratiques fournies par l’International Household Survey Network (IHSN).

  • Managing Statistical Confidentiality & Microdata Access. Cette liste de principes et directives a été préparée par la Conférence Européenne des Statisticiens (CES). L’annexe contient plus de 20 cas d’études de différents pays.

Métadonnées

On définit généralement les métadonnées comme des « données sur les données ». Elles fournissent les informations nécessaires pour utiliser efficacement une donnée et comportent des informations sur sa source, sa structure, sa méthodologie, ce qu’elle recouvre au niveau thématique, géographique et/ou chronologique, la licence qui s’y applique, la date de sa dernière mise à jour et son mode de maintenance. Certains types de données intègrent souvent des métadonnées supplémentaires. Les photographies numériques comporteront par exemple des données d’horodatage ainsi que des informations sur l’équipement utilisé, les paramètres d’ouverture et, éventuellement, l’emplacement GPS.

L’initiative DCMI (Dublin Core Metadata Initiative) définit un cadre et une terminologie de base pour les métadonnées qu’il est possible d’appliquer à la plupart des ressources numériques. Le standard Dublin Core est largement utilisé dans la norme DCAT, conçue pour simplifier l’interopérabilité entres les catalogues de données web. Les administrations publiques peuvent développer leurs propres modèles de métadonnées (de préférence basés sur des normes établies telles que DCAT) pour uniformiser davantage les initiatives d’Open Data à l’échelle nationale. Le schéma de métadonnées diffusé par data.gov constitue un exemple de cette démarche.

D’autres normes de métadonnées sont utilisées pour un large éventail de types de données. Pour les données publiques, voici quelques exemples des normes les plus utilisées :

Norme de métadonnéesApplication
Data Documentation Initiative (DDI)Très utilisée pour les données relatives aux sciences humaines et sociales, mais applicable dans un contexte plus large.
ISO 19115-1:2014Données géospatiales.
TEI (Text Encoding Initiative)Textes au format numérique, norme principalement utilisée dans les domaines des lettres, des sciences humaines et sociales et de la linguistique.
DIF (Directory Interchange Format)Jeux de données scientifiques.
Standards for governance and anonymization help clarify data management and security processes, and metadata offers valuable details about data composition and sources.


Data governance addresses how Open Data assets are managed both during their initial launch and on an ongoing basis. Governance policies clarify lines of authority within the government and ministries for managing data, describe the process and requirements for releasing or updating data, and provide a means for users to engage providers over any issues or requests that arise.

Data governance is often addressed within the context of Open Data policies. Other resources include:

  • Data Portal Quick-Setup Guides by data.gov.uk. These resources provide an overview of governance arrangements both at a high (inter-agency) level as well as the local level (i.e., a single data catalog), and describe the different roles in managing datasets.

  • Project Open Data Implementation Guide. This document is part of the U.S. Government’s Project Open Data and provides guidance to agencies implementing the Executive Order on Open Data. Among other topics, it provides guidance for:

    • Creating and maintaining an enterprise data inventory of all datasets in an agency’s possession
    • Creating a public data listing (a subset of the inventory)
    • Engaging users to facilitate and prioritize the release of data
    • Documenting data that cannot be released

Anonymization

Anonymization is the process of obscuring or removing information from a dataset that could be used to identify individuals, households or businesses, so that their anonymity is preserved and protected. Anonymization and the imperative to protect confidentiality are especially important for governments releasing public data. Equally important is the need for organizations to clearly articulate their privacy policies concerning data management, both to individuals that provide data and individuals that use that data. That said, many, many types of government data do not entail confidential information, and thus have little or no need for anonymization techniques.

Proper anonymization is highly specific to the type of data and the individual dataset. A few resources are listed here:

Metadata

Metadata is often simply defined as “data about data.” Metadata provides the information necessary to use a particular source of data effectively, and may include information about its source, structure, underlying methodology, topical, geographic and/or temporal coverage, license, when it was last updated and how it is maintained. Specific types of data often include additional metadata as appropriate; for instance, digital photographs may include a time stamp, information about the equipment used, aperture settings and possibly the GPS location.

The Dublin Core Metadata Initiative (DCMI) provides a framework and core vocabulary of metadata terms that can be applied to most electronic resources. Dublin Core is used heavily in DCAT, a standard designed to facilitate interoperability between web-based data catalogs. Governments may develop their own metadata models (preferably based on established standards such as DCAT) to provide further uniformity to government-wide Open Data initiatives. One example is the metadata schema propagated by data.gov.

Other metadata standards are in use for a wide variety of data types. For government data, some of the most relevant include:

Metadata standardApplication
Data Documentation Initiative (DDI)Used heavily in social science data, but applicable more broadly as well
ISO 19115-1:2014Geospatial data
Text Encoding InitiativeTexts in digital form, chiefly in the humanities, social sciences and linguistics
Directory Interchange Format (DIF)Scientific datasets