Que sont les "données ouvertes" ?

Données ouvertes, suivez le guide

"Données ouvertes" : notions clés

"Données ouvertes", "Open data"... ça veut dire quoi ?

Définition La définition officielle des données ouvertes vise les données qu'un organisme met à la disposition de tous sous forme de fichiers numériques afin de permettre leur réutilisation.
Des conditions particulières sont citées :

  • les données ouvertes n'ont généralement pas de caractère personnel,
  • elles sont accessibles dans un format favorisant leur réutilisation,
  • la réutilisation des données ouvertes peut être soumise à conditions.
La notion de données ouvertes correspond aux termes anglo-saxons d'Open Data et d'Open Data Policy, davantage relatifs à la politique par laquelle un organisme met à la disposition de tous des données numériques, dans un objectif de transparence ou afin de permettre leur réutilisation, notamment à des fins économiques.

Pour la Direction Interministérielle du Numérique, il faut distinguer "données ouvertes" et "données publiques", les secondes concernant les textes, mémorandums, documents, tableaux ou statistiques produits par l’administration dans le cadre d’une mission de service public. Ne sont pas concernés les documents préparatoires et non définitifs de l’administration en vue de ses délibérations.

Plus communément, la question de l'ouverture des données concerne l'ensemble des informations numériques, publiques comme privées, mise à disposition des citoyens. Elle considère l'information publique, et plus largement les informations susceptibles d'éclairer les citoyens sur les situations ou les évènements pouvant les affecter, comme un bien commun. La diffusion de ces informations est d'intérêt public et général.

Pourquoi rendre les informations sectorielles publiques ?

Synthèse Plusieurs motivations ont amené les Etats à promouvoir l'ouverture des données, parmis lesquelles :

  • Dynamiser les économies numériques. Selon le rapport MEPSIR 2006, l'ouverture des informations publiques devrait mener au renforcement des marchés numériques (bureau d'études, sociétés de services, concepteurs de solutions de réutilisation des données et de servcies en ligne...) à hauteur de plusieurs milliards d'euros à l'échelle européenne (27,6 milliards d'euros) ;
  • Améliorer l'information des citoyens, avec un impact important sur leur participation aux politiques publiques et leur mobilisation dans les actions collectives sociales comme quotidienne. Les citoyens sont aussi mieux renseignés sur les situations et évènements susceptibles de les affecter (risques sanitaires, environnementaux, industriels, technologiques mais aussi économiques) ;
  • Répondre aux principes d'information et de transparence de l'action de l'Etat, principes actés pour la France dès la Déclaration des Droits de l'Homme et du Citoyen.

Les politiques d'ouverture des données doivent donc s'appuyer sur deux piliers complémentaires : un effort technique, la mise à disposition des données, qui consiste à produire les ingénieries permettant de compiler et diffuser les données, ainsi que de garantir leur qualité, mais aussi une dynamique sociale qui vise à construire et à animer des communautés d'utilisateurs potentiels des données mises à disposition.
Pour beaucoup d'acteurs, si les données publiées sont de plus en plus nombreuses, elles ne correspondent pas pour autant aux besoins des citoyens. C'est donc le second pilier qui apparaît encore en retrait durant les années 2010.

"Open Data", "big data", "FAIR data", "Linked data", "Open Source"... ne pas confondre.

Précision Un ensemble de vocabulaire, plus ou moins technique, est associé aux données ouvertes. Parmi ces termes, sont souvent rencontrés :

  • Open Data : terme équivalent anglo-saxon à données ouvertes, renvoie davantage aux dynamiques associées qu'au données elles-mêmes ;
  • Big data : ensemble de technologies ayant permis, autour des années 2010, le traitement de données massives non structurées et arrivant en flux (typiquement, les données du web). Big data ne signifie en rien "ouvert" ;
  • FAIR data concerne les manières de construire, stocker, présenter ou publier des données de manière à permettre que les données soient « faciles à trouver, accessibles, interopérables et réutilisables ». Toutes les données ouvertes ne sont "FAIR" ;
  • Linked data est relatif à la capacité de certaines données à être dynamiquement recoupées ("liées") entre elles. Ce "Web des données" s'appuie sur des technologies et des standards organisés par le W3C (notion d'interopérabilité) ;
  • Open source : se dit d'un logiciel, dont le code informatique est librement publié (accessible, modifiable, dérivable...). Concerne donc les programmes et leur code et non les données (quand les deux sont dissociables) ;
  • Libre accès : mouvement visant la mise à disposition de contenus numériques, disposant d'une licence libre ou sous régime de propriété intellectuelle, avec l'accord de son propriétaire. Le libre accès est surtout relatif au domaine de la recherche.

Les définitions détaillées sont données dans le paragraphe dédié en section dédiée aux spécificités.

Critères d'ouverture des données

Principes Quelles sont les conditions qui permettent de dire qu'une données est ouverte ? Sur le fond, les "principes de l'open data" visent des données :

  1. complètes : toutes les données publiques doivent être rendues disponibles. Ces données répondent aux limites légales liées à la vie privée, la sécurité ou des secrets spécifiques. C'est la notion d'open data by default ;
  2. primaires : les données ouvertes sont telles que collectées à la source, sans modification de forme, non-agrégées et avec le plus haut niveau de granularité en permettant la compréhension ;
  3. à jour : afin de préserver leur valeur, les données doivent être publiées le plus rapidement possible après leur collecte ;
  4. accessibles : au plus grand nombre, pour le plus grand nombre d'usages potentiels ;
  5. utilisables par des machines : les données doivent pouvoir être interrogées automatiquement, par des systèmes informatiques (notion d'interopérabilité et d'API ;
  6. non discriminantes : utilisables par tous, sans enregistrement préalable ;
  7. dans un format non propriétaire : les données sont publiées sous un format sur lequel aucune entité (privée comme publique) n'a de contrôle exclusif ;
  8. publiées sans licence ou sous licence libre : les données publiées ne font l'objet d'aucune restriction de licence, de contrat ou de brevet ; les secrets, limitations et restrictions imposées à leur diffusion doivent être qualifiables de raisonnables. Les licences utilisées doivent être des licences ouvertes compatibles avec la définition de l'Open data.

Sur un plan plus technique, Sir Tim Berners-Lee a proposé en 2006 via le W3C une échelle de mesure de l'ouverture des données dite "5 ★ Open data", accompagnée de recommandations :

  1. ★ : publiez vos données sur le Web (peu importe leur format) avec une licence ouverte - exemple ;
  2. ★★: publiez-les en tant que données structurées (par exemple, un document Excel au lieu d’une image scannée d’un tableau) - exemple ;
  3. ★★★ : publiez-les dans un format ouvert et non-propriétaire (par exemple, un CSV plutôt qu’un Excel) - exemple ;
  4. ★★★★ : utilisez des URI pour désigner des choses dans vos données, afin que les gens puissent faire des références à celles-ci - exemple ;
  5. ★★★★★ : liez vos données à d’autres données pour y ajouter du contexte - exemple.

La représentation classique du classement
"5 ★ Open data", accompagnée des logos fréquemment rencontrés.

Les licences de l'Open Data

Synthèse L'ouverture des données impose d'apposer une licence fixant leurs conditions de réutilisation, afin de garantir que ces termes soient entendus parles différents acteurs depuis le producteur à l'utilisateur. Ces licences vont varier selon le contexte juridique de ces acteurs, en particulier selon le Droit du pays concerné.
  • l'Open Knowledge Fundation a proposé dès 2007 un ensemble de licences qui ont préfiguré les autres, en posant des bases : sont autorisées l’utilisation, la copie, la redistribution, la modification, la réalisation de travaux dérivés de la base de données. Diffèrent la manière dont l'auteur est cité (droit moral) etles conditions de rediffusion des données. On y retrouve notamment les licences PDDl, ODC-by et ODbL ;
  • dérivées de ces licences, les licences Creative Commons notées "CC" ne sont pas adaptées aux données ouvertes, dans la mesure où elles s'intéressent essentiellement au droit d'auteur. Elles sont cependant largement rencontrées dans le domaine de la Recherche, où le libre accès régit davantage les publications ;
  • plusieurs licences sont proposées par les administrations françaises, afin de disposer d'un cadre particulièrement décliné au Droit français. Parmi elles, la licence ouverte proposée par la mission Etalab est la référence actuelle.

Les définitions détaillées sont données dans le paragraphe dédié en section dédiée aux spécificités.

"Données ouvertes" : dans le détail

"Open Data", "big data", "FAIR data", "Linked data"...

Open Data Il est rappelé ici que les notions d'Open data et de données ouvertes dépassent le cadre de cette introduction et doivent être comprises au regard du contexte juridique plus complet, concernant notamment les notions associées aux restrictions de diffusion, aux secrets, à la sécurité et aux donénes personnelles.

FAIR data Les données "FAIR" respectent des principes complémentaires à ceux de l'Open data, qui en garantissent la réutilisation dans de bonnes conditions. Il s'agit d'un ensemble de bonnes pratiques ("manières") permettant de générer des données plus "fair" (justes, équitables au sens anglo-saxon) suivant les quatres principes :

  1. Findable (faciles à trouver): les données doivent être cataloguées et identifiées de manière unique, des recherches doivent pouvoir permettre d'y accéder rapidement, les moteurs de recherche communs doivent pouvoir y accéder, des métadonnées explicites sont disponibles ;
  2. Accessible (accessibles): les données doivent être exposées en ligne et accessibles via un identificateur unique (URL ou URI). Une donnée FAIR peut être retenue par un identifiant / mot de passe, mais le protocole d'échange est connu et libre ;
  3. Interoperable (interopérables): les vocabulaires utilisés dans les données sont référencés et peuvent être recoupés entre jeux de données, les formats standards utilisés et les métadonnées précises permettent ces recoupement ;
  4. Reusable (réutilisables): tous les dispositifs techniques (formats, qualité - données claires, vérifiées, bien décrites) et légaux (licences, gratuité ou non) doivent être présents et décrits.

4 principes du FAIR :
le logo de l'initiative

Ces principes montrent qu'une donnée FAIR n'est pas nécessairement ouverte : elle peut être retenue par une demande d'identification, elle peut être payante, elle n'est pas à un format primaire mais à un format mis en qualité.
Ces énoncés sont issus d'initiatives des groupes de l'Open data, rassemblées dans un article fondateur en 2016.

Big data Le Big data désigne un ensemble de techniques de flux, de stockage mais surtout de recherche dans des données dites "massives" (plusieurs millions, voire milliards, voire plus d'enregistrements). Les technologies peuvent être libres et gratuites (la suite Hadoop étant la plus utilisée), libres mais formulées dans des offres commerciale (Cassandra, Cloudera) ou propriétaires (IBM, Intel.. bien que dérivées de solutions libres). Le Big data est à voir comme un ensemble de technologies et de savoirs-faire : c'est une notion déconnectée de celle des données ouvertes.

Cependant, le Big data ne s'utilise que dans des situations propres à la configuration des données (dites 3 V) :
  • elles doivent être Volumineuses,
  • elles doivent être Variées (hétérogènes : structures différentes, non structurées comme images et vidéos...),
  • elles doivent nécessiter des traitements Véloces, car continuellement mises à jour (issues de flux).
Si ces conditions ne sont pas réunies, les technologies classiques de bases de données sont le plus souvent suffisantes. Des conditions de Véracité (administration garantissant la qualité des données), de Valeur (capacité à valoriser ultérieurement, par des opérations mathématiques, les informations) et de Visualisation (capacité à représenter les données) sont parfois ajoutées, mais concernent davantage les chaînes de valorisation que les données en elles-mêmes.

Les données remplissant ces conditions vont donc faire appel, pour leur collecte, leur administration et leur diffusion, à de telles technologies. C'est aussi le cas pour les données ouvertes, dans des projets relatifs à la biodiversité : pour l'OFB, Hub'eau et OpenOps (sur les index SolR), pour le GBIF son portail d'accès aux données d'observation.

Linked data Les "données liées" répondent à une initiative du W3C, qui considère que l'évolution des standard du web (protocole http, notion d'URL et d'URI par exemple) est le lien entre les données. Cette évolution constitue le web des données, dans lequel les jeux de données répondant à un standard et à un vocabulaire commun sont capables de communiquer entre eux, un même concept répondant à une même définition, à une même écriture pouvant ainsi servir de pivot.

De nombreux concepts en découlent et précisent l'interopérabilité du web : web sémantique, ontologie numérique, RDF, endPoint...

Institutions officielles, publiques et/ou associatives relatives à l'Open Data

Open Data Institute et Open Knowledge Fundation "ODI" et "OKF" sont deux fondations britanniques, acteurs majeurs de l'Open data à l'origine de nombreuses propositions et initiatives internationales. Tant sur les licences, sur les formats, sur les projets (notamment CKAN) que sur leur implémentation, ces structures ont défini l'environnement des données ouvertes actuel, conceptuellement et techniquement. Leurs liens avec les universités anglo-saxonnes et le W3C, organisme de standardisation du web, sont très forts (souvent les mêmes personnes, à l'image de Tim Berners-Lee).

Open Government Partnership L'Open Government Partnership est une initiative internationale, à adhésion libre des Etats, qui s'engage à respecter des principes communs de participation du public et de transparence de l'action de l'Etat. Cette initiative, mise en place par l'administration Obama en 2010, rassemble aujourd'hui 78 Etats membres dont la France depuis 2014. Classements et scores, sur la base des engagements volontaires des membres, sont visibles sur le site du PGO.

Open data consortium La gouvernance des données ouvertes et de leur standards, sur la scène internationale, se déroule essentiellement par consortium ou projets partenariaux, rassemblant des représentants des Etats, des universitaires et des personnalités actrices dans le domaine, représentant des associations ou des instituts spécialisés. La participation y est ouverte. De nombreux consortia successifs ont amené à l'écriture des principes énoncés dans cette page et communs à l'ensemble des utilisateurs d'internet, avant d'être adapté sur le plan du Droit à l'Information par les Etats intéressés.

Au niveau européen Les institutions européennes ont porté dès le début des années 2000 la dynamique de l'ouverture des données, en instaurant des obligations de remontée des données pour les Etats membres (les rapportages et les enquêtes associées aux différentes Directives). Ces données, à vocation publiques, répondent aussi à des obligations de forme et de fond portées par les Directives relatives à la réutilisation des Données et par la Directive INSPIRE.
Dans la mesure où la publication des informations répond à une obligation de l'Etat membre, la Cours de Justice de l'Union Européenne est susceptible de se prononcer sur des cas concrets de mise à disposition d'informations au public. C'est notamment le cas de la conservation des données de connexion ou l'accès du public aux données concernant les pesticides.

En France L'ouverture des données en France a depuis les années 2000 répondu à deux dynamiques complémentaires :

Une dynamique forte et bien perçue des collectivités territoriales, dont certaines (Rennes, Paris) ont proposé dès 2010 des portails fonctionnels. L'association Opendata France regroupe aujourd'hui plus de 33 villes, agglomérations et métropoles, 11 départements, 9 régions et autres collectivités et 6 syndicats mixtes et groupements d'intérêts publics, disposant tous de plateformes de diffusion dédiées. Opendata France porte à fois des objectifs de sensibilisation sociale et de formation (voir les ressources en ligne), mais aussi de réalisation d'outils techniques dont divers kits de réutilisation des données nationales aux échelles locales.

L'Observatoire Opendata des territoires considère qu'en octobre 2019, 460 collectivités (sur 4 510 collectivités concernées par la mise en application du principe des données ouvertes) participaient à l'ouverture des données publiques.

Un effort de mise à disposition et de standardisation des données nationales par les différents ministères et leurs agences. Suite à l'évolution du contexte réglementaire et juridique, les ministères ont progressivement structuré leurs jeux de données et adopté des gouvernances spécifiques en permettant la diffusion. Les dispositifs compétents se sont donc pourvus de portails dédiés (parmi les plus fréquentés, sur les risques, le MESRI, le budget de l'Etat ou les déchets et l'énergie), ou via des plateformes communes dédiées (à l'exemple du Ministère des Armées ou du Ministère de l'Intérieur).

Un moment fort de la politique d'ouverture des données en France est la création de la mission Etalab en 2011, aujourd'hui rattachée à la DINUM. Elle a pour objectif de créer un portail des « informations publiques » et de coordonner l'action des administrations de l'État et des établissements publics administratifs pour faciliter la réutilisation des informations publiques. Depuis 10 ans, Etalab a largement structuré l'environnement des données ouvertes en France, en proposant une licence dédiée, des plateformes de publication de données (dont data.gouv), des ressources et schémas en ligne, et plus largement diffusé un ensemble d'outils et de pratiques.

Deux autres institutions incontournables sont la CNIL (Commission nationale de l'informatique et des libertés, chargée de veiller à ce que l’informatique soit au service du citoyen et qu’elle ne porte atteinte ni à l’identité humaine, ni aux droits de l’homme, ni à la vie privée, ni aux libertés individuelles ou publiques) et la CADA (Commission d'accès aux documents administratifs qui a pour objectif de faciliter et contrôler l'accès des particuliers aux documents administratifs), toutes deux créées par la loi n°78-753 du 17 juillet 1978.

Données géolocalisées Différentes structures s'intéressent aux données géographiques, non directement pour le caractère légal de leur diffusion mais pour leurs conditions de réutilisation et leur format de diffusion. C'est le cas d'ONG (l'OSGeo), de consortia internationaux de standardisation (l'OGC) ou d'institutions dédiées (la COVADIS). Des programmes de recherches OCDE, dont GEOSS et GEO BON, contribuent aussi à la mise à disposition de données issues d'observations scientifiques (sur la biodiversité pour le second) en structurant le domaine et en produisant outils et implémentations de formats.

Les licences de l'Open Data

Voir notamment le comparatif détaillé proposé par la Gazette des communes.

Sigle Nom & année Permissivité Droit considéré Evolutivité Compatibilité avec le Droit
LO licence ouverte (dite Etalab), v2.0 2017 forte (mention de l'auteur et date MàJ) sui generis* Réputée compatible autres licences Oui
(première utilisée)

ODbL
OKF - Open database license, 2011 modérée (sauf share alike, suivant dérogation) sui generis* Réputée compatible autres licences/td> Oui
(seconde utilisée)

ODC-by
OKF - Open data commons by, 2011 forte (mention de l'auteur et date MàJ) sui generis* Réputée compatible autres licences Oui
(proche Etalab)

PDDL
OKF - Public domain dedication and licence, 2011 très forte (abandon dans le domaine public) sui generis* Renoncement au droit Non
(défaut de suivi)
CC0 Creative Commons 0 transfert dans le domaine public, 2013 très forte (renoncement) droit d'auteur** Réputée complexe, ni modification ni dérivative A étudier au cas par cas
CC Creative Commons : autres licences faible (combinaison de droits) à très forte (renoncement) droit d'auteur** Réputée complexe Non adaptée
LIP Licence Informations Publiques de l'APIE, 2010 héritée de CC droit d'auteur** (CC) héritée de CC désuète
(loi 1978)

* sui generi : droit sui generis des bases de données, qui donne la possibilité aux utilisateurs de copier, distribuer, utiliser, modifier et produire une œuvre dérivée à partir d’une base de données sous réserve de la redistribuer sous les mêmes conditions imposées par la licence originale.
** droit d'auteur : renvoie au droit d'auteur des œuvres culturelles, c'est-à-dire non dérivative, non modifiable et sans usage commercial, à moins d'un accord explicite spécifique de l'auteur.

Pour aller plus loin

Articles relatifs
Lois&codes Textes réglementaires nationaux
Lois&codes Exemples et applications dans le domaine de l'Environnement
Ressources publiques
Guide Guide Open data publié par la CNIL
Guide Guide Open data publié par Etalab
Documentation Ressources mise à disposition par Opendata France
Formation Supports de formation spécifiques Opendata France
Formation Environnement de formation MTE, produit par le CEREMA