Élaborer un Plan de Gestion des Données (PGD)

1. Le PGD : qu’est-ce que c’est ?

Le terme “Plan de Gestion des Données” (PGD) est issu de l’anglicisme “Data Management Plan” (DMP). Le PGD est un document structuré et évolutif qui décrit l’ensemble des données produites ou utilisées dans le cadre d’un projet ou d’une structure. Ce plan sert à inventorier les questions essentielles concernant l’acquisition, la gestion, la conservation, ou le partage des données de recherche.

Rédiger le PGD revient à élaborer une sorte de check-list qui aide à structurer le document et à s’assurer que tous les aspects importants de la gestion des données sont couverts. Ce processus guide la manière de gérer chaque type de données. Étant donné que le PGD est évolutif, il peut être révisé et adapté à plusieurs reprises tout au long du projet. Par exemple, le programme Horizon Europe recommande la rédaction de trois versions du PGD : une dans les six premiers moi,s une autre durant le projet, et une versino finale à son achèvement.

Le PGD accompagne le cycle de vie des données en prenant en compte toutes ses étapes, depuis la création et la collecte jusqu’) la préservation, le partage, l’accès, et la réutilisation des données. Il aborde des questions crucialestelles que les mesures pour garantir la confidentialité des données. En somme, le PGD permet aux chercheurs et à leurs collaborateurs de se réunir pour planifier efficacement la gestion des données dès le début du projet, assurant ainsi leur protection, leur sécurité et leur valorisation optimale. C’est un outil stratégique essentiel pour toute équipe de recherche.

2. Quel format adopter ?

Bien qu’il existe différents modèles (’templates’) de PGD, le contenu de base reste largement similaire d’un modèle à l’autre. Ces modèles varient principalement dans les questions spécifiques posées, mais ils couvrent tous une série d’éléments fondamentaux qui apparaissent systématiquement. Ces éléments principaux incluent généralement des questions sur la collecte des données, leur stockage, gestion, partgae, préservation, et les mesures de sécurité et de confidentialité à appliquer. Ainsi, malgré les variations dans les questions ou la structure des différents modèles, l’objectif central reste le même : assurer une gestion efficace et sécurisée des données tout au long de leur cycle de vie, conformément aux exigences du projet et des normes de recherche en vigueur. Ces mêmes éléments principaux apparaissent systématiquement (fiche synthétique Doranum) :

La plateforme DMP Opidor offre un support en ligne pour la rédaction des Plans de Gestion des Données (PGD). L’Institut de Recherche pour le Développement (IRD) recommande d’utiliser le modèle fourni par l’Agence Nationale de la Recherche (ANR), jugé adapté à toutes les disciplines. L’interface DMP Opidor est conçue pour guider les chercheurs à travers le processus de rédaction du PGD en posant des questions pertinentes qui couvrent les différents aspects de la gestion des données, facilitant ainsi une approche structurée et complète adaptée à un large éventail de domaines de recherche.

Tableau 3. Éléments principaux d’un PGD

Éléments Commentaires Types de questions
Description des données Lors de la rédaction d’un PGD, il est crucial de décrire précisément quelles données seront collectées ou produites au cours du projet. Cela inclut une identification détaillée des types de données (numériques, textuelles, audiovisuelles, etc.), des formats dans lesquels elles seront sauvegardées (PDF, Excel, JPEG, etc.) ou du volume de données attendu (en téraoctets, gigaoctets, etc.). Il est également important de spécifier comment ces données seront obtenues, en distinguant entre les données préexistantes qui seront utilisées et les nouvelles données qui seront générées spécifiquement pour le projet. Cette étape permet de s’assurer que toutes les données pertinentes sont prises en compte et gérées de manière adéquate tout au long du projet.

Il conviendra de décrire :

  1. Le type de données : Précisez la nature des données, comme numériques, textuelles, images, audio, vidéos, etc., ainsi que les logiciels qui seront utilisés pour les créer ou les traiter.
  2. Les formats des données : Indiquez les formats dans lesquels les données seront sauvegardées, en privilégiant les formats ouverts (tels que .txt, .csv, pdf, .gif, etc.) pour faciliter l’accessibilité et la réutilisation.
  3. La provenance des données : Décrivez d’où proviendront les données, que ce soit par la collecte de nouvelles données, la conversion ou transformation de données existantes, le partage ou l’échange avec d’autres chercheurs, ou encore l’achat.
  4. Méthodes et outils employés : Détaillez les méthodes et les outils qui seront utilisés pour collecter, traiter, et analyser les données, en soulignant toute technologie ou technique spécifique nécessaire pour le projet.
Documentation et qualité

Il est important de spécifier plusieurs aspects techniques pour assurer une bonne organisation et gestion des données :

  1. Métadonnées et standards : Identifiez les métadonnées qui seront utilisées pour décrire les données collectées, y compris les standards de métadonnées à adopter. Les métadonnées facilitent la recherche, l’accès et la réutilisation des données, et doivent être choisies selon les normes reconnues dans votre domaine.

  2. Structuration des dossiers et nommage des fichiers : Décrivez la manière dont les dossiers seront organisés et les fichiers nommés. Il convient de mettre en place des conventions de nommage claires qui incluent des informations pertinentes telles que la date, le type de données, et d’autres identifiants utiles. Cela aide à retrouver facilement les données et à comprendre leur contenu sans avoir à les ouvrir.

  3. Gestion des versions : Établissez des procédures pour la gestion des versions des fichiers pour éviter la confusion entre les différentes mises à jour ou modifications des données. Cela inclut la documentation des changements et la conservation des versions précédentes pour référence ultérieure.

  4. Contrôle qualité : Précisez les méthodes de contrôle qualité qui seront utilisées pour s’assurer de l’intégrité et de l’exactitude des données. Cela peut inclure des procédures de vérification des données, des méthodes d’analyse et la définition des unités de mesure.

Voici les aspects à clarifier :

  1. Production des métadonnées : Expliquez le processus par lequel les métadonnées seront générées. Il est important de spécifier qui sera responsable de leur création, les informations qu’elles incluront, et comment elles seront maintenues à jour tout au long du projet.

  2. Standards de métadonnées : Identifiez les standards ou schémas de métadonnées qui seront utilisés, tels que Datacite, Dublin Core, ou d’autres pertinents à votre discipline. L’utilisation de standards reconnus garantit que les métadonnées sont cohérentes, interopérables et réutilisables par d’autres chercheurs ou plateformes.

  3. Procédure de contrôle qualité des données : Détaillez les méthodes de contrôle qualité qui seront mises en place pour s’assurer de la précision et de la fiabilité des données collectées. Cela peut inclure la vérification de la saisie des données, la validation des données par des revues croisées, et d’autres mécanismes de contrôle pour minimiser les erreurs et garantir la qualité des données.

Sauvegarde et stockage des données au cours du projet Comment les données seront-elles stockées et sauvegardées tout au long du processus de recherche ? Il s’agit ici d’expliquer quel processus de stockage des données sera mis en place durant le projet, afin d’en garantir l’accès pour l’ensemble des collaborateurs du projet.
  1. Quels seront les supports de stockage (sereur sécurisé de votre institution, espace de travail collaboratif, etc.) ?
  2. Quel système de nommage sera utilisé ? La fiabilité d’accès aux données pour l’ensemble d’une équipe passe par un système de nommage unique et précis des fichiers.
  3. Quelle sera la volumétrie des données ? Une estimation suffit
  4. Comment sera organisée la sauvegarde des données ?
  5. Comment sont gérées les versions ?
Exigences légales et éthiques

Il est crucial d’aborder les implications éthiques et juridiques associées à la collecte, l’utilisation et le partage des données. Voici les questions importantes à considérer :

  1. Nature des données : Déterminez si les données collectées ou utilisées sont de nature sensible. Cela peut inclure des informations personnelles, des données de santé, des détails financiers, etc., qui nécessitent des précautions particulières en termes de gestion et de protection.

  2. Questions éthiques et juridiques : Identifiez les enjeux éthiques et les obligations légales spécifiques liés à vos données. Cela peut concerner la confidentialité, le consentement des participants, les droits à la protection des données personnelles, et les règles de partage des données.

  3. Anonymisation des données : Expliquez comment sera assurée l’anonymisation ou la pseudonymisation des données sensibles pour protéger l’identité des participants. Précisez les techniques qui seront utilisées pour retirer ou masquer les identifiants personnels, garantissant ainsi que les données ne puissent pas être reliées à une personne spécifique sans accès à des informations supplémentaires.

  1. Qui sera titulaire des droits de propriété intellectuelle sur les données (qui aura le droit d’en contrôler l’accès) ?
  2. Est-ce qu’un accord de consortium a été rédigé, si le projet se déroule dans le cadre d’un partenariat ?
  3. Est-ce que des données protégées par des droits spécifiques seront utilisées au cours du projet : par exemple, des données personnelles, des bases de données etc…
  4. Quelles mesures seront prises pour garantir la confidentialité des données personnelles ? Pour des données personnelles par exemple, vous pouvez envisager la pseudonymsation ou l’anonymisation, vous pouvez aussi envisager le chiffrement des données.
  5. Il faut mentionner l’existence d’éventuels comités d’éthique pour votre institution ou unité.
Stratégie de partage et d’ouverture des données Le PGD doit montrer qu’une réflexion est menée à propos de l’ouverture et du partage de vos données, tout en gardant le principe « aussi ouvert que possible, aussi fermé que nécessaire » au cœur de la démarche.

Possibilité de préciser :

  1. S’il y a une obligation de partage
  2. S’il y a une restriction ou interdiction de partage, par exemple pour des raisons éthiques, si les données seront confidentielles ou personnelles, soumises à une propriété intellectuelle, commerciale, ou pour des raisons de sécurité.
  3. Avec qui les données seront partagées (accès ouvert ou restreint) ? Sachant que même si vos données seront libre accès, vous pouvez décider quand même d’un embargo sur ces données avant de les rendre publiques.
  4. Dans quel entrepôt les données seront-elles déposées ?
  5. Quelles licences seront appliquées ?
  6. Un identifiant pérenne (ex:DOI) sera-t-il attribué ?
Préservation à long terme des données Vous aurez à aborder aussi l’aspect « préservation à long terme : quel archivage à long terme pour quelles données ? Dans quelles conditions ?
  1. Quelles sont les données sélectionnées pour l’archivage
  2. Quelle volumétrie prévue pour ces données ?
  3. Quelle durée de conservation à long terme ?
  4. Quel budget prévu pour l’archivage ?

3. Qui rédige le PGD ?

Généralement, c’est le porteur du projet ou le principal chercheur qui rédige la première version du Plan de Gestion des Données (PGD), mais l’élaboration de ce document peut bénéficier de l’apport de plusieurs autres acteurs. Ces derniers peuvent inclure des co-chercheurs, des gestionnaires de données, des bibliothécaires spécialisés en sciences de l’information, et des conseillers juridiques, tous contribuant à différents aspects du PGD.

De plus, pour aider l’auteur dans la rédaction d’un PGD, diverses ressources en ligne et feuilles de route sont disponibles. Ces outils offrent des conseils, des modèles, et des recommandations spécifiques pour aborder les différentes sections du PGD, assurant que toutes les exigences légales, éthiques, et de gestion sont couvertes. Ces ressources sont conçues pour faciliter le processus d’écriture du PGD, le rendant plus accessible et moins intimidant pour les chercheurs.

Tableau 4. Ressources pour accompagner la rédaction d’un PGD [Doucouré & Hensens “Préalable et socle d’une bonne gestion des données scientifiques” 2023]

Exemples de PGD Quelques sites de référence Respecter les standards de sa communauté Services d’appuis
  • Recommandations UNESCO (2021)

  • Le site Science Europe établit des recommandations

  • Modèles des financeurs lors d’une réponse à appel d’offre.

  • Bibliothécaires

  • Ingénieurs

  • Référents données de votre laboratoire

4. Quel intérêts du PGD ?

Tableau 5. Avantages collectifs et individuels liés à l’élaboration d’un PGD

Avantages collectifs Avantages individuels
  1. Gage de bonne gestion des données : Le PGD est reconnu par les bailleurs de fonds et les pairs comme un indicateur de bonne gestion des données, contribuant ainsi à la traçabilité et à la reproductibilité des données, et améliorant leur qualité globale.
  2. En suivant les principes FAIR :
    • Assure la reproductibilité des expériences en décrivant clairement les données.

    • Facilite la réutilisation en garantissant la compréhension des données.

    • Permet un stockage sûr pour éviter les pertes de données.

    • Clarifie le cadre juridique et éhtique, respectant ainsi les droits et la dignité des personnes.

    • Spécifie les modalités de partage de données, clarifiant les droits de réutilisation.

    • Définit les responsabilités concernant la gestion des données pendant le projet.

  1. Support pour la gestion des données : Le PGD sert de guide pour la gestion des données, offrant une structure et une vue globale sur l’ensemble des données manipulées dans le projet.
  2. Développement professionnel : Pour un jeune chercheur notamment, maîtriser la rédaction et l’application d’un PGD est une compétence valorisée qui peut améliorer les perspectives de carrière, notamment pour l’obtention de contrats ou de postes futurs.

5. Le PGD outil contraignant ?

Effectivement, l’élaboration d’un PGD peut initialement sembler être une contrainte supplémentaire, surtout en considérant les diverses exigences déjà présentes dans les demandes de financement et la rédaction de projets de recherche. Cependant, il est important de noter que bien que la première rédaction d’un PGD puisse prendre un peu de temps, surtout en raison de la familiarisation avec le processus, ce coût initial d’entrée est souvent rapidement compensé.

Une fois que les chercheurs acquièrent de l’expérience avec leur premier PGD, les rédactions suivantes deviennent beaucoup plus rapides et moins laborieuses. Si vous travaillez régulièrement avec le même type de données et les mêmes organismes, de nombreux aspects du PGD peuvent être réutilisés ou légèrement adaptés, ce qui réduit considérablement le temps et l’effort nécessaires pour les versions ultérieures. Ainsi, le PGD devient non seulement une partie intégrante de la gestion efficace des données, mais aussi un outil plus maniable et moins intimidant au fil du temps. 

6. Quelques références

  • Recommandations de l’ANR pour le PGD.

  • Opidor : 

  1. DMP Opidor : après créatino d’un compte vous pouvez créer vos plans de PGD.

  2. Cat OPIDoR 

  3. Livret “Outils et services pour accompagner a gestion des données de la recherche

  • Guide pratique pour une harmonisation internationale de la gestion des données de recherche

  • Doranum aspects juridiques

  • Le site Ouvrir la science

  • Vidéos “La journée Science Ouverte de l’IRD” à l’Université Virtuelle de Côte d’Ivoivre, Abidjan :

    • https://www.youtube.com/watch?v=F6qE4Zl1y4k&t=10926s

    • https://www.youtube.com/watch?v=SA4I-vxUKeM&t=8621s