Publier un data paper

1. Définition et enjeux du DP

  • Le data paper (DP) est une publication scientifique dont le but principal est de décrire un ensemble de données ou un groupe d’ensembles de données, pltutôt que de rendre compte d’une enquête de recherche. Vous allez vraiment décrire votre base ou jeu de données. Cela va constituer l’intégralité de votre article. Un type d’article scientifique tout aussi valable que d’autres. C’est juste une partie “matériel et méthodes” très élaborée de vos articles habituels. Le DP fait directement référence aux données : dedans il y a un lien vers les données. C’est une publication à part entière, qui fait l’objet d’un processus d’évaluation comme tout article dans une revue scientifique.

  • “Publication qui décrit un jeu de données scientifiques, notamment à l’aide d’informations structurées appelées métadonnées. Contrairement aux articles de recherches classiques, les data papers fournissent une voie formalisée au partage des données plutôt que tester des hypothèses ou présenter de nouvelles analyses” (Doranum 2017)

  • “Article scientifique évalué par les pairs et citable. Il décrit un jeu de données, la méthode ayant permis de l’obtenir et le potentiel de réutilisation de ce jeu” (Dedieu 2022).

2. Les revues qui publient des DP

Les DP sont reconnus tout comme des articles de recherches traditionnels, et sont indexés par Web of Knowledge (ISI), PubMedCentral, Scopus, Zoological Record, Google Scholar, CAB Abstrats, Directory of Open Access Journal (DOAJ), EBSCO.

Même si l’offre de revue permettant de publier des data paper est limitée, plusieurs le permettent, quelques exemple : Data in Brief, Nature Scientific Data, Journal of Open Humanities Data, Research Data Journal for the Humanities and Social Sciences, F1000 Research, etc.

Mais toutes les revues ne se valent pas. Le CIRAD propose de considérer certains aspects (dedieu2022a?) :

  • Prendre en compte l’échelle du jeu de données : est-ce un grand ou petit jeu ?

  • Structure du data paper : est-ce un modèle simple dans une revue généraliste, ou disciplinaire ?

  • Localisation des données : est-ce que les données ont été déposées dans un entrepôt reconnu par la revue ? Il faut fuir les revues qui captent les données.

  • Modalités de diffusion des données : certaines revues imposent une licence de diffusion spécifique.

  • Critères d’évaluation par les pairs : voir les instructions aux auteurs.

3. Construction d’un DP : les spécificités

La structure générale d’un data paper est la suivante :

  • Description du jeu de données et de son contexte

  • Description des méthodes d’obtention

  • Explication du potentiel de réutilisation des données

Les structures du data paper peuvent varier en fonction de la revue, certaines proposent des templates comme Data in Brief, Scientific Data ou Journal of Open Humanities Data.

4. Quels intérêts d’un data paper ?

Tableau 9. Avantages collectifs et individuels à la publication d’un data paper

Avantages collectifs Avantages individuels
Partage sous forme de publication, avec révision avec les pairs : La publication d’un jeu de données, assortie d’une révision par les pairs, garantit et valorise la qualité des données. Cette démarche vise à assurer que les données sont fiables et ont été examinées rigoureusement par d’autres experts dans le domaine.
  • Attribution d’un DOI : L’attribution d’un DOI (Digital Object Identifier) aux jeux de données les rend citables dans d’autres travaux de recherche. Cela augmente la visibilité des données et la probabilité d’être cité, contribuant ainsi à la reconnaissance académique du chercheur.

  • Valorisation du travail de constitution de la base de données : Le dépôt de données valorise le travail souvent non reconnu de constitution et de gestion de bases de données, qui représente une part significative du temps de recherche. Ce processus permet de reconnaître et de valoriser cet effort comme une contribution substantielle à la science.

5. Quelques exemples de templates

Les revues spécialisées dans la publication de data papers imposent souvent des formats spécifiques et des règles détaillées pour la soumission de ces types de documents. Ces formats sont conçus pour guider les auteurs à travers un ensemble complet de questions que tout data paper devrait adresser, assurant ainsi que toutes les informations essentielles sont couvertes. Cela inclut des détails sur le fonctionnement du jeu de données, sa construction, et ses applications potentielles. En suivant ces directives, les auteurs peuvent créer des data papers qui non seulement répondent aux critères de la revue mais offrent également aux lecteurs une compréhension claire et approfondie des données présentées. Ce processus aide à garantir que les jeux de données sont non seulement accessibles mais également utilisables et pertinents pour d’autres chercheurs dans le domaine.

5.1. Data in Brief

Data in Brief est une revue généraliste qui publie des articles en anglais. Pour soumettre un article, les auteurs peuvent choisir entre deux formats de template disponibles : un document Microsoft Word (.doc) ou un fichier LaTeX. Ces templates sont conçus pour guider les auteurs à travers le processus de rédaction en incluant plusieurs éléments clés :

  • Parties à remplir : Chaque section du template est destinée à être complétée avec les informations spécifiques du jeu de données.

  • Des énoncés et explications : Les instructions sur ce qui est attendu dans chaque section sont généralement écrites en bleu. Cela permet de les distinguer clairement du reste du texte, aidant les auteurs à comprendre précisément ce qu’ils doivent fournir.

  • Des “Commentaires” : Ces annotations supplémentaires clarifient davantage les attentes de la revue pour chaque partie du document. Elles peuvent aussi inclure des recommandations de sources ou des conseils pour aider à compléter certaines sections efficacement.

Ces outils sont conçus pour faciliter le processus de soumission en s’assurant que tous les aspects essentiels des données sont correctement documentés et présentés, permettant ainsi une évaluation rigoureuse et une publication efficace.

Template DIB v.18 (Janvier 2024)

Tableau 10 - Template DIB v.18 (Janvier 2024)

13 parties Contenu
Author instructions Donne un résumé de comment s’approprier ce template : dans sa rédaction comme après pour sa soumission.
Article information
  • “Article title” : le terme “dataset” ou “database” obligatoire dans le titre.

  • “Authors”

  • “Affiliations”

  • “Corresponding author’s email address and Twitter handle”

  • “Keywords”

  • “Abstract”

Specifications table

Consiste en un tableau :

  • “Subject” (dire le thème selon une catégorie prédéfinie de DIB)

  • “Specific subject area” (en 150 caractères, sans espaces)

  • “Type of data”

  • “Data collection”

  • “Data source location”

  • “Data accessibility”

  • “Related research article”

Value of the data

Proposer entre 3 et 6 bullet points qui répondent à une question chacune, par exemple :

  • “Why are these data valuable?”

  • “How can these data be reused by other researchers?”

Background Décrire ici la motivation, la problématique, le contexte précis qui nous a poussé vers la construction de ce jeu de données.
Data description Décrire le jeu de données dans l’entrepôt : les noms des fichiers, les dossiers, comment se l’approprier… Aucune interprétation ou conclusion sur les données.
Experimental design, materials and methods Décrire comment les données ont été produites et acquises. Description de toutes les étapes. Aucune interprétation ou conclusion sur les données.
Limitations Décrire toute limites liées à ces données (à leur construction ou à ce qu’elles peuvent dire).
Ethics statement DIB propose des textes en fonction de la situation dans laquelle nous somme (si ce travail implique des expérimentations animales par exemple, des données collectées dans les réseaux sociaux, etc…). Ce texte correspond à la charte Elsevier.
Credit Author Statement Attribuer les contributions de chaque auteur, selon la charte Elsevier.
Acknowledgements Mentionner ici les chercheurs qui ont contribué mais qui ne sont pas auteurs. Mentionner également les sources de financements s’il y en a. Phrase toute faite si ce travail n’est pas issu d’un financement particulier.
Declaration of competing interests Choix entre deux phrases toutes faites.
References Maximum de 20 références. Un format précis de mise en forme est demandé : numéroter les références entre crochets. Citer également : son jeu de données, et l’article de recherche qui se base sur ces données s’il y en a un.

5.2. Scientific Report (Nature)

Revue prestigieuse de portée généraliste qui publie des articles en anglais. Pour faciliter la soumission des manuscrits, la revue met à disposition deux modèles de document, ou templates, que les auteurs peuvent utiliser selon leur préférence : l’un au format Microsoft Word (.doc) et l’autre au format LaTeX. Ces templates sont conçus pour aider les auteurs à structurer leur soumission conformément aux exigences éditoriales de la revue, assurant ainsi que tous les aspects nécessaires sont correctement adressés et présentés.

Template Scientific Data (Nature) (avril 2024)

Tableau 11. Template de Nature Scientific Data

16 parties Contenu
Title 110 caractères max, avec espaces.
Authors Noms avec institution et adresse mail.
Abstract max 170 mots.
Background & Summary Contexte de la construction de ces données, les objectifs qui l’ont motivé, et leur potentiel, qu’est-ce que cela peut apporter. Recommandation : encouragent à inclure une figure qui donne un aperçu schématique de la conception de l’étude ou du flux de travail (le cas échéant).
Methods Décrit toutes les étapes ou procédures utilisées pour produire ces données. Cette description doit être suffisamment détaillée pour permettre aux lecteurs de reproduire les méthodes des publications associées à partir de cette explication. Aucune limite de taille.
Data Records Description détaillée d’où les données se trouvent et de comment s’approprier les données dans leur entrepôt.
Technical Validation Toute expérience ou analyse nécessaire pour valider la qualité technique du jeu de données. Figures ou tableau si besoin.
Usage Notes Section optionnelle. Instructions supplémentaires pour assister les chercheurs à la réutilisation de ces données.
Code Availability Optionnel si on utilise un code d’usage. Indique si et comment le code peut être accessible.
Acknowledgments Pas de charte de référence.
Author contributions Suivre la référence de la revue Nature (autorship policies).
Competing interests Regarder les politiques de Nature sur ce qui constitue des intérêts concurrents.
Figures Les images des figures doivent être fournies sous forme de fichiers séparés et doivent être référencées à l’aide d’un système de numérotation cohérent dans l’ensemble du descripteur de données. Pour les soumissions initiales, les auteurs peuvent choisir de fournir un seul PDF avec des figures intégrées. Il vous sera ensuite demandé de fournir des fichiers séparés à l’approche de la publication. Les auteurs sont encouragés à envisager la création d’une figure décrivant le(s) processus expérimental(s) utilisé(s) pour générer et analyser les données.
Figure Legends Les tableaux doivent être fournis dans un document Word dans un fichier séparé. Les tableaux peuvent être de n’importe quelle taille, mais seuls les tableaux qui tiennent sur une seule page imprimée seront inclus dans la version PDF de l’article (jusqu’à un maximum de trois). Les autres seront hébergés en tant que tableaux supplémentaires.
Tables
References Utiliser les standards de Nature. Citer nos données.

5.3. Journal of Open Humanities Data (JOHD)

Revue thématique spécialisée dans les données ouvertes en sciences humaines. Cette revue a une exigence particulière concernant la longueur des soumissions : les articles ne doivent pas dépasser 1000 mots, à l’exception du titre, des affiliations des auteurs, du résumé, ainsi que des tables, figures et références qui ne sont pas inclus dans ce comptage. Le template fourni par la revue contient du texte en bleu qui sert de guide et doit être supprimé ou remplacé par le texte définitif de l’auteur, en noir. Ce système aide les auteurs à structurer leur article de manière claire et conforme aux attentes éditoriales de la revue.

Template JOHD, short (avril 2024)

Tableau 12. Template de JOHD

12 parties Contenu
Title Noms des auteurs et affiliations.
Author roles Selon la charte : https://credit.niso.org/
Abstract Résumé d’environ 100 mots, accompagnés de mots-clés.
Overview
  • “Repository location” : donner le DOI du dataset

  • “Context” : dans quel contexte ont été produites ces données ?

Method

Décrire les méthodes utilisées pour créer les données, y compris les sous parties :

  • “Steps” : les procédures, les sources, logiciels..

  • “Sampling strategy” : s’il y en a, décrire la stratégie d’échantillonnage.

  • “Quality control” : Si appliquable. Lister les méthodes utilisées pour le contrôle qualité.

Dataset Description
  • “Repository name”

  • “Object name”

  • “Format names and versions”

  • “Creation dates”

  • “Dataset creators”

  • “Language”

  • “License”

  • “Publication date” du dataset dans l’entrepôt

Reuse Potentiel Décrire les façons dont les données peuvent être réutilisées par d’autres chercheurs.
Acknowledgments Pas de charte précise.
Funding statement Pas de charte précise.
Competing interests Si aucun intérêt écrire “The author(s) has/have no competing interests to declare”.
References APA style et inclure DOI si valables.
Supplementary Files Tous les fichiers supplémentaires/complémentaires qui doivent être liés à la publication principale doivent être listés, avec un numéro correspondant, un titre et une description de l’option. Les fichiers supplémentaires doivent également être cités dans le texte principal.

6. La question du coût d’un data paper

6.1. Le principe de l’auteur-payeur : coûts élevés

Les publications de data paper reposent sur le modèle de l’ “auteur-payeur”, principe selon lequel les auteurs ou leurs institutions financent les frais de publication afin de rendre leurs travaux librement accessibles au public. Ce modèle est souvent associé aux revues dites en “Gold Open Access” (voies dorées).

Plusieurs contraintes accompagnent ce modèle :

  • Coûts élevés de publication : Les frais de publication, connus sous le nom d’Article Processing Charges (APC), peuvent être prohibitifs, allant de quelques centaines à plusieurs milliers d’euros par article. Cette barrière financière peut limiter la capacité des chercheurs, surtout ceux provenant d’institutions avec des ressources limitées ou des pays à faible revenu, à publier leurs travaux.

  • Inégal accès à la publication : L’accès inégal aux ressources financières peut désavantager certains chercheurs, affectant ainsi la visibilité et l’impact de leurs recherches en fonction de leur capacité à supporter ces coûts.

  • Impact sur la qualité de la recherche : Une vigilance accrue est nécessaire concernant les revues ‘prédatrices’, qui peuvent favoriser les bénéfices financiers au détriment de la rigueur scientifique.

  • Alternatives limitées : Bien que des alternatives comme la publication dans des revues sans APC (voie diamant) existent, elles sont moins nombreuses et peuvent offrir une visibilité moindre pour les travaux publiés.

6.2. Quelques solutions existantes

Des solutions diverses voient le jour :

  • Dans le contexte français, le consortium Couperin est une association d’établissements de l’Enseignement Supérieur et de la Recherche français visant à développer l’accès à l’information scientifique et technique pour la communauté scientifique. Il facilite les négociations nationales de ressources documentaires numériques, notamment avec les grands groupes d’éditions américains, et soutient la science ouverte. Le consortium évalue, négocie et organise l’achat de ressources documentaires numériques au bénéfice de ses membres. Le consortium négocie des accords avec les éditeurs pour réduire les frais de publication en Open Access pour ses membres, qui incluent des universités, grandes écoles, et autres institutions de recherche françaises. Ces accords visent à obtenir des conditions tarifaires avantageuses et parfois même des dispenses complètes sur les APC (Article Processing Charges). Ces négociations permettent de soutenir la science ouverte en réduisant la barrière financière pour les chercheurs.

  • Accords avec des éditeurs (‘open access agreements’) : certains éditeurs ont des arrangements spécifiques avec des pays ou des institutions pour réduire les APC. Ces accords peuvent varier considéablement d’un pays à l’autre et d’un éditeur à l’autre, souvent négociés à l’échelle institutionnelle ou nationale. Par exemple, divers éditeurs ont mis en place des accords transformants qui visent à transitionner du modèle d’abonnement traditionnel à un modèle de libre accès, souvent en réduisant ou en couvrant les APC pour les institutions participantes.

    Tableau 13. Open Access Agreements par revue

    Data in Brief (Politique d’Elsevier 1 ; 2) : 850$ brut Nature Scientific Data (Politique de Springer 1 ; 2) : 2290$ brut Journal Of Humanities Data (Politique Ubiquity Press) : 730$ [1]
    • Europe : Consortiums nationaux majeurs en Autriche, Bulgarie, Danemark, Finlande, France, Allemagne, Grèce, Hongrie, Italie, Malte, Pays-Bas, Norvège, Pologne, Portugal, Roumanie, Slovaquie, Slovénie, Espagne, Suède, et Suisse (incluant CERN et Swiss Universities).

    • Amérique du Nord : Nombreux établissements et consortiums aux États-Unis, incluant California State University, Carnegie Mellon University, et University of California ; Canada représenté par le Canadian Research Knowledge Network (CRKN)

    • Océanie : Australie ; Nouvelle-Zélande

    • Asie : Japon.; Corée du Sud ; Taiwan ; Inde ; Indonésie ; Qatar ; Arabie Saoudite ; Singapour ; Thaïlande

    • Amérique latine : Colombie et Brésil

    • Afrique : Afrique du Sud avec le SANLiC Consortium

    • Pays classés “à faibles revenus” selon la Banque Mondiale sont dispensés d’APC : concerne en majorité des pays d’Afrique (Madagascar, Burundi, Burkina Faso…) à l’exception de l’Ukraine depuis l’invasion de la Russie.

    • Pays à “faible-moyen revenus” avec un PIB en dessous des 200$ bénéficient d’une réduction d’APC de 50% : concerne notamment la Côte d’Ivoire, le Sénégal, ou encore le Maroc.

    • Les autres sont évalués au cas par cas.

    • Un des prix les plus bas pour les revues.

    • Pas d’aide ou de dispense d’APC dans ce contexte.

References

Dedieu, Laurence. 2022. “Publier un data paper.” https://doi.org/10.18167/COOPIST/0057.