Les outils numériques offrent des possibilités toujours plus nombreuses pour une science collaborative permettant de relever des défis mondiaux – mais trop souvent, les données précieuses nécessaires pour éclairer ce travail restent hors de portée des chercheurs.
Les données peuvent être enfouies dans une collection impossible à rechercher, codées avec une terminologie idiosyncratique ou d'une manière qui ne peut pas être facilement utilisée avec d'autres données - ou pas facilement utilisables parce que les scientifiques ne peuvent pas vérifier les détails des données elles-mêmes, comme leurs origines ou leurs conditions d'utilisation.
« C’est un problème qui est en fait aussi vieux que la science elle-même », explique Simon Hodson, le directeur général de Comité des données (CODATA) du Conseil international des sciences (ISC), qui œuvre à améliorer la disponibilité et la convivialité des données.
Ces problèmes de données peuvent limiter les possibilités de recherche et entraîner une perte de temps et d'argent. Une étude publié par la Commission européenne en 2018, le nettoyage des données de mauvaise qualité pour les rendre utilisables est de loin la tâche la plus longue pour un projet d'analyse de données moyen, et peut représenter 80 % de l'effort total.
Vue d'ensemble FOIRE MONDIALE Le projet CODATA, une collaboration entre CODATA et le Conseil international des sciences (ISC), s'est attaqué à ce problème. Le projet visait à « faire fonctionner les données » en encourageant l'adoption de la FAIR Principes de données (trouvables, accessibles, interopérables et réutilisables), favorisant une meilleure gestion des données et une recherche soutenue par l'analyse assistée par machine.
Le projet étant terminé, CODATA souhaite poursuivre et étendre l’initiative avec FOIRE Mondiale+, qui comprendra de nouveaux partenaires et des études de cas internationales mettant en pratique les leçons apprises au cours du projet WorldFAIR de deux ans.
La nouvelle phase sera structurée comme une « fédération » de projets, offrant un cadre de collaboration où les scientifiques pourront partager leur expertise technique et s'appuyer sur les travaux des autres. CODATA invite les partenaires potentiels à proposer des études de cas et à s'impliquer.
Les travaux initiaux de CODATA qui ont servi de base à WorldFAIR ont débuté en 2017, avec le soutien de l'ISC et le financement du Association chinoise pour la science et la technologie. Ce travail de formation comprenait des ateliers qui ont conduit à l'élaboration de trois études de cas, chacune axée sur l'utilisation des données dans un domaine spécifique : les maladies infectieuses, l'urbanisme et la réduction des risques de catastrophe. Au cours des premières étapes du projet, CODATA a également développé un partenariat clé avec la Data Documentation Initiative (DDI).
S'appuyant sur ces efforts, CODATA a obtenu financement de la Commission européenne pour WorldFAIR. Le projet a soutenu 11 études de cas examinant l'utilisation des données dans un large éventail de domaines, notamment le patrimoine culturel, les nanomatériaux et les sciences océaniques. Les études de cas ont porté sur 13 pays, dont le Brésil, le Kenya, la Nouvelle-Zélande et les États-Unis.
Les leçons tirées du projet ont constitué la base de 11 recommandations politiques pour améliorer l’utilisation et la disponibilité des données pour la science, et a conduit au développement de la Cadre d'interopérabilité entre domaines (CDIF), qui vise à rendre les données de différents domaines scientifiques plus interopérables.
Dans le même temps, CODATA a publié de nouvelles Terminologie de la gestion des données de recherche, qui fournit des définitions claires des termes utilisés dans le domaine ; ces termes ont maintenant été publiés sous forme de «Vocabulaire FAIR», et sera bientôt disponible en ligne dans un format plus facilement lisible par l’homme.
Chacune des 11 études de cas a également généré sa propre rapports et conseils pour l'utilisation des données, visant à formuler des recommandations pertinentes dans différents domaines scientifiques.
L’une des études de cas examinées biodiversité agricole, en se concentrant sur la pollinisation – un domaine où le modèle de description et de catégorisation des données est encore en cours de définition. En s’appuyant sur les données et les contributions de collègues du monde entier, des chercheurs d’une demi-douzaine de pays – Brésil, Kenya, Argentine, États-Unis, Royaume-Uni et Pays-Bas – ont développé un guide complet et ensemble d'outils pour les données relatives à la façon dont les plantes et les pollinisateurs interagissent.
Il s’agit d’un sujet extrêmement spécifique, mais qui concerne presque partout, les scientifiques de nombreux domaines différents – qui peuvent désormais bénéficier d’une approche unifiée et standardisée des données, ce qui facilite la capitalisation des travaux de leurs collègues et accélère leurs propres recherches.
« Passer d’approches diverses et d’initiatives cloisonnées à des données FAIR sur les interactions plantes-pollinisation largement disponibles pour les scientifiques et les décideurs permettra le développement d’études intégratives qui améliorent notre compréhension de la biologie, du comportement, de l’écologie, de la phénologie et de l’évolution des espèces », écrire aux chercheurs qui ont travaillé sur l'étude de cas.
Dans une autre étude de cas, les chercheurs ont examiné réduction des risques de catastrophe« Étant donné que le changement climatique et l’augmentation de la population sont susceptibles d’accroître à la fois la gravité et la fréquence des catastrophes, le besoin de données fiables pour éclairer nos réponses devient de plus en plus crucial », écrivent-ils.
Les scientifiques et les organismes nationaux et internationaux qui travaillent sur les risques de catastrophes se penchent sur le passé pour évaluer l’impact d’événements futurs possibles et comprendre comment les atténuer et s’en remettre. Ils s’appuient également sur les données collectées en permanence par des capteurs terrestres et satellitaires, gérés par des sources publiques et privées.
Mais dans l’étude de cas, les chercheurs ont eu du mal à obtenir le type d’informations nécessaires pour réaliser des évaluations précises, car une grande partie des données pertinentes ne correspond pas aux principes de données FAIR. Des informations essentielles manquent souvent, comme le nombre de personnes blessées lors d’une catastrophe ou la rapidité avec laquelle l’événement s’est déroulé. Dans d’autres cas, les autorités nationales utilisent leurs propres méthodes pour calculer les points de données clés sans montrer leur travail, ce qui rend difficile la comparaison pour les autres.
S’appuyant sur des recherches approfondies, l’équipe chargée de l’étude de cas a formulé une série de recommandations de pratiques qui devraient faciliter la prise de décisions politiques fondées sur des données probantes dans ce domaine de plus en plus urgent – « une étape fondamentale vers la construction de communautés et de nations plus sûres et plus résilientes », écrivent-ils.
Des chercheurs de l'Union internationale de chimie pure et appliquée (UICPA) a entrepris une étude de cas visant à déterminer comment les données et la terminologie liées aux produits chimiques peuvent être rendues plus facilement utilisables par les humains et les machines.
L'IUPAC a plus d'un siècle d'expérience L’UICPA a réuni des chimistes pour définir et normaliser la manière dont les scientifiques sur le terrain travaillent avec les produits chimiques et en parlent. Mais comme les outils numériques – et de plus en plus l’IA et les technologies associées – offrent de nouvelles façons de travailler, l’étude de cas de l’IUPAC a examiné comment ces normes pourraient être rendues plus efficaces et permettre à d’autres scientifiques de réutiliser plus facilement les données de chimie.
L’un des produits de l’étude de cas était un «livre de cuisine», une ressource ouverte de lignes directrices pour aider les scientifiques – y compris les étudiants, les enseignants et les professionnels en activité – à comprendre comment travailler avec les données de chimie et comment rendre leurs propres données plus accessibles aux autres.
Le projet décrit également un nouveau protocole numérique ouvert ambitieux qui pourrait relier de nombreuses bases de données chimiques mondiales différentes, permettant aux scientifiques de trouver et d’accéder aux données avec une seule requête – et également de vérifier si leurs propres données sont lisibles par machine.
Réunir des scientifiques pour parler des données qu’ils produisent et essayer de comprendre comment les autres travaillent avec leurs propres données a été une révélation, explique Hodson.
Et en établissant des normes et des définitions claires, les scientifiques non seulement contribuent à la recherche actuelle, mais permettent également aux générations suivantes de poursuivre plus facilement leurs travaux – peut-être d’une manière que les auteurs originaux n’auraient jamais envisagée, ajoute-t-il.
« Nous avons découvert à WorldFAIR à quel point il était fascinant et utile d'avoir ces conversations, de réunir toutes les études de cas dans une salle et de les faire parler de leurs données, de ce qu'elles font, de la façon dont elles fonctionnent et de la façon dont elles les décrivent – et dans certains cas d'identifier des liens que nous n'avions pas nécessairement imaginés à l'avance », dit-il.
Image Taylor Vicky on Unsplash.
Mentions légales
Les informations, opinions et recommandations présentées dans nos blogs invités sont celles des contributeurs individuels et ne reflètent pas nécessairement les valeurs et les convictions du Conseil scientifique international.