Développeurs

Des jeux de données utiles pour le « Call for Code »

Share this post:

Article original de Susan Malaika 

https://community.ibm.com/community/user/datascience/blogs/susan-malaika/2020/02/21/call-for-code-useful-datasets

Traduit de l’anglais par Georges-Henri Moll

Introduction aux données ouvertes et au rôle majeur des métadonnées

De plus en plus de données deviennent disponibles gratuitement par le biais d’ institutions publiques et privées, ainsi qu’au travers de publications de recherche. Par exemple, le magazine Nature a instauré une politique qui incite les auteurs à déclarer comment les données liées leurs publications de recherche peuvent être consultées par les lecteurs.

Pour permettre aux outils d’exploration de données de découvrir facilement ce qui se trouve dans un jeu de données, les auteurs, les chercheurs et plus généralement les fournisseurs de jeux de données sont encouragés à les documenter par des métadonnées. Celles-ci peuvent se présenter sous différentes formes. Par exemple, le site data.gov du gouvernement américain utilise le schéma standard DCAT-US v1.1 tandis que l’ outil de recherche de données Google repose principalement sur le système de schema.org . Malheureusement, de nombreux jeux de données ne contiennent aucune métadonnée. C’est pourquoi certains jeux de données peuvent ne pas apparaitre dans les résultats de certains moteurs de recherche, et l’on doit alors se rendre sur des portails spécifiques connus, et chercher en outre s’il existe des portails spécialisés sur région, la ville ou le sujet d’intérêt. L’explorateur de données expert en métadonnées aura remarqué l’alignement entre DCAT et schema.org dans la spécification DCAT datée de février 2020 https://www.w3.org/TR/vocab-dcat-2/ . Les jeux de données eux-mêmes sont souvent disponibles dans une variété de formats, tels que CSV, JSON, GeoJSON, ou zip. Ils sont également parfois accessibles par des API.

De nombreux jeux de données sont mis à disposition du public par des organismes gouvernementaux.

Aux Etats-Unis, data.gov propose de plus de 250 000 jeux de données à destination des développeurs. Une initiative similaire existe en Inde : data.gov.in compte plus de 350 000 ressources.

Des entreprises comme IBM fournissent également des accès aux données, comme par exemple des données météorologiques, ou donnent des conseils sur la façon de traiter les données ouvertes. Par exemple, « les données météorologiques de la NOAA (National Oceanic and Atmospheric Administration) pour l’aéroport JFK  » sont utilisées pour entraîner le modèle de prévision open source « Weather Forecaster » disponible sur Model Asset Exchange et sur Github . Un autre point d’entrée intéressant est le Data Asset Exchange (DAX) d’IBM https://developer.ibm.com/exchanges/data/. Il regroupe des jeux de données utiles pour la science des données appliquée aux entreprises.

Il est également possible de s’inscrire pour accéder aux jeux de données normalisés et simples à d’utilisation d’IBM PAIRS (Physical Analytics Integrated Data Repository and Services) : https://ibmpairs.mybluemix.net/.

Lorsqu’on développe un prototype, ou que l’on entraîne un modèle d’apprentissage automatique pour un hackathon, il est crucial d’avoir accès aux données pertinentes pour rendre la solution convaincante. Il existe de nombreux jeux de données publics qui peuvent aider à démarrer. Nous allons passer en revue plusieurs façons de les identifier, et nous allons voir comment les accéder. Il est à noter que parfois ces jeux de données nécessitent un prétraitement avant de pouvoir être utilisés, pour compléter les données manquantes par exemple. Mais pour un hackathon, et même pour des applications d’entreprise, ils sont généralement assez bons.

Comment trouver des jeux de données : Moteurs de recherche

Un exemple de moteur de recherche de données est celui de Google https://datasetsearch.research.google.com/ – Avec cet outil , il est possible de trouver les jeux de données par mots clés, comme par exemple par le nom d’un pays, celui d’une ville, ou encore une catégorie médicale ou agricole. On peut également appliquer des filtres : des intervalles sur la date de dernière mise à jour, le format de téléchargement (JSON, image, etc.), les droits d’utilisation (commerciaux ou non commerciaux), la gratuité des données. Cet outil est bien adapté aux données munies de métadonnées (comme celles définies par https://schema.org/). Cependant, certains jeux de données n’ont pas encore de métadonnées compatibles avec le moteur Google Dataset Search, et il faut alors se rabattre vers les portails spécifiques mentionnés plus haut. Bien sûr, certaines données peuvent être trouvées en utilisant les deux méthodes.

Comment trouver des jeux de données : portails spécifiques

De nombreux gouvernements et institutions comme l’ONU ou la Banque Mondiale fournissent des jeux de données. Voici quelques exemples:

  • data.gov : On y trouve des données mises à disposition par les sources gouvernementales de nombreux pays. Par exemple pour l’Irlande, allez  https://data.gov.ie/ offre plus de 10 000 jeux de données sur des sujets comme l’énergie, l’environnement et les transports. Pour l’Australie, https://data.gov.au/ propose plus de de 80 000 jeux de données. Habituellement, ces sites ont leur propre outil de recherche ainsi qu’un catalogue de données. On peut y trouver des jeux de données spécifiques à un pays – comme par exemple les récifs coralliens pour l’Australie
  • données sur les villes: de nombreuses villes ont des initiatives de données ouvertes comme New York sur https://opendata.cityofnewyork.us/ , Paris sur https://opendata.paris.fr/ , Berlin sur https://daten.berlin.de/
  • météo : On peut trouver des données météorologiques concernant les États-Unis sur weather.gov . De là, il est possible de naviguer vers les données de la NOAA (National Oceanic and Atmospheric Administration) https://www.ncdc.noaa.gov/cdo-web/datasets et vers des données de modèles géo-spaciaux https://www.ncdc.noaa.gov/data-access/model-data/model-datasets . On y trouve aussi les rapports d’observation METAR (Meteorological Airport Reports), c’est-à-dire les rapports météorologiques des aéroports, destinés initialement au transport aérien https://www.aviationweather.gov/metar , et encore bien d’autres données. Certains pays offrent des moteurs d’exploration les données climatiques comme les Pays-Bas sur https://climexp.knmi.nl/start.cgi
  • nasa.data.gov : La NASA  offre plusieurs dizaines de milliers de jeux données qui sont typiquement utilisés pour leurs hackathons annoncés sur  NASA Space Apps Challenge
  • UNdata: On peut trouver des données sur l’agriculture, la criminalité, l’éducation, l’énergie, l’industrie, le travail, les comptes nationaux, la population et le tourisme sur UNdata . Elles sont produites par les divisions statistiques et démographiques et autres agences des Nations Unies.

Portails de jeux de données et catalogues divers :

Certains sites classent par catégories des données issues d’autres sources (incluant par exemple des données des sites de data.gov). Ces sites méritent une visite, tout en sachant cependant que plusieurs d’entre eux sont payants pour certains accès spécialisés. Néanmoins, cela peut donner une idée de ce qui est disponible. Voici des exemples de sites qui regroupent des jeux de données ou proposent des introductions aux données ouvertes:

La liste Wikipédia de jeux de données d’apprentissage automatique :  https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research

Considérations sur les licences et sur la confidentialité

Pour respecter les réglementations sur le respect de la vie privée, qui varient bien sûr d’un pays à l’autre, il est judicieux d’utiliser des jeux de données factuelles telles que des mesures, surfaces de territoires, métriques de retenues d’eau, données météo – en évitant les données personnelles, comme les noms, les photos de visages.

Parfois, il est stipulé que certaines données sont destinées exclusivement à un usage académique.

Généralement, les propriétaires de données sont d’accord avec l’utilisation de leurs données pour un hackathon, mais il est préférable de leur demander explicitement. Un exemple est celui de la base de données multimodale (image et texte) du Deep Learning For Disaster Response https://gitlab.com/awadailab/crisis_multimodal> . En effet, ce site indique que ses données sont téléchargemeables uniquement à des fins académiques. Dans ce cas précis, nous (« Call for Code ») avons confirmé avec les auteurs que ces données pouvaient être effectivement utilisées dans le cadre de hackathons, et en particulier ceux contribuant au bien de la collectivité. Il est clairement recommandé d’adopter une attitude similaire. Noter en particulier que si le logiciel issu du hackathon est destiné tout ou partie à un usage commercial, vous ne devez pas utiliser des jeux de données limités à un usage académique.

De nombreux jeux de données, pour lesquels une licence est spécifiée, disposeront d’une licence Creative Commons (CC). Un exemple est celui des données sur les signes avant-coureurs des tremblements de terre. Il faut savoir que lorsque la licence CC est utilisée dans sa variante NC, cela signifie que les données ne doivent pas être utilisées à des fins commerciales.

Digital Developer Advocate - Data Scientist - Master Inventor - IDT Lead

More Développeurs stories
17 mars 2021

Les managers de demain devront maîtriser le Cloud

La crise de la Covid-19 aura au moins eu le mérite de révéler nos capacités de résilience et d’agilité. Avec l’aide déterminante des technologies dans le cloud, symbolisée par la visio-conférence, nos entreprises et nos institutions ont pu s’adapter et faire ce constat rude, mais tout Darwinien : seuls les plus agiles arrivent à faire face. […]

Continue reading

23 février 2021

L’Internet industriel des objets à l’épreuve du réel

Vos données valent-elles de l’or ? L’Internet industriel des objets à l’épreuve du réel   Pour innover et survivre, les entreprises industrielles doivent constamment adopter de nouvelles techniques, de nouvelles compétences, de nouvelles configurations de travail. Au confluent de ces trois novations, les technologies numériques et plus particulièrement l’internet des objets (IoT) leur ouvrent des […]

Continue reading

11 janvier 2021

Enseigner la Data Science aux futurs cadres et les préparer à l’Intelligence Artificielle

Le phénomène de la digitalisation de l’économie et de nos sociétés n’a pas fini d’impacter le fonctionnement des entreprises et des organisations : quelles que soient leurs futures fonctions, techniques ou manageriales, nos étudiants doivent être préparés face au phénomène de prolifération des données, à exploiter ces données et leur donner du sens. Car bien […]

Continue reading