Enseignement et Recherche

Ressources pour se former à enseigner et pratiquer la Data Science

Share this post:

La Data Science est une des compétences les plus demandées sur le marché de l’emploi, tant pour les profils « Business » que pour les techniciens et ingénieurs. De nombreuses formations intègrent cette notion dans leurs cursus. Cependant, les établissements manquent d’enseignants compétents et d’outils pour former leurs étudiants.

Voici un panorama des ressources à la disposition des (futurs) enseignants pour se former ou se perfectionner, et pratiquer avec leurs élèves.

 

Qu’est-ce que la Data Science ?

La Data Science est la science (ou l’art) d’analyser les nombreuses données disponibles en interne dans les entreprises, et en externe sur l’Open Data. Objectif : comprendre des phénomènes fonctionnels ou sociaux, prévoir des comportements, et prendre des décisions basées sur l’expérience passée.

C’est une des compétences les plus recherchées sur le marché de l’emploi, et de nombreux étudiants se demandent comment l’aborder, comment s’y former et comment la pratiquer de façon très concrète.

Par ailleurs, dans les universités et grandes écoles proposant ce type de formations, les enseignants eux-mêmes cherchent de la « matière première » pour alimenter leurs cours.

Enfin, pour pratiquer la Data Science de façon concrète, il faut avoir accès à de puissants environnements matériels et logiciels capables de compiler de grands volumes de données.

 

Des ressources pour se former

La majorité des fournisseurs de MOOC (Coursera, edX, Udacity, etc…) proposent des cours de data science : https://en.wikipedia.org/wiki/List_of_MOOC_providers.

Voici deux programmes proposés sur Coursera :

https://www.coursera.org/professional-certificates/ibm-data-science

https://www.coursera.org/specializations/advanced-data-science-ibm

On peut trouver, par ailleurs, des données ouvertes (open data) un peu partout. En voici un exemple : https://developer.ibm.com/exchanges/data/ .

 

Des ressources pour enseigner la Data Science

The Open Ecosystem of Big Data (ODPI) propose un jeu complet de cours et de travaux pratiques (labs). Il est destiné aux enseignants et aux étudiants pour construire des cours de Data Science, sous le nom d’OpenDS4All : https://github.com/odpi/OpenDS4All.

Ce référentiel n’est pas un MOOC, mais bien un ensemble de ressources que chaque enseignant peut personnaliser pour créer son propre cours.

 

Des ressources pour pratiquer la Data Science

Pour s’auto-former ou enseigner la Data Science, il est nécessaire de pratiquer dans un environnement, via des labs et des projets. La plupart des fournisseurs d’infrastructures proposent des environnements gratuits, limités en volume, mais suffisants pour des labs ou des projets de taille modeste. IBM propose le sien gratuitement.

Ce studio de développement de modèles s’appelle Watson Studio. Il a l’avantage de regrouper la plupart des outils open-source d’une part (Jupiter, Python, R, Scala, Spark, ScikitLearn, et autres bibliothèques d’algorithmes). Et pour celles et ceux qui veulent éviter la barrière programmatique, des ateliers en mode « menu » et « drag & drop », d’autre part.

Comme (presque) tous les services de son Cloud public, Watson Studio existe en version « freemium » offrant de nombreuses fonctionnalités, simplement limitées en volume ou en CPU. C’est donc une bonne façon de tester les produits et de se former sur différentes technologies.

Une fois votre compte freemium créé, vous le gardez indéfiniment à condition de l’utiliser régulièrement. Vous pouvez aussi le faire évoluer en passant à l’échelle ou pour un usage professionnel grandeur nature. Watson Studio existe aussi en version desktop, afin de travailler hors ligne, sur sa propre machine.

 

Accéder à Watson Studio, c’est simple

Vous devez cliquer sur https://dataplatform.cloud.ibm.com/ puis suivre les instructions de création d’un nouveau compte. Aucune carte de crédit ou autre moyen de paiement ne vous sera demandé. Les « académiques » (professeurs et étudiants) auront avantage à accéder au vaste ensemble de services et produits gratuits qu’IBM leur réserve : https://www.ibm.com/academic/technology, et en particulier en data science : https://www.ibm.com/academic/technology/data-science.

 

Quelques notions et liens proposés, parmi d’autres

Nous conseillons le tutoriel sur SPSS Modeler qui, dans cet environnement, permet de gérer le cycle complet de développement de modèles :https://developer.ibm.com/tutorials/watson-studio-spss-modeler-flow/

Watson Studio s’utilise via des environnements Open Source, comme Jupyter, Python, Scikit-Learn. Voici un lab d’apprentissage basé sur la classification. Facile à utiliser, il se présente sous forme de notebook Jupyter, avec des cellules à compléter : https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/9794395a-e1fb-437c-9a81-20a64f15b325/view?access_token=64de2893f18a51e6cdbc008372f0b8c37a06a89a26d8791331311b5cdc908bbd

La solution à la question demandée en bas du notebook est également disponible : https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/a0747fcf-2a44-4074-bc06-2316feafae8e/view?access_token=0b2eb3e5bc93dceb5ff72476c9568c9b2bfb5ee1ed10727bf1ab11de1af9e502

Différents problèmes de Data Science ont une composante temporelle. Il existe diverses techniques pour adresser ce problème dont ARIMA (Autoregressive Integrated Moving Average), assez ancien mais toujours un excellent point de départ avec l’avantage d’être « transparent ». Là encore, nous proposons deux notebooks de familiarisation : https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/2ce4d2c6-acb1-4a48-a656-38ab9dea9cd1/view?access_token=56cd5138e55daa4441429de3f55f74e72951b20e300109a0db4aec150422fb8b

… avec la solution : https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/7976df67-0899-4d87-aa89-222b9f4eeff2/view?access_token=90e16a6d8c4f8c3d5fa1060f6a0f98827f58f2dd95fa695fdb8048793dd92499

Gérer les volumes de données

La Data Science se doit de traiter de gros volumes de données. Le « data parallélisme », sur des clusters importants, le permet. Spark est l’infrastructure adéquate actuelle, sur laquelle se greffent de nombreux algorithmes, comme ceux de la bibliothèque SparkML. Pour s’y initier, dans la même ligne que pour le tutoriel 3, deux notebooks : https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/14b2fc9c-1b4c-4633-af4f-e80a0895812c/viewaccess_token=2c5b7f8593e1334bb1254a4b70c2479632771714ec38572fc8226d145662b07d

Et la solution : https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/c38a65eb-9f09-4148-901b-2df2fbec8a9a/view?access_token=7da641a1ba1fefd73be68141f14259bcaddbe0a9bec92a63fb6c960efff5c0b2

Pour terminer, j’ai écrit un article il y a quelques temps montrant de multiples tutoriels Cloud et Data Science. Vous y trouverez certainement votre bonheur : https://www.ibm.com/blogs/ibm-france/2019/10/21/comment-se-former-aux-technologies-du-cloud-et-de-lintelligence-artificielle/

A vous de jouer !

 

 

Digital Developer Advocate - Data Scientist - Master Inventor - IDT Lead

More Enseignement et Recherche stories
1 juin 2021

Le financement : l’autre enjeu de la transformation digitale

En ces temps de crise sanitaire mondiale, l’impact sur l’économie des entreprises est majeur. Les liquidités deviennent une ressource rare et précieuse, les engagements se font sur de plus courtes durées pour laisser plus de flexibilité en cas d’événement imprévu. Malgré une prudence de mise, la transformation digitale devient prioritaire au sein des directions d’entreprises ; […]

Continue reading

16 avril 2021

Construire, moderniser, sécuriser et opérer votre IT avec IBM IS

  Le « Move to Cloud » et l’intégration d’environnements hybrides De nouveaux rôles clés émergent pour accélérer l’innovation en entreprise tout en maîtrisant les coûts. L’usage du Cloud en entreprise représente, en effet, une opportunité extraordinaire d’innovation. Mais aussi une menace sur l’intégrité, le contrôle des données et la gestion des assets informatiques. « Le « Move to […]

Continue reading

6 avril 2021

La flexibilité du Cloud sans externaliser vos données

Nous constatons une accélération digitale qui entraîne la croissance du Cloud. Pour répondre à ces besoins, sans renoncer à la sécurité de vos données, une alternative se présente : le Cloud privé.   Move to Cloud Lors d’une évolution ou migration d’un environnement qu’il soit SAP ou non, une infrastructure solide est nécessaire pour accompagner […]

Continue reading