Les concepts de l’IA sont connus depuis de nombreuses années. L’augmentation de la puissance informatique, la possibilité d’accès et la nécessité de devoir traiter un volume de données à la croissance exponentielle, ont rendu possible, intéressant et nécessaire l’usage de l’IA.
Et si les données ont besoin de l’IA, l’IA a également besoin des données : Comment imaginer faire une prédiction ou une recommandation sans données ? Comment reconnaître un objet dans une image sans avoir fourni des images d’exemples ?
Je vous propose dans cet article de mettre en avant les différents aspects de la relation entre l’Intelligence Artificielle et les données. Je l’illustre par des solutions proposées par IBM, mais cela peut s’appliquer à d’autres solutions.
L’IA aide les professionnels à tirer parti du potentiel des données
Comme l’illustre le schéma ci-dessous (courbes violette et bleue), il est de plus en plus difficile pour les organisations et leurs équipes de tirer parti de l’augmentation exponentielle du volume de données, la transformation digitale et des changements technologiques.
Grâce à l’IA (courbe grise), les professionnels peuvent tirer parti du potentiel des données, en créant de nouveaux outils (application cognitive), en simplifiant des processus pour améliorer leur travail et les résultats.
Comment fournir à vos projets d’IA les données dont elles ont besoin
L’intelligence artificielle doit reposer sur un jeu de données pour apprendre. L’accès à celui-ci est donc stratégique, sa constitution et sa sécurisation également.
La plateforme IBM Watson Data Platform fournit tous les composants permettant de construire le référentiel de données et de gérer son accès et sa sécurité. Et cela, soit de bout en bout, soit en s’appuyant sur des briques déjà existantes. D’ailleurs les données peuvent être on-premise ou sur le Cloud.
Watson Data Platform : la donnée au cœur d’un projet IA
La plateforme propose des services pour préparer, stocker, analyser et traiter la donnée. En voici certains, que j’utilise plus particulièrement dans la démonstration à la fin de cet article.
- IBM Data Catalog : Ce service permet, de manière sécurisée, de découvrir, cataloguer et gouverner les données de votre entreprise. Ce service propose un vaste jeu de connecteurs vers des sources de données IBM ou non.
- Data Science Experience (DSX) : Un environnement collaboratif comportant tous les outils dont les Data Scientists ont besoin pour réussir. Il exploite les meilleures solutions open source (Jupyter, R, Scala), ainsi que des solutions IBM tel que SPSS ou Streams. Cet environnement fonctionne sur IBM Cloud, dans votre cloud privé ou sur votre laptop. Cette plateforme de Data Science est reconnue par le marché pour sa complétude.
La plateforme est également riche d’autres services pour vous permettre d’aller plus loin tels que Cloudant/Compose pour des bases No SQL, Cloud Object Storage pour le stockage d’objets, Data Refine pour la préparation des données, Message Hub pour l’échange temps réel d’événement à des fins de stockage ou d’analyse…
Vous trouverez sur ce lien plus d’informations sur nos solutions de data science : ici
Après analyse des données, leur traitement via Watson Machine Learning
Après avoir travaillé les données et les modèles, la plateforme Watson Machine Learning permet :
- L’exécution des travaux réalisés au travers de Data Science Experience,
- L’entrainement, le test des modèles et le scoring des données via Spark MLlib, Python Scikit-learn,
- L’usage de librairies de Deep-Learning tel que Keras ou Tensorflow,
- L’importation de modèles SPSS.
Pour assurer une plus grande simplicité d’usage dans des applicatifs tiers, les modèles peuvent ensuite être déployés sous la forme d’un API REST ou exploités en mode batch ou Streams.
Pouvoir se contenter d’un jeu de données d’apprentissage réduit est primordial
Dans cet article autour de l’IA et de la donnée, je souhaitais également faire un aparté sur la taille du jeu de données. Le tsunami de données que l’on connait (plus de 90 % des datas existantes ont été créées ces deux dernières années et dans une même proportion, elles ne sont pas encore exploitées) est intéressant, car il nous apporte les données nécessaires à l’apprentissage, mais pour que l’apprentissage se fasse dans un temps « raisonnable », il est important que les modèles (Machine Learning ou Deep Learning) puissent être pertinents sur un jeu de données réduit.
En apprendre plus à partir de moins de données.
L’approche d‘IBM Watson sur le Machine Learning est conçue pour exploiter des données spécifiques à un client ou à une industrie. IBM travaille par exemple
Watson apprend plus avec moins de données que d’autres plateformes d’IA. C’est pourquoi Watson a été implanté par de grands clients à travers le monde et constitue une plateforme plus pertinente que d’autres plateformes d’IA.
Le graphe suivant montre les résultats d’une étude d’Intento qui compare plusieurs solutions d’Agents Conversationnels. On y voit que la solution d’IBM Watson (en vert sur le graphe) réalise un meilleur score que les autres avec des jeux de données en nombre réduit.
Source de l’étude : https://www.slideshare.net/KonstantinSavenkov/nlu-intent-detection-benchmark-by-intento-august-2017
Mais, qui est propriétaire des données ? Qui est responsable des données ?
Voici les principes appliqués par IBM :
IBM considère que les données de ses clients leur appartiennent. Les accords avec les clients sont clairs : ils n’ont pas à céder leurs droits sur leurs données – pas plus que sur les connaissances tirées de ces données – pour bénéficier des solutions et des services IBM.
IBM est fermement convaincu que l’intelligence artificielle (IA) ne peut, ni ne pourra jamais, remplacer la prise de décision, le jugement, l’intuition ou les choix éthiques humains. Les entreprises doivent être en mesure d’expliquer ce qui a été intégré dans les recommandations de leurs algorithmes. Si elles n’en sont pas capables, leurs solutions ne devraient pas être sur le marché. Par conséquent, IBM soutient les politiques de transparence et de gouvernance des données qui permettent aux individus de comprendre comment un système d’IA arrive à une conclusion ou une recommandation donnée.
L’analytique (prédictif ou prescriptif) doivent s’intégrer à des services cognitifs pour proposer des solutions d’IA plus globales
IBM propose une plateforme pour l’intelligence artificielle globale
Dans un article précédent, j’exposais plusieurs types de chatbot. La plateforme IBM Watson permet facilement d’adresser l’ensemble de ces types. La synergie entre le Cognitif d’une part portée par les services Watson tel que Watson Conversation et l’Analytique porté par Watson Machine Learning d’autre part est clé et naturelle. L’intelligence artificielle comprend ces deux mondes, et les données en sont le carburant. Watson Data Platform est là pour « nourrir » cette IA.
Pour illustrer cela, je vous propose une mise en application de cette synergie. Dans cet exemple, Watson Machine Learning, Data Catalog et IBM Data Science Experience travaillent en concert avec le service Watson Conversation. Un modèle prédictif exécuté et publié par Watson Machine Learning y est exploité au sein d’un chatbot pour faire de la recommandation basée sur l’échange avec le consommateur.
Le chatbot améliore, simplifie l’expérience client, mais il ne peut être statique en termes de contenu, il doit s’adapter à son interlocuteur, lui proposer les bons produits, services de manière prescriptive ou prédictive.
Les cas d’usage sont très nombreux et permettent d’améliorer le rendu de son chatbot, on pense très facilement à des scénarios autour du Retail, mais on s’aperçoit vite qu’il est applicable et pertinent dans presque toutes les industries. Dans un acte d’échange, la recommandation arrive toujours très vite dans la discussion.
Mais alors comment réaliser cela via la plateforme IBM.
Architecture de principe :
Etape d’une processus :
- Je capture dans la conversation un ensemble d’informations : elles viennent en entrée de mon modèle.
- Le modèle a été construit sur la base des historiques d’achat de consommateurs.
- Je propose alors au consommateur le produit qu’il est le plus susceptible d’acheter.
Illustration de cet exemple :
Si vous souhaitez vous aussi réaliser un agent conversationnel qui effectue des recommandations basées sur les données de conversation et les historiques d’achat, je vous propose le tutoriel suivant : ici
Cet exemple n’utilise pas tous les composants de la plateforme IBM Watson for AI présenté sur le schéma, et contient un nombre limité de fonctions.
Voici d’autres fonctions que l’on pourrait y ajouter
- Gérer la persistance des données de conversation à des fins d’analyse,
- Détecter en temps réel le « churn » en fonction des échanges et de leur teneur,
- Intégrer un moteur de décisions basé sur des règles
- …