Bien que la science des données et le machine learning soient liés, il s’agit de domaines très différents. En un mot, la science des données structure le big data, tandis que le machine learning se concentre sur l’apprentissage à partir des données elles-mêmes. Cet article vous permettra d’approfondir les nuances de chaque domaine.
Newsletter sectorielle
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la déclaration de confidentialité d’IBM.
Lire la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
La science des données est un vaste domaine multidisciplinaire qui permet d’extraire de la valeur des énormes jeux de données d’aujourd’hui. Il utilise des outils avancés pour examiner les données brutes, constituer un jeu de données, le traiter et développer des informations pour créer du sens. Les domaines qui composent le domaine de la science des données comprennent l’exploration, les statistiques, l’analyse des données, la modélisation de données, la modélisation du machine learning et la programmation.
En fin de compte, la science des données est utilisée pour définir de nouveaux problèmes métier que les techniques de machine learning et l’analyse statistique peuvent ensuite aider à résoudre. La science des données résout un problème métier en comprenant le problème, en connaissant les données nécessaires et en analysant les données pour aider à résoudre le problème réel.
Le machine learning (ML) est un sous-ensemble de l’intelligence artificielle (IA) qui se concentre sur l’apprentissage à partir de ce que la science des données fournit. Il a besoin des outils de la science des données pour commencer à nettoyer, préparer et analyser les big data non structurés. Le machine learning peut ensuite « apprendre » des données pour créer des informations qui améliorent les performances ou éclairent les prédictions.
Tout comme les humains peuvent apprendre par l’expérience au lieu de simplement suivre des instructions, les machines peuvent apprendre en appliquant des outils à l’analyse des données. Le machine learning fonctionne sur un problème connu à l’aide d’outils et de techniques, créant ainsi des algorithmes qui permettent à une machine d’apprendre à partir de données grâce à l’expérience et avec une intervention humaine minimale. Il traite d’énormes quantités de données qu’un humain ne pourrait pas traiter au cours d’une vie et évolue au fur et à mesure que de nouvelles données sont traitées.
Dans la plupart des entreprises, trouver, nettoyer et préparer les données appropriées à des fins d’analyse peut prendre jusqu’à 80 % du temps d’un data scientist. Même si cela peut être fastidieux, il est critique de bien faire les choses.
Les données provenant de diverses sources, collectées sous différentes formes, nécessitent d’être saisies et compilées. Cela peut être facilité aujourd’hui avec les entrepôts de données qui disposent d’une plateforme centralisée où les données provenant de différentes sources peuvent être stockées.
L’une des difficultés liées à l’application de la science des données consiste à identifier les problèmes métier pertinents. Par exemple, le problème est-il lié à la baisse des revenus ou aux goulots d’étranglement dans la production ? Vous recherchez un schéma dont vous soupçonnez la présence, mais qui est difficile à détecter ? Parmi les autres défis, celui de communiquer les résultats aux parties prenantes non techniques, d’assurer la sécurité des données, d’assurer une collaboration efficace entre les data scientists et les ingénieurs de données et de déterminer les indicateurs clés de performance (KPI) appropriés.
Avec l’augmentation des données provenant des réseaux sociaux, des sites de e-commerce, des recherches Internet, des enquêtes clients et autres, un nouveau domaine d’étude basé sur le big data est apparu. Ces énormes jeux de données, qui ne cessent de croître, permettent aux entreprises de surveiller les modèles et les comportements d’achat et de faire des prédictions.
Cependant, comme les jeux de données ne sont pas structurés, il peut être compliqué et chronophage de les interpréter pour la prise de décision. C’est là que la science des données entre en jeu.
Le terme science des données est utilisé pour la première fois dans les années 1960, lorsqu’il est interchangeable avec l’expression « science informatique ». La « science des données » est devenue une discipline indépendante pour la première fois en 2001. La science des données et le machine learning sont tous deux utilisés par les ingénieurs de données et dans presque tous les secteurs.
Les domaines ont évolué de sorte que pour travailler en tant qu’analyste de données qui visualise, gère et accède aux données, vous devez connaître le langage SQL (Structured Query Language) ainsi que les mathématiques, les statistiques, la visualisation des données (pour présenter les résultats aux parties prenantes) et le data mining. Il est également nécessaire de comprendre les techniques de nettoyage et de traitement des données. Étant donné que les analystes de données créent souvent des modèles de machine learning, les connaissances en matière de programmation et d’IA sont également précieuses. Les mathématiques, les statistiques, la visualisation des données (pour présenter les résultats aux parties prenantes) et le data mining aussi. Il est également nécessaire de comprendre les techniques de nettoyage et de traitement des données. Étant donné que les analystes de données créent souvent des modèles de machine learning, les connaissances en matière de programmation et d’IA sont également précieuses.
La science des données est largement utilisée dans les secteurs et le gouvernement, où elle permet de générer des bénéfices, d’innover en matière de produits et de services, d’améliorer les infrastructures et les systèmes publics et plus.
Voici quelques exemples de cas d’utilisation de la science des données :
Les débuts du machine learning, et son nom, ont vu le jour dans les années 1950. En 1950, le data scientist Alan Turing a proposé ce que nous appelons désormais le test de Turing, qui posait la question suivante : « Les machines peuvent-elles penser ? » Le test consiste à déterminer si une machine peut engager une conversation sans qu’un humain ne se rende compte qu’il s’agit d’une machine. À un niveau plus large, il demande si les machines peuvent démontrer une intelligence humaine. C’est ce qui a conduit à la théorie et au développement de l’IA.
Arthur Samuel, informaticien chez IBM, a inventé l’expression « machine learning » en 1952. Il a écrit un programme de jeu de dames la même année. En 1962, un maître du jeu de dames a joué contre le programme de machine learning sur un ordinateur IBM 7094 et l’ordinateur a gagné.
Aujourd’hui, le machine learning a évolué au point que les ingénieurs doivent connaître les mathématiques appliquées, la programmation informatique, les méthodes statistiques, les concepts de probabilité, la structure des données et d’autres principes fondamentaux de l’informatique, ainsi que les outils de big data comme Hadoop et Hive. Il n’est pas nécessaire de connaître SQL, car les programmes sont écrits en R, Java, SAS et dans d’autres langages de programmation. Python est le langage de programmation le plus couramment utilisé dans le machine learning.
Le machine learning et le deep learning (apprentissage profond) sont deux sous-ensembles de l’IA. Le deep learning apprend aux ordinateurs à traiter les données de la même manière que le cerveau humain. Il peut reconnaître des modèles complexes dans le texte, les images, les sons et d’autres données et créer des informations et des prévisions précises. Les algorithmes d’apprentissage profond sont des réseaux de neurones calqués sur le cerveau humain.
Parmi les algorithmes de machine learning les plus couramment utilisés, citons la régression linéaire, la régression logistique, l’arbre de décision, l’algorithme SVM (Support Vector Machine), l’algorithme Bayes naïf et l’algorithme KNN. Il peut s’agir d’apprentissage supervisé, d’apprentissage non supervisé ou d’apprentissage renforcé/par renforcement.
Les ingénieurs en machine learning peuvent se spécialiser dans le traitement automatique du langage naturel et la vision par ordinateur, devenir des ingénieurs logiciels spécialisés dans le machine learning, etc.
Il existe certaines préoccupations éthiques concernant le machine learning, telles que la confidentialité et la manière dont les données sont utilisées. Des données non structurées ont été collectées à partir de sites de réseaux sociaux à l’insu ou sans le consentement des utilisateurs. Bien que les contrats de licence puissent spécifier comment les données peuvent être utilisées, de nombreux utilisateurs de réseaux sociaux ne sont pas capables de lire ces détails.
Un autre problème est que nous ne savons pas toujours comment les algorithmes de machine learning fonctionnent et « prennent des décisions ». Une solution peut être la publication de programmes de machine learning en open source, afin que les gens puissent vérifier le code source.
Certains modèles de machine learning utilisent des jeux de données contenant des données biaisées, qui transmettent les résultats du machine learning. Dans le machine learning, la responsabilité désigne la quantité de données qu’une personne peut voir et corriger l’algorithme, et qui est responsable en cas de problème avec le résultat.
Certaines personnes craignent que l’IA et le machine learning éliminent des emplois. S’il est susceptible de modifier les types d’emplois disponibles, le machine learning est censé créer de nouveaux postes, différents. Dans de nombreux cas, il gère les tâches routinières et répétitives, libérant ainsi les humains pour les positionner sur des postes nécessitant plus de créativité et ayant un impact plus important.
Les entreprises bien connues qui utilisent le machine learning incluent des plateformes de réseaux sociaux, qui collectent de grandes quantités de données, puis utilisent le comportement antérieur d’une personne pour prédire ses centres d’intérêt et ses désirs. Les plateformes utilisent ensuite ces informations et la modélisation prédictive pour recommander des produits, services ou articles pertinents.
Les sociétés d’abonnement vidéo à la demande et leurs moteurs de recommandation sont un autre exemple d’utilisation du machine learning, tout comme le développement rapide des voitures autonomes. Parmi les autres entreprises qui utilisent le machine learning, citons les entreprises technologiques, les plateformes de cloud computing, les entreprises de vêtements et d’équipements de sport, les fabricants de véhicules électriques, les sociétés d’aviation spatiale et bien d’autres encore.
La pratique de la science des données comporte des défis. Il peut y avoir des données fragmentées, une pénurie de compétences en science des données, et des outils, des pratiques et des cadres des exigences à choisir, qui ont des normes informatiques de formation et de déploiement rigides. Il peut également être difficile d’opérationnaliser des modèles de ML dont la précision et les prévisions sont peu claires et difficiles à auditer.
Le portefeuille de produits de science des données et de cycle de vie de l’IA d’IBM repose sur notre engagement de longue date en faveur des technologies open source. Elle comprend une gamme de capacités qui permettent aux entreprises de libérer la valeur de leurs données de manière inédite.
Watsonx est un portefeuille de produits d’IA qui accélère l’impact de l’IA générative dans les workflows de base pour stimuler la productivité. Le portefeuille comprend trois composants puissants : le studio watsonx.ai, pour les nouveaux modèles de fondation, l’IA générative et le machine learning ; le magasin watsonx.data adapté pour la flexibilité d’un data lake et la performance d’un entrepôt de données ; et les outils watsonx.governance pour permettre des workflows d’IA construits de manière responsable, transparente et explicable.
Ainsi, watsonx offre aux organisations la possibilité de :
Utilisez les outils et solutions de science des données pour découvrir des tendances et établir des prévisions à l’aide de diverses techniques impliquant des données, des algorithmes, le machine learning et l’IA.
Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.