Science des données vs. machine learning : quelle est la différence ?

Vue arrière d’une jeune femme asiatique, data scientist indépendante, en train de programmer du code en télétravail sur Big data mining, ingénierie des données par l’IA, technicien informatique travaillant sur un projet d’intelligence artificielle.

Bien que la science des données et le machine learning soient liés, il s’agit de domaines très différents. En un mot, la science des données structure le big data, tandis que le machine learning se concentre sur l’apprentissage à partir des données elles-mêmes. Cet article vous permettra d’approfondir les nuances de chaque domaine.

Les dernières actualités technologiques, étayées par des avis d’expert

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la déclaration de confidentialité d’IBM.
Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Qu’est-ce que la science des données ?

La science des données est un vaste domaine multidisciplinaire qui permet d’extraire de la valeur des énormes jeux de données d’aujourd’hui. Il utilise des outils avancés pour examiner les données brutes, constituer un jeu de données, le traiter et développer des informations pour créer du sens. Les domaines qui composent le domaine de la science des données comprennent l’exploration, les statistiques, l’analyse des données, la modélisation de données, la modélisation du machine learning et la programmation.

En fin de compte, la science des données est utilisée pour définir de nouveaux problèmes métier que les techniques de machine learning et l’analyse statistique peuvent ensuite aider à résoudre. La science des données résout un problème métier en comprenant le problème, en connaissant les données nécessaires et en analysant les données pour aider à résoudre le problème réel.

Mixture of Experts | 28 août, épisode 70

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Qu’est-ce que le machine learning ?

Le machine learning (ML) est un sous-ensemble de l’intelligence artificielle (IA) qui se concentre sur l’apprentissage à partir de ce que la science des données fournit. Il a besoin des outils de la science des données pour commencer à nettoyer, préparer et analyser les big data non structurés. Le machine learning peut ensuite « apprendre » des données pour créer des informations qui améliorent les performances ou éclairent les prédictions.

Tout comme les humains peuvent apprendre par l’expérience au lieu de simplement suivre des instructions, les machines peuvent apprendre en appliquant des outils à l’analyse des données. Le machine learning fonctionne sur un problème connu à l’aide d’outils et de techniques, créant ainsi des algorithmes qui permettent à une machine d’apprendre à partir de données grâce à l’expérience et avec une intervention humaine minimale. Il traite d’énormes quantités de données qu’un humain ne pourrait pas traiter au cours d’une vie et évolue au fur et à mesure que de nouvelles données sont traitées.

Les défis de la science des données

Dans la plupart des entreprises, trouver, nettoyer et préparer les données appropriées à des fins d’analyse peut prendre jusqu’à 80 % du temps d’un data scientist. Même si cela peut être fastidieux, il est critique de bien faire les choses.

Les données provenant de diverses sources, collectées sous différentes formes, nécessitent d’être saisies et compilées. Cela peut être facilité aujourd’hui avec les entrepôts de données qui disposent d’une plateforme centralisée où les données provenant de différentes sources peuvent être stockées.

L’une des difficultés liées à l’application de la science des données consiste à identifier les problèmes métier pertinents. Par exemple, le problème est-il lié à la baisse des revenus ou aux goulots d’étranglement dans la production ? Vous recherchez un schéma dont vous soupçonnez la présence, mais qui est difficile à détecter ? Parmi les autres défis, celui de communiquer les résultats aux parties prenantes non techniques, d’assurer la sécurité des données, d’assurer une collaboration efficace entre les data scientists et les ingénieurs de données et de déterminer les indicateurs clés de performance (KPI) appropriés.

Comment la science des données a évolué

Avec l’augmentation des données provenant des réseaux sociaux, des sites de e-commerce, des recherches Internet, des enquêtes clients et autres, un nouveau domaine d’étude basé sur le big data est apparu. Ces énormes jeux de données, qui ne cessent de croître, permettent aux entreprises de surveiller les modèles et les comportements d’achat et de faire des prédictions.

Cependant, comme les jeux de données ne sont pas structurés, il peut être compliqué et chronophage de les interpréter pour la prise de décision. C’est là que la science des données entre en jeu.

Le terme science des données est utilisé pour la première fois dans les années 1960, lorsqu’il est interchangeable avec l’expression « science informatique ». La « science des données » est devenue une discipline indépendante pour la première fois en 2001. La science des données et le machine learning sont tous deux utilisés par les ingénieurs de données et dans presque tous les secteurs.

Les domaines ont évolué de sorte que pour travailler en tant qu’analyste de données qui visualise, gère et accède aux données, vous devez connaître le langage SQL (Structured Query Language) ainsi que les mathématiques, les statistiques, la visualisation des données (pour présenter les résultats aux parties prenantes) et le data mining. Il est également nécessaire de comprendre les techniques de nettoyage et de traitement des données. Étant donné que les analystes de données créent souvent des modèles de machine learning, les connaissances en matière de programmation et d’IA sont également précieuses. Les mathématiques, les statistiques, la visualisation des données (pour présenter les résultats aux parties prenantes) et le data mining aussi. Il est également nécessaire de comprendre les techniques de nettoyage et de traitement des données. Étant donné que les analystes de données créent souvent des modèles de machine learning, les connaissances en matière de programmation et d’IA sont également précieuses.

cas d’utilisation de la science des données

La science des données est largement utilisée dans les secteurs et le gouvernement, où elle permet de générer des bénéfices, d’innover en matière de produits et de services, d’améliorer les infrastructures et les systèmes publics et plus.

Voici quelques exemples de cas d’utilisation de la science des données :

  • Une banque internationale utilise des modèles de risque de crédit optimisés par le ML pour accorder des prêts plus rapides sur une application mobile.
  • Un fabricant a mis au point de puissants capteurs imprimés en 3D pour guider les véhicules autonomes.
  • L’outil d’analyse statistique des incidents d’un service de police permet de déterminer quand et où déployer les agents pour une prévention de la criminalité la plus efficace.
  • Une plateforme d’évaluation médicale basée sur l’IA analyse les dossiers médicaux afin de déterminer le risque d’AVC d’un patient et de prédire les taux de réussite des plans de traitement.
  • Les entreprises du secteur de la santé utilisent la science des données pour la prédiction du cancer du sein et d’autres utilisations.
  • Une société de covoiturage utilise l’analyse du big data pour prévoir l’offre et la demande, afin de pouvoir placer ses conducteurs aux endroits les plus populaires en temps réel. L’entreprise utilise également la science des données pour les prévisions, les informations globales, la cartographie, la tarification et d’autres décisions métier.
  • Un conglomérat de e-commerce utilise l’analyse prédictive dans son moteur de recommandation.
  • Une entreprise d’hôtellerie en ligne utilise la science des données pour assurer la diversité dans ses pratiques de recrutement, améliorer les capacités de recherche et déterminer les préférences des hôtes, entre autres informations pertinentes. L’entreprise a mis ses données en open source et forme ses employés à l’exploitation des informations fondées sur les données.
  • Une grande entreprise de médias en ligne utilise la science des données pour développer du contenu personnalisé, améliorer le marketing grâce à des publicités ciblées et mettre à jour en permanence les flux de musique, entre autres décisions d’automatisation.

L’évolution du machine learning

Les débuts du machine learning, et son nom, ont vu le jour dans les années 1950. En 1950, le data scientist Alan Turing a proposé ce que nous appelons désormais le test de Turing, qui posait la question suivante : « Les machines peuvent-elles penser ? » Le test consiste à déterminer si une machine peut engager une conversation sans qu’un humain ne se rende compte qu’il s’agit d’une machine. À un niveau plus large, il demande si les machines peuvent démontrer une intelligence humaine. C’est ce qui a conduit à la théorie et au développement de l’IA.

Arthur Samuel, informaticien chez IBM, a inventé l’expression « machine learning » en 1952. Il a écrit un programme de jeu de dames la même année. En 1962, un maître du jeu de dames a joué contre le programme de machine learning sur un ordinateur IBM 7094 et l’ordinateur a gagné.

Aujourd’hui, le machine learning a évolué au point que les ingénieurs doivent connaître les mathématiques appliquées, la programmation informatique, les méthodes statistiques, les concepts de probabilité, la structure des données et d’autres principes fondamentaux de l’informatique, ainsi que les outils de big data comme Hadoop et Hive. Il n’est pas nécessaire de connaître SQL, car les programmes sont écrits en R, Java, SAS et dans d’autres langages de programmation. Python est le langage de programmation le plus couramment utilisé dans le machine learning.

Le machine learning et le deep learning (apprentissage profond) sont deux sous-ensembles de l’IA. Le deep learning apprend aux ordinateurs à traiter les données de la même manière que le cerveau humain. Il peut reconnaître des modèles complexes dans le texte, les images, les sons et d’autres données et créer des informations et des prévisions précises. Les algorithmes d’apprentissage profond sont des réseaux de neurones calqués sur le cerveau humain.

Sous-catégories du machine learning

Parmi les algorithmes de machine learning les plus couramment utilisés, citons la régression linéaire, la régression logistique, l’arbre de décision, l’algorithme SVM (Support Vector Machine), l’algorithme Bayes naïf et l’algorithme KNN. Il peut s’agir d’apprentissage supervisé, d’apprentissage non supervisé ou d’apprentissage renforcé/par renforcement.

Les ingénieurs en machine learning peuvent se spécialiser dans le traitement automatique du langage naturel et la vision par ordinateur, devenir des ingénieurs logiciels spécialisés dans le machine learning, etc.

Les défis du machine learning

Il existe certaines préoccupations éthiques concernant le machine learning, telles que la confidentialité et la manière dont les données sont utilisées. Des données non structurées ont été collectées à partir de sites de réseaux sociaux à l’insu ou sans le consentement des utilisateurs. Bien que les contrats de licence puissent spécifier comment les données peuvent être utilisées, de nombreux utilisateurs de réseaux sociaux ne sont pas capables de lire ces détails.

Un autre problème est que nous ne savons pas toujours comment les algorithmes de machine learning fonctionnent et « prennent des décisions ». Une solution peut être la publication de programmes de machine learning en open source, afin que les gens puissent vérifier le code source.

Certains modèles de machine learning utilisent des jeux de données contenant des données biaisées, qui transmettent les résultats du machine learning. Dans le machine learning, la responsabilité désigne la quantité de données qu’une personne peut voir et corriger l’algorithme, et qui est responsable en cas de problème avec le résultat.

Certaines personnes craignent que l’IA et le machine learning éliminent des emplois. S’il est susceptible de modifier les types d’emplois disponibles, le machine learning est censé créer de nouveaux postes, différents. Dans de nombreux cas, il gère les tâches routinières et répétitives, libérant ainsi les humains pour les positionner sur des postes nécessitant plus de créativité et ayant un impact plus important.

Quelques cas d’utilisation du machine learning

Les entreprises bien connues qui utilisent le machine learning incluent des plateformes de réseaux sociaux, qui collectent de grandes quantités de données, puis utilisent le comportement antérieur d’une personne pour prédire ses centres d’intérêt et ses désirs. Les plateformes utilisent ensuite ces informations et la modélisation prédictive pour recommander des produits, services ou articles pertinents.

Les sociétés d’abonnement vidéo à la demande et leurs moteurs de recommandation sont un autre exemple d’utilisation du machine learning, tout comme le développement rapide des voitures autonomes. Parmi les autres entreprises qui utilisent le machine learning, citons les entreprises technologiques, les plateformes de cloud computing, les entreprises de vêtements et d’équipements de sport, les fabricants de véhicules électriques, les sociétés d’aviation spatiale et bien d’autres encore.

Science des données, machine learning et IBM

La pratique de la science des données comporte des défis. Il peut y avoir des données fragmentées, une pénurie de compétences en science des données, et des outils, des pratiques et des cadres des exigences à choisir, qui ont des normes informatiques de formation et de déploiement rigides. Il peut également être difficile d’opérationnaliser des modèles de ML dont la précision et les prévisions sont peu claires et difficiles à auditer.

Le portefeuille de produits de science des données et de cycle de vie de l’IA d’IBM repose sur notre engagement de longue date en faveur des technologies open source. Elle comprend une gamme de capacités qui permettent aux entreprises de libérer la valeur de leurs données de manière inédite.

Watsonx est un portefeuille de produits d’IA qui accélère l’impact de l’IA générative dans les workflows de base pour stimuler la productivité. Le portefeuille comprend trois composants puissants : le studio watsonx.ai, pour les nouveaux modèles de fondation, l’IA générative et le machine learning ; le magasin watsonx.data adapté pour la flexibilité d’un data lake et la performance d’un entrepôt de données ; et les outils watsonx.governance pour permettre des workflows d’IA construits de manière responsable, transparente et explicable.

Ainsi, watsonx offre aux organisations la possibilité de :

  1. Entraîner, régler et déployer l’IA dans l’ensemble de l’entreprise avec watsonx.ai ;
  2. Faites évoluer vos workloads d’IA n’importe où, pour toutes vos données, avec watsonx.data
  3. Favoriser des flux de données et d’IA responsables, transparents et explicables avec watsonx.governance.
     
    Solutions connexes
    Outils et solutions de science des données

    Utilisez les outils et solutions de science des données pour découvrir des tendances et établir des prévisions à l’aide de diverses techniques impliquant des données, des algorithmes, le machine learning et l’IA.

    Découvrir les solutions de science des données
    IBM Cognos Analytics

    Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.

    Découvrir Cognos Analytics
    Services de conseil pour les données et les analyses

    Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

    Découvrir les services d’analytique
    Passez à l’étape suivante

    Utilisez les outils et solutions de science des données pour découvrir des tendances et établir des prévisions à l’aide de diverses techniques impliquant des données, des algorithmes, le machine learning et l’IA.

    Découvrir les solutions de science des données Découvrir les services d’analytique