Quelle est la différence ? Ingénieur en traitement des données, data scientist, ingénieur analytique ?

Développeuse indépendante en train de coder et de programmer

 

L’équipe de données moderne est relativement compliquée.

Même si vous faites partie de l’équipe chargée des données, le suivi des différents rôles peut prêter à confusion, et encore plus si vous êtes un cadre non technique qui soutient l’équipe ou travaille avec elle.

Le plus difficile est de comprendre les différences entre les rôles d’ingénieur des données, de data scientist et d’ingénieur analytique.

 

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Qu’est-ce qu’un ingénieur en traitement de données ?

L’ingénieur en données développe et entretient l'architecture et les pipelines de données. Il développe essentiellement les programmes qui génèrent des données, et ce de manière à garantir que les sorties sont utiles aux opérations et à l’analyse.

Voici quelques-unes de ses principales responsabilités :

  • Orchestrer les pipelines
  • Créer et entretenir une plateforme de données
  • Piloter l’intégration personnalisée des données
  • Optimiser la performance des entrepôts de données
  • Développer des processus pour la modélisation et la génération de données
  • Normaliser les pratiques de gestion des données

Principales compétences requises pour être ingénieur en données :

  • Compétences SQL
  • Capacité à travailler avec des données structurées et non structurées
  • Connaissance approfondie de la programmation et des algorithmes
  • Expérience avec les outils d’ingénierie et de test
  • Fortes capacités de pensée créative et de résolution de problèmes
Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Qu’en est-il d’un ingénieur analytique ?

Un ingénieur analytique rassemble les sources de données de manière à obtenir des informations consolidées. Il est chargé de créer des systèmes capables de modéliser les données de manière claire et précise, de façon répétée, afin que chacun puisse les utiliser pour répondre à des questions de façon continue. Comme le dit un ingénieur analytique chez dbt Labs (lien externe à ibm.com), l’un des points forts de l’ingénierie analytique est que « cela vous permet de résoudre des problèmes difficiles une fois, puis de tirer des avantages de cette solution à l’infini. »

Voici quelques-unes de ses principales responsabilités :

  • Comprendre les exigences métier et définir les résultats des analyses
  • Nettoyer, transformer, tester et déployer les données prêtes pour l’analyse
  • Proposer des définitions et une documentation pour les données clés et les processus de données
  • Appliquer des techniques d’ingénierie logicielle telles que l’intégration continue au code analytique
  • Former les autres à l’utilisation des données finales à des fins d’analyse
  • Se rapprocher des data scientists et des analystes sur les domaines à améliorer dans les scripts et les requêtes

Les compétences importantes pour les ingénieurs analytiques (lien externe à ibm.com) sont les suivantes :

  • Compétences SQL
  • Compréhension approfondie des bonnes pratiques en matière d’ingénierie logicielle
  • Expérience des entrepôts de données et des outils de visualisation des données
  • Solides compétences en matière de maintien de relations multifonctionnelles
  • Expérience en analyse de données ou en ingénierie des données

Alors, qu’est-ce qu’un data scientist ?

Un data scientist étudie de grands ensembles de données à l’aide d’analyses statistiques avancées et d’algorithmes de machine learning. Ce faisant, il identifie des schémas dans les données pour générer des informations métier critiques, puis utilise généralement ces schémas pour développer des solutions de machine learning afin d’obtenir des informations plus efficaces et plus précises à l’échelle. Surtout, il combine cette expérience en statistiques avec une expertise en génie logiciel.

Voici quelques-unes de ses principales responsabilités :

  • Transformer et nettoyer de grands ensembles de données dans un format utilisable
  • Appliquer des techniques comme le partitionnement, les réseaux neuronaux et les arbres de décision pour extraire des informations à partir des données
  • Analyser les données pour identifier les schémas et les tendances susceptibles d’avoir un impact sur l’entreprise
  • Développer des algorithmes de machine learning (lien externe à ibm.com) pour évaluer les données
  • Créer des modèles de données pour prévoir les résultats

Les compétences importantes pour un data scientist sont les suivantes :

  • Expertise en SAS, R et Python
  • Expertise approfondie en machine learning, en conditionnement des données et en mathématiques avancées
  • Expérience de l’utilisation des outils de big data
  • Compréhension du développement et des opérations des API
  • Expérience en optimisation des données et data mining
  • Solides capacités de pensée créative et de prise de décision

Comment tout cela s’articule-t-il ?

Même la comparaison des descriptions d’ingénieur des données, de data scientist et d’ingénieur analytique peut prêter à confusion, car il existe certainement des recoupements dans les compétences et les domaines d’intérêt de chacun de ces rôles. Alors, comment tout cela s’articule-t-il ?

Un ingénieur en traitement des données conçoit des programmes qui génèrent des données, et bien qu’il vise à ce que ces données soient pertinentes, elles devront tout de même être combinées avec d’autres sources. Un ingénieur analytique rassemble ces sources de données pour construire des systèmes qui permettent aux utilisateurs d’accéder à des informations consolidées de manière simple et reproductible. Enfin, un data scientist développe des outils pour analyser toutes ces données à l’échelle et identifier des schémas et des tendances plus rapidement et mieux que n’importe quel être humain.

Il est essentiel qu’il existe une relation solide entre ces rôles. Mais trop souvent, des dysfonctionnements finissent par apparaître. Jeff Magnuson, vice-président de la plateforme de données chez Stitch Fix, a écrit sur ce sujet il y a plusieurs années dans un article intitulé Engineers Shouldn’t Write ETL (lien externe à ibm.com)L’idée principale de son article était que les équipes ne devraient pas avoir de « penseurs » et d’« exécutants » distincts. Au contraire, les équipes chargées des données les plus performantes doivent assumer l’intégralité du travail qu’elles produisent, autrement dit qu’il ne devrait pas y avoir de transfert de responsabilité entre ces rôles.

Il en résulte une forte demande de data scientists ayant une formation d’ingénieur et comprenant des notions telles que la mise en place de processus reproductibles et l’importance de la disponibilité et des SLA. Cette approche influence à son tour le rôle des data engineers, qui peuvent ainsi collaborer étroitement avec les data scientists d’une manière totalement différente. Et bien sûr, cela se répercute également sur les ingénieurs analytiques.

Comprendre une fois pour toutes la différence entre un ingénieur en traitement de données, un data scientist et un ingénieur en analytique une fois pour toutes, pour l’instant

Il n’en reste pas moins que de nombreuses entreprises définissent différemment chacun de ces rôles. Il est difficile de tracer une ligne nette entre où l’un finit et où l’autre commence, car ils ont tous des tâches similaires dans une certaine mesure. Comme le conclut Josh Laurito : « Tout le monde écrit du SQL. Tout le monde évalue différentes tables et écrit des données quelque part, et tout le monde se plaint des fuseaux horaires. Tout le monde fait beaucoup de choses similaires. En réalité, notre façon de répartir les tâches est en fonction de la position des personnes par rapport à nos principaux entrepôts de données analytiques. »

Chez Squarespace, cela signifie que les ingénieurs de données sont responsables de tout le travail effectué pour créer et gérer ces magasins, que les ingénieurs analytiques sont intégrés aux équipes fonctionnelles pour soutenir la prise de décision, rassembler des narratifs autour des données et les utiliser pour orienter les actions et les décisions, et enfin, que les data scientists se situent au centre, mettant en place les structures d’incitation et les indicateurs pour prendre des décisions et guider les personnes.

Bien sûr, la situation sera légèrement différente d’une entreprise à l’autre. Et même si les frontières sont floues actuellement, chacun de ces rôles continuera d’évoluer et de modifier la dynamique qui s’y rattache. Mais espérons-le, cet aperçu vous aidera à clarifier la différence entre un ingénieur en traitement de données, un data scientist et un ingénieur analytique.

Apprenez-en davantage sur la plateforme d’observabilité continue des données IBM Databand et la manière dont elle permet de détecter les incidents de données plus tôt, de les résoudre plus rapidement et de fournir des données plus fiables à l’entreprise. Si vous souhaitez en savoir plus, réservez une démo dès aujourd’hui.

Auteur

Solutions connexes
Outils et solutions d’analyse

Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.

Explorer les solutions d’analytique
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
IBM Cognos Analytics

Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.

Découvrir Cognos Analytics
Passez à l’étape suivante

Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.

Explorer les solutions d’analytique Découvrir les services d’analytique