Un data scientist étudie de grands ensembles de données à l’aide d’analyses statistiques avancées et d’algorithmes de machine learning. Ce faisant, il identifie des schémas dans les données pour générer des informations métier critiques, puis utilise généralement ces schémas pour développer des solutions de machine learning afin d’obtenir des informations plus efficaces et plus précises à l’échelle. Surtout, il combine cette expérience en statistiques avec une expertise en génie logiciel.
Voici quelques-unes de ses principales responsabilités :
- Transformer et nettoyer de grands ensembles de données dans un format utilisable
- Appliquer des techniques comme le partitionnement, les réseaux neuronaux et les arbres de décision pour extraire des informations à partir des données
- Analyser les données pour identifier les schémas et les tendances susceptibles d’avoir un impact sur l’entreprise
- Développer des algorithmes de machine learning (lien externe à ibm.com) pour évaluer les données
- Créer des modèles de données pour prévoir les résultats
Les compétences importantes pour un data scientist sont les suivantes :
- Expertise en SAS, R et Python
- Expertise approfondie en machine learning, en conditionnement des données et en mathématiques avancées
- Expérience de l’utilisation des outils de big data
- Compréhension du développement et des opérations des API
- Expérience en optimisation des données et data mining
- Solides capacités de pensée créative et de prise de décision
Comment tout cela s’articule-t-il ?
Même la comparaison des descriptions d’ingénieur des données, de data scientist et d’ingénieur analytique peut prêter à confusion, car il existe certainement des recoupements dans les compétences et les domaines d’intérêt de chacun de ces rôles. Alors, comment tout cela s’articule-t-il ?
Un ingénieur en traitement des données conçoit des programmes qui génèrent des données, et bien qu’il vise à ce que ces données soient pertinentes, elles devront tout de même être combinées avec d’autres sources. Un ingénieur analytique rassemble ces sources de données pour construire des systèmes qui permettent aux utilisateurs d’accéder à des informations consolidées de manière simple et reproductible. Enfin, un data scientist développe des outils pour analyser toutes ces données à l’échelle et identifier des schémas et des tendances plus rapidement et mieux que n’importe quel être humain.
Il est essentiel qu’il existe une relation solide entre ces rôles. Mais trop souvent, des dysfonctionnements finissent par apparaître. Jeff Magnuson, vice-président de la plateforme de données chez Stitch Fix, a écrit sur ce sujet il y a plusieurs années dans un article intitulé Engineers Shouldn’t Write ETL (lien externe à ibm.com). L’idée principale de son article était que les équipes ne devraient pas avoir de « penseurs » et d’« exécutants » distincts. Au contraire, les équipes chargées des données les plus performantes doivent assumer l’intégralité du travail qu’elles produisent, autrement dit qu’il ne devrait pas y avoir de transfert de responsabilité entre ces rôles.
Il en résulte une forte demande de data scientists ayant une formation d’ingénieur et comprenant des notions telles que la mise en place de processus reproductibles et l’importance de la disponibilité et des SLA. Cette approche influence à son tour le rôle des data engineers, qui peuvent ainsi collaborer étroitement avec les data scientists d’une manière totalement différente. Et bien sûr, cela se répercute également sur les ingénieurs analytiques.
Comprendre une fois pour toutes la différence entre un ingénieur en traitement de données, un data scientist et un ingénieur en analytique une fois pour toutes, pour l’instant
Il n’en reste pas moins que de nombreuses entreprises définissent différemment chacun de ces rôles. Il est difficile de tracer une ligne nette entre où l’un finit et où l’autre commence, car ils ont tous des tâches similaires dans une certaine mesure. Comme le conclut Josh Laurito : « Tout le monde écrit du SQL. Tout le monde évalue différentes tables et écrit des données quelque part, et tout le monde se plaint des fuseaux horaires. Tout le monde fait beaucoup de choses similaires. En réalité, notre façon de répartir les tâches est en fonction de la position des personnes par rapport à nos principaux entrepôts de données analytiques. »
Chez Squarespace, cela signifie que les ingénieurs de données sont responsables de tout le travail effectué pour créer et gérer ces magasins, que les ingénieurs analytiques sont intégrés aux équipes fonctionnelles pour soutenir la prise de décision, rassembler des narratifs autour des données et les utiliser pour orienter les actions et les décisions, et enfin, que les data scientists se situent au centre, mettant en place les structures d’incitation et les indicateurs pour prendre des décisions et guider les personnes.
Bien sûr, la situation sera légèrement différente d’une entreprise à l’autre. Et même si les frontières sont floues actuellement, chacun de ces rôles continuera d’évoluer et de modifier la dynamique qui s’y rattache. Mais espérons-le, cet aperçu vous aidera à clarifier la différence entre un ingénieur en traitement de données, un data scientist et un ingénieur analytique.
Apprenez-en davantage sur la plateforme d’observabilité continue des données IBM Databand et la manière dont elle permet de détecter les incidents de données plus tôt, de les résoudre plus rapidement et de fournir des données plus fiables à l’entreprise. Si vous souhaitez en savoir plus, réservez une démo dès aujourd’hui.