即使是数据团队的一员,跟踪所有不同职责角色及其细微差别也会变得很混乱,对于支持或协作团队的非技术背景管理者而言更是如此。
最大的混淆之处之一是理解数据工程师、数据科学家和分析工程师职责角色之间的区别。
即使是数据团队的一员,跟踪所有不同职责角色及其细微差别也会变得很混乱,对于支持或协作团队的非技术背景管理者而言更是如此。
最大的混淆之处之一是理解数据工程师、数据科学家和分析工程师职责角色之间的区别。
分析工程师将各种数据源汇集在一起,以便能够提供洞察分析。他们的工作是构建能够以清晰、简洁的方式反复对数据进行建模的系统,以便每个人都能持续地使用这些系统来回答问题。正如 dbt Labs 的一位分析工程师所言(ibm.com 外部链接),分析工程的关键价值在于“一次性解决复杂问题,却能持续从中获益”。
他们的一些主要职责包括:
分析工程师需要掌握的重要技能(ibm.com 外部链接):
数据科学家使用高级统计分析和机器学习算法研究大型数据集。通过这种方式,他们识别数据中的模式,以推动关键的业务洞察分析,然后通常使用这些模式来开发机器学习解决方案,从而规模化地获得更高效、更准确的洞察分析。至关重要的是,他们将统计学经验与软件工程经验相结合。
他们的一些主要职责包括:
数据科学家的重要技能包括:
即便将数据工程师、数据科学家与分析工程师的职责描述并列对比,仍会令人困惑。因为这些职位在技能与专注领域上确实存在重叠。那么究竟如何协同运作?
数据工程师构建生成数据的程序,虽然他们的目标是使这些数据有意义,但仍然需要将其与其他来源的数据结合起来。分析工程师将这些数据源整合起来,构建系统,使用户能够以易于访问、可重复的方式获取洞察分析。最后,数据科学家开发出能够规模化分析所有这些数据并比任何人类更快、更好地识别模式和趋势的工具。
至关重要的是,这些角色之间必须有密切合作。但现实中却往往形成效率低下的工作模式。Stitch Fix 数据平台副总裁 Jeff Magnuson 数年前在题为 Engineers Shouldn’t Write ETL(ibm.com 外部链接)的文章中对此有过论述。其核心观点是:团队不应割裂思考者与执行者。高效能数据团队需要对产出工作实行端到端负责制,这意味着角色之间必须摒弃“各自为政”的工作心态。
因此,市场亟需具备工程背景的数据科学家,他们既要懂如何构建可重复流程,也要深刻理解系统可用性与服务等级协议 (SLA) 的重要性。反过来,这种需求也改变了数据工程师的角色定位,使他们能以全新模式与数据科学家协同作战。当然,这也会影响到分析工程师。
事实上,许多组织对这些角色的定义各不相同。由于这些职位在一定程度上承担着相似任务,很难明确划分职责边界。正如 Josh Laurito 总结的那样:“每个人都编写 SQL。都关注数据质量,都会评估不同数据表并执行数据写入,也都会抱怨时区问题。大家做着大量相同的工作。所以,实际上我们划分这些职责角色的方式是根据人们与我们主要分析数据存储的关系来决定的。”
在 Squarespace,这意味着数据工程师负责创建和维护这些数据存储的所有工作,分析工程师则嵌入到功能团队中,支持决策制定,围绕数据构建叙述,并利用这些数据推动行动和决策;最后,数据科学家处于中间位置,设定激励结构和决策指标,以引导人们做出决策。
当然,每个组织的具体情况都会略有不同。尽管当前职责边界依然模糊,但这些角色将持续演进,并进一步重塑彼此间的协作格局。但无论如何,希望本次阐述能帮助您厘清数据工程师、数据科学家与分析工程师的核心差异(至少在当前阶段)。
了解更多关于 IBM® Databand 的持续数据可观测性平台的信息,以及它如何帮助更早地检测数据事件、更快地解决问题并为企业提供更值得信赖的数据。如果您准备深入了解,请立即预约演示。
设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。
watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。
通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。