数据源以及随之而来的数据量的不断增加,使数据科学成为每个行业增长最快的领域之一。因此,数据科学家被《哈佛商业评论》(ibm.com 外部链接)称为“21世纪最性感的工作”也就不足为奇了。各组织越来越依赖数据科学家来解读数据并提供切实可行的建议来改善业务成果。
数据科学生命周期涉及各种角色、工具和流程,帮助分析师获取切实可行的洞察。通常,数据科学项目会经历以下阶段:
使用这本电子书与其他领导者就 MLOps 和值得信赖的 AI 的 3 个关键目标达成一致:信任数据、信任模型和信任流程。
注册获取 Gartner 报告
数据科学被认为是一门学科,而数据科学家是该领域的从业者。数据科学家不一定直接负责数据科学生命周期中涉及的所有流程。例如,数据管道通常由数据工程师处理,但数据科学家可能会针对有用或需要的数据类型提出建议。虽然数据科学家可以构建机器学习模型,但在更大层面上扩展这些工作需要更多的软件工程技能,以优化程序,提高运行速度。因此,数据科学家与机器学习工程师合作来扩展机器学习模型是很常见的。
数据科学家的职责通常与数据分析师的职责重叠,尤其是探索性数据分析和数据可视化。但是,数据科学家的技能通常比普通数据分析师更广泛。相对而言,数据科学家利用 R 和 Python 等通用编程语言来进行更多的统计推断和数据可视化。
为了执行这些任务,数据科学家需要具备超越一般业务分析师或数据分析师的计算机科学和纯科学技能。数据科学家还必须了解业务的具体情况,例如汽车制造、电子商务或医疗保健。
简而言之,数据科学家必须能够:
这些技能的需求量很大,因此,许多正在从事数据科学职业的人开始深入了解各种数据科学课程,例如认证课程、数据科学课程和教育机构提供的学位课程。
全新的企业开发平台,将传统机器学习与由基础模型提供支持的生成式 AI 新功能融合在一起。
Watson Studio
IBM Cloud Pak for Data
“数据科学”和“商业智能”(BI) 这两个术语可能很容易混淆,因为它们都与各组织的数据以及对这些数据的分析有关,但它们的侧重点确实不同。
商业智能 (BI) 通常是支持数据准备、数据挖掘、数据管理和数据可视化的技术的总称。利用商业智能工具和流程,最终用户将能够从原始数据中识别可操作的信息,推动各行各业的组织做出数据驱动的决策。虽然数据科学工具在这方面有很多重叠,但商业智能更侧重于过去的数据,通过商业智能工具获取的洞察更多是描述性的。它使用数据来了解之前发生的情况,为行动过程提供信息。商业智能面向静态(不变)数据,这些数据通常是结构化的。虽然数据科学使用描述性数据,但它通常利用此类数据来确定预测变量,然后使用这些变量对数据进行分类或进行预测。
数据科学和商业智能并不相互排斥,对于善于利用数字技术的组织而言,它们将同时使用两者来充分理解数据并从数据中提取价值。
数据科学家依赖流行的编程语言进行探索性数据分析和统计回归。这些开源工具支持预构建的统计建模、机器学习和图形功能。这些语言包括(在 “Python 与 R:有哪些区别?”中阅读更多内容):
为了便于共享代码和其他信息,数据科学家可以使用 GitHub 和 Jupyter Notebook。
一些数据科学家可能更喜欢用户界面,两种常见的企业统计分析工具包括:
数据科学家还应精通大数据处理平台,例如 Apache Spark、开源框架 Apache Hadoop 和 NoSQL 数据库。他们还应熟练使用各种数据可视化工具,包括业务演示和电子表格应用程序(如 Microsoft Excel)中包含的简单图形工具、Tableau 和 IBM Cognos 等专用商业可视化工具,以及 D3.js(用于创建交互式数据可视化的 JavaScript 库)和 RAW Graphs 等开源工具。为了构建机器学习模型,数据科学家经常借助 PyTorch、TensorFlow、MXNet 和 Spark MLib 等框架。
鉴于数据科学的陡峭学习曲线,许多公司正在寻求加快 AI 项目的投资回报;他们经常难以招聘到发挥数据科学项目的全部潜力所需的人才。为了弥补这一差距,他们转向多角色数据科学与机器学习 (DSML) 平台,从而促进了“公民数据科学家”职位的出现。
多角色 DSML 平台使用自动化、自助服务门户和低代码/无代码用户界面,因此,在数字技术或专家数据科学方面的背景很少或没有此类背景的人可以使用数据科学和机器学习来创造业务价值。这些平台还通过提供技术性更强的界面来支持专家数据科学家。使用多角色 DSML 平台可鼓励整个企业范围内的协作。
云计算通过支持访问数据科学项目所需的额外处理能力、存储和其他工具来扩展数据科学。
由于数据科学经常利用大型数据集,因此,能够随着数据规模而扩展的工具非常重要,特别对于时间敏感型项目。使用数据湖等云存储解决方案,可访问存储基础设施,这些基础设施能够轻松摄取和处理大量数据。这些存储系统为最终用户提供了灵活性,使他们能够根据需要启动大型集群。他们还可以添加增量计算节点来加快数据处理作业,从而允许企业为获得更丰硕的长期成果进行短期权衡。云平台通常具有不同的定价模式,例如按使用或进行订阅,以满足最终用户的需求,而无论他们是大型企业还是小型初创公司。
开源技术广泛用于数据科学工具集。当它们托管在云端时,团队无需在本地安装、配置、维护或更新它们。包括 IBM Cloud® 在内的几家云提供商还提供预打包的工具包,支持数据科学家无需编码即可构建模型,进一步普及获得技术创新和数据洞察的机会。
企业可以从数据科学中获得众多好处。常见用例包括,通过智能自动化优化流程以及增强定位和个性化以改善客户体验 (CX)。不过,更具体的例子包括:
以下是数据科学和人工智能的几个代表性用例: