数据科学将数学和统计、专业编程、高级分析、人工智能 (AI) 和机器学习与特定的主题专业知识相结合,旨在发现隐藏在组织数据中切实可行的洞察。 这些洞察可用于指导决策和战略规划。
数据源以及其中所包含的数据量呈不断加速增长之势,这使得数据科学成为各行各业中发展最快的领域之一。 因此,数据科学家职位被 《哈佛商业评论》 评为“21世纪最性感的工作”也就不足为奇了。 组织越来越离不开数据科学,需要依靠它们来解读数据,提供切实可行的行动建议,从而改善业务成果。
数据科学生命周期涉及各种角色、工具和流程,它们旨在帮助分析师获得切实可行的洞察。 一个数据科学项目通常会经历以下阶段:
数据科学是一门学科,而数据科学家则是该领域的从业者。 数据科学家并不一定直接负责数据科学生命周期所涉及的所有过程。 例如,数据管道通常由数据工程师处理,但数据科学家可能会就哪种数据有用或需要哪种数据提出建议。 虽然数据科学家可以构建机器学习模型,但在更大层面上扩展这些工作则需要更多的软件工程技能来优化程序,使之加速运行。 因此,数据科学家通常会与机器学习工程师合作,以扩展机器学习模型。
数据科学家的职责通常与数据分析师重叠,尤其是在探索性数据分析和数据可视化方面。 但是,数据科学家所要求具备的技能通常比普通数据分析师更广泛。 相比之下,数据科学家需要利用常见的编程语言(如 R 和 Python)开展更多的统计推理和数据可视化工作。
为了执行这些任务,数据科学家需要的计算机科学和纯科学技能要远远超过普通的业务分析师或数据分析师。 数据科学家还应了解具体业务领域,例如汽车制造、电子商务或医疗保健。
简而言之,数据科学家必须能够:
这些技能的需求量很大,因此,许多从事数据科学职业的人都会探索各种数据科学课程,例如认证课程、数据科学课程和教育机构提供的学位课程。
术语“数据科学”和“商业智能” (BI) 可能很容易混淆,因为它们都与组织的数据和数据分析有关,但侧重点有所不同。
商业智能 (BI) 是支持数据准备、数据挖掘、数据管理和数据可视化的技术的总称。 利用商业智能工具和流程,最终用户能够从原始数据中发现切实可行的信息,促进各行各业的企业做出数据驱动的决策。 虽然数据科学工具在这方面有很大程度的重叠,但商业智能更关注过去的数据,通过商业智能工具获得的洞察从本质上而言更具描述性。 它使用数据来理解之前发生的事情,为行动方案提供信息支持。 BI 通常面向结构化的静态(不变)数据。 虽然数据科学也使用描述性数据,但它通常使用这些数据来确定预测性变量,然后用于对数据分类或进行预测。
数据科学和 BI 并不相互排斥,精通数字技术的组织同时使用两者,充分理解数据并从中获得价值。
数据科学家使用流行的编程语言进行探索性数据分析和统计回归。 这些开源工具支持预先构建的统计建模、机器学习和图形功能。 这些语言包括(请阅读“Python 与 R:有何区别?”,了解更多信息):
为了便于共享代码和其他信息,数据科学家可以使用 GitHub 和 Jupyter notebook。
一些数据科学家可能更喜欢使用用户界面,以下两种常见的企业统计分析工具可能非常适合他们:
数据科学家还必须能够熟练使用大数据处理平台,如 Apache Spark、开源框架 Apache Hadoop 和 NoSQL 数据库。 他们还应当能够熟练使用各种数据可视化工具,包括商业演示文稿和电子表格应用中随附的简单图形工具、专用的商业可视化工具(如 Tableau 和 IBM Cognos)以及开源工具,例如 D3.js(用于创建交互式数据可视化的 JavaScript 库)和 RAW Graphs。 为了构建机器学习模型,数据科学家经常使用 PyTorch、TensorFlow、MXNet 和 Spark MLib 等框架。
数据科学的学习难度非常大,而且许多企业希望加快实现人工智能项目的投资回报;但他们通常难以招聘到实现数据科学项目全部潜力所需的人才。 为了解决这个问题,他们纷纷转向多角色数据科学和机器学习 (DSML) 平台,衍生出“公民数据科学家”这一角色。
多角色 DSML 平台使用自动化、自助式门户网站和少代码/无代码用户界面,使得只有很少甚至没有数字技术或专业数据科学背景的人员也能使用数据科学和机器学习创造商业价值。 这些平台还通过提供更多技术界面,支持数据科学家的工作。 使用多角色 DSML 平台有助于鼓励整个企业范围的协作。
云计算 可提供数据科学项目所需的额外处理能力、存储和其他工具,扩展数据科学项目的规模。
由于数据科学经常利用大型数据集,因此可以随着数据规模而扩展的工具凸显出其重要性,特别是对于时间敏感的项目。 云存储解决方案(如数据湖)提供存储基础架构,帮助客户轻松采集和处理大量数据。 这些存储系统为最终用户带来了灵活性,使他们能够根据需要建立大型集群。 他们还可以逐步添加计算节点,以加速执行数据处理作业,使企业能够为更重要的长期结果做出短期权衡。 云平台通常有不同的定价模式,例如按使用量付费或预订模式,可满足各种不同的最终用户的需求 - 无论他们是大型企业还是小型初创公司。
开源技术已广泛用于数据科学工具集。 如果这些工具托管在云中,那么团队就无需在本地安装、配置、维护或更新这些工具。 包括 IBM Cloud® 在内的一些云提供商还提供了预先打包的工具包,使数据科学家无需编码即可构建模型,从而使技术创新和数据洞察进一步“平民化”。
企业可以从数据科学中受益良多。 常见用例包括通过智能自动化以及更强的针对性和个性化来优化流程,从而改善客户体验 (CX)。 但是还有更多的具体用例,其中包括:
以下是数据科学和人工智能的一些代表性用例: