什么是数据科学?
了解数据科学如何揭示业务洞察,加速数字化转型并实现数据驱动型决策
在实验室中使用计算机的数据科学家
什么是数据科学?

数据科学将数学和统计、专业编程、高级分析、人工智能 (AI) 和机器学习与特定的主题专业知识相结合,旨在发现隐藏在组织数据中切实可行的洞察。 这些洞察可用于指导决策和战略规划。

数据源以及其中所包含的数据量呈不断加速增长之势,这使得数据科学成为各行各业中发展最快的领域之一。 因此,数据科学家职位被 《哈佛商业评论》 评为“21世纪最性感的工作”也就不足为奇了。 组织越来越离不开数据科学,需要依靠它们来解读数据,提供切实可行的行动建议,从而改善业务成果。

数据科学生命周期涉及各种角色、工具和流程,它们旨在帮助分析师获得切实可行的洞察。 一个数据科学项目通常会经历以下阶段:

  • 数据采集: 数据科学生命周期从数据采集开始,也就是使用各种方法,从所有相关来源收集原始的结构化和非结构化数据。 这些方法包括手动输入、Web 抓取以及来自系统和设备的实时流数据。 数据源包括结构化数据(如客户数据)以及非结构化数据(如日志文件、视频、音频、图片、物联网 (IoT)、社交媒体等)。
  • 数据存储和数据处理: 由于数据可能具有不同的格式和结构,因此企业必须根据要捕获的数据类型,考虑使用不同的存储系统。 数据管理团队帮助制定有关数据存储和数据结构的标准,简化有关分析、机器学习和深度学习模型的工作流程。 这个阶段包括使用“抽取、转换、加载”( ETL ) 作业或其他数据集成技术,执行数据清理、去重、转换及组合等操作。 这些数据准备工作对于在将数据加载到 数据仓库、 数据湖或其他存储库之前提高其质量至关重要。
  • 数据分析: 在这一阶段,数据科学家进行探索性数据分析,以检查数据中值的偏差、模式、范围和分布。 这种数据分析探索有助于推动 A/B 测试的假设生成。 它还可以帮助分析师确定数据在预测性分析、机器学习和/或深度学习建模工作中的相关性。 如果模型准确,组织就可以依靠这些洞察做出业务决策,提高模型的可扩展性。
  • 传达: 最后,以报告和其他数据可视化形式呈现洞察,让业务分析师和其他决策者可以更轻松地理解洞察及其对业务的影响。 数据科学编程语言(如 R 或 Python)包含了用于生成可视化效果的组件;数据科学家也可以使用专用的可视化工具。
数据科学与数据科学家

数据科学是一门学科,而数据科学家则是该领域的从业者。 数据科学家并不一定直接负责数据科学生命周期所涉及的所有过程。 例如,数据管道通常由数据工程师处理,但数据科学家可能会就哪种数据有用或需要哪种数据提出建议。 虽然数据科学家可以构建机器学习模型,但在更大层面上扩展这些工作则需要更多的软件工程技能来优化程序,使之加速运行。 因此,数据科学家通常会与机器学习工程师合作,以扩展机器学习模型。

数据科学家的职责通常与数据分析师重叠,尤其是在探索性数据分析和数据可视化方面。 但是,数据科学家所要求具备的技能通常比普通数据分析师更广泛。 相比之下,数据科学家需要利用常见的编程语言(如 R 和 Python)开展更多的统计推理和数据可视化工作。

为了执行这些任务,数据科学家需要的计算机科学和纯科学技能要远远超过普通的业务分析师或数据分析师。 数据科学家还应了解具体业务领域,例如汽车制造、电子商务或医疗保健。

简而言之,数据科学家必须能够:

  • 充分了解业务,可以提出相关问题并发现业务痛点。
  • 将统计学和计算机科学以及商业头脑应用于数据分析。
  • 使用广泛的工具和方法来准备和抽取数据 - 包括数据库、SQL 以及数据挖掘和数据集成方法。
  • 使用预测性分析和 人工智能 (AI)(包括 机器学习、 自然语言处理和 深度学习),从数据中提取洞察。
  • 编写可自动完成数据处理和计算的程序。
  • 讲述并解释相关故事,从技术知识和理解层面向决策者和利益相关方传达结果所代表的含义。
  • 解释如何使用这些结果来解决业务问题。
  • 与其他数据科学团队成员协作,例如数据和业务分析师、IT 架构师、数据工程师和应用开发人员。

这些技能的需求量很大,因此,许多从事数据科学职业的人都会探索各种数据科学课程,例如认证课程、数据科学课程和教育机构提供的学位课程。

数据科学与商业智能

术语“数据科学”和“商业智能” (BI) 可能很容易混淆,因为它们都与组织的数据和数据分析有关,但侧重点有所不同。

商业智能 (BI) 是支持数据准备、数据挖掘、数据管理和数据可视化的技术的总称。 利用商业智能工具和流程,最终用户能够从原始数据中发现切实可行的信息,促进各行各业的企业做出数据驱动的决策。 虽然数据科学工具在这方面有很大程度的重叠,但商业智能更关注过去的数据,通过商业智能工具获得的洞察从本质上而言更具描述性。 它使用数据来理解之前发生的事情,为行动方案提供信息支持。 BI 通常面向结构化的静态(不变)数据。 虽然数据科学也使用描述性数据,但它通常使用这些数据来确定预测性变量,然后用于对数据分类或进行预测。

数据科学和 BI 并不相互排斥,精通数字技术的组织同时使用两者,充分理解数据并从中获得价值。

数据科学工具

数据科学家使用流行的编程语言进行探索性数据分析和统计回归。 这些开源工具支持预先构建的统计建模、机器学习和图形功能。 这些语言包括(请阅读“Python 与 R:有何区别?”,了解更多信息):

  • R Studio: 一种开源编程语言和环境,用于开发统计计算和图形。
  • Python : 它是一种动态而灵活的编程语言。 Python 中有许多库,如 NumPy、Pandas、Matplotlib,可用于快速分析数据。

为了便于共享代码和其他信息,数据科学家可以使用 GitHub 和 Jupyter notebook。

一些数据科学家可能更喜欢使用用户界面,以下两种常见的企业统计分析工具可能非常适合他们:

  • SAS: 一种全面的工具套件,包括可视化和交互式仪表板,用于分析、报告、数据挖掘和预测性建模。
  • IBM SPSS: 提供高级统计分析、庞大的机器学习算法库、文本分析、开源可扩展性、与大数据的集成以及无缝的应用部署。

数据科学家还必须能够熟练使用大数据处理平台,如 Apache Spark、开源框架 Apache Hadoop 和 NoSQL 数据库。 他们还应当能够熟练使用各种数据可视化工具,包括商业演示文稿和电子表格应用中随附的简单图形工具、专用的商业可视化工具(如 Tableau 和 IBM Cognos)以及开源工具,例如 D3.js(用于创建交互式数据可视化的 JavaScript 库)和 RAW Graphs。 为了构建机器学习模型,数据科学家经常使用 PyTorch、TensorFlow、MXNet 和 Spark MLib 等框架。

数据科学的学习难度非常大,而且许多企业希望加快实现人工智能项目的投资回报;但他们通常难以招聘到实现数据科学项目全部潜力所需的人才。 为了解决这个问题,他们纷纷转向多角色数据科学和机器学习 (DSML) 平台,衍生出“公民数据科学家”这一角色。

多角色 DSML 平台使用自动化、自助式门户网站和少代码/无代码用户界面,使得只有很少甚至没有数字技术或专业数据科学背景的人员也能使用数据科学和机器学习创造商业价值。 这些平台还通过提供更多技术界面,支持数据科学家的工作。 使用多角色 DSML 平台有助于鼓励整个企业范围的协作。

数据科学与云计算

云计算 可提供数据科学项目所需的额外处理能力、存储和其他工具,扩展数据科学项目的规模。

由于数据科学经常利用大型数据集,因此可以随着数据规模而扩展的工具凸显出其重要性,特别是对于时间敏感的项目。 云存储解决方案(如数据湖)提供存储基础架构,帮助客户轻松采集和处理大量数据。 这些存储系统为最终用户带来了灵活性,使他们能够根据需要建立大型集群。 他们还可以逐步添加计算节点,以加速执行数据处理作业,使企业能够为更重要的长期结果做出短期权衡。 云平台通常有不同的定价模式,例如按使用量付费或预订模式,可满足各种不同的最终用户的需求 - 无论他们是大型企业还是小型初创公司。

开源技术已广泛用于数据科学工具集。 如果这些工具托管在云中,那么团队就无需在本地安装、配置、维护或更新这些工具。 包括 IBM Cloud® 在内的一些云提供商还提供了预先打包的工具包,使数据科学家无需编码即可构建模型,从而使技术创新和数据洞察进一步“平民化”。 

数据科学用例

企业可以从数据科学中受益良多。 常见用例包括通过智能自动化以及更强的针对性和个性化来优化流程,从而改善客户体验 (CX)。 但是还有更多的具体用例,其中包括:

以下是数据科学和人工智能的一些代表性用例:

  • 一家国际银行 使用包含基于机器学习的信用风险模型的移动应用 和功能强大而且高度安全的 混合云计算 架构,加快贷款服务的执行速度。
  • 一家电子公司正在开发 超级强大的 3D 打印传感器,以用于为将来的无人驾驶汽车指路。 该解决方案依靠数据科学和分析工具来增强实时物体检测功能。
  • 一家机器人流程自动化 (RPA) 解决方案提供商开发了一种 认知型业务流程挖掘解决方案 ,使客户企业的事故处理时间缩短了 15% 到 95% 不等。 该解决方案经过训练后可以理解客户电子邮件中的内容和情绪,并指导服务团队优先处理最相关和最紧急的邮件。
  • 随着提供的数字频道不断增多,一家数字媒体技术公司创建了一个观众分析平台,让其客户能够了解哪些内容吸引了电视观众。 该解决方案采用深度分析和机器学习,收集有关观众行为的实时洞察。
  • 一所 城市警察局创建了一些统计式事故分析工具 ,用于帮助警察了解何时何地部署资源以防止犯罪。 这种数据驱动的解决方案创建了一些报告和仪表板,以用于增强现场警察的态势感知能力。
  • 上海长江科技发展有限公司利用 IBM® Watson® 技术构建了 基于 AI 的医疗评估平台 ,该平台可以分析现有病历,根据患者发生中风的风险对患者进行分类,并可以预测不同治疗方案的成功率。
相关解决方案
ModelOps

同步 DevOps 和 ModelOps。 利用云原生应用在任何云中构建和扩展 AI 模型。

探索 ModelOps
可解释的 AI

提高 AI 可解释性。 评估并缓解 AI 风险。 充满信任和信心地部署 AI。

了解有关可解释的 AI 的更多信息
AutoAI

快速构建并训练高质量的预测模型。 简化 AI 生命周期管理。

探索 AutoAI
资源 意大利高速公路公司

意大利高速公路公司 (Autostrade per l'Italia) 实施了多个 IBM 解决方案,以实现全面的数字化转型,改进其监控和维护大量基础设施资产的方式。

MANA 社区

MANA 社区与 IBM Garage 合作构建了一个 AI 平台,用于从多个数字渠道和数千个来源挖掘大量环境数据。

采取下一步行动

IBM 的数据科学和 AI 生命周期产品组合建立在我们对开源技术的长期承诺之上,包括一系列功能,式企业能够以全新方式发掘数据的价值。 AutoAI 是 IBM Watson® Studio 中新推出的功能强大的自动化开发功能,可加快完成数据科学生命周期的数据准备、模型开发和特征工程阶段。 它有助于提高数据科学家的工作效率,帮助他们做出更明智的决策,即决定哪些模型最适合实际的用例。 AutoAI 可简化任何云环境中的企业数据科学。

试用 IBM Watson® Studio