什么是数据科学- 数据科学介绍？| IBM

什么是数据科学？

数据科学将数学和统计学、专业编程、高级分析、人工智能 (AI) 和机器学习与特定主题专业知识相结合，获取隐藏在组织数据中的切实可行的洞察。这些数据科学洞察可用于指导决策和战略规划。

数据源以及随之而来的数据量的不断增加，使数据科学成为每个行业增长最快的领域之一。因此，数据科学家被《哈佛商业评论》称为“21 世纪最性感的工作”也就不足为奇了。各组织越来越依赖数据科学家来解读数据并提供切实可行的建议来改善业务成果。

数据科学生命周期涉及各种角色、工具和流程，帮助分析师获取切实可行的洞察。通常，数据科学项目会经历以下阶段：

数据摄取：生命周期始于数据收集，即使用各种方法从所有相关来源收集原始的结构化和非结构化数据。这些方法可以包括手动输入、网页抓取以及来自系统和设备的实时流数据。数据源可以包括结构化数据（如客户数据）以及非结构化数据（如日志文件、视频、音频、图片、物联网 (IoT)、社交媒体等。

数据存储和数据处理：由于数据可能有不同的格式和结构，因此，公司需要根据必须采集的数据类型来考虑不同的存储系统。数据管理团队帮助围绕数据存储和结构制定标准，方便执行分析、机器学习和深度学习模型方面的工作流程。此阶段包括使用 ETL （提取、转换、加载）作业或其他数据集成技术来清理数据、删除重复数据、转换和组合数据。在加载到数据仓库、数据湖或其他存储库之前，这种数据准备对于提高数据质量至关重要。

数据分析：在此阶段，数据科学家进行探索性数据分析，以检查数据中的偏差、模式、范围和数值分布。这种数据分析探索可推动生成 a/b 测试假设。此外，它还允许分析师确定数据的相关性，以便在预测分析、机器学习和/或深度学习的建模工作中使用。根据模型的准确性，各组织可以依赖这些洞察做出业务决策，从而提高可扩展性。

交流：最后，将洞察以报告和其他数据可视化形式呈现，使业务分析师和其他决策者更容易理解这些洞察及其对业务的影响。R 或 Python 等数据科学编程语言包含用于生成可视化效果的组件，数据科学家也可以使用专用的可视化工具。

数据科学家做什么

数据科学家是从数据中提取特定行业洞察分析和答案的专家。他们拥有超越一般业务分析师或数据分析师的计算机科学和纯科学技能，并对所从事行业或业务领域（如汽车制造、电子商务或医疗保健）的具体情况有深刻的了解。

数据科学家必须能够：

对业务有足够的了解，可以提出相关问题并确定业务痛点。
将统计学和计算机科学以及商业头脑应用于数据分析。
使用各种工具和技术来准备和提取数据，从数据库和 SQL 到数据挖掘再到数据集成方法，应有尽有。
使用预测分析和人工智能 (AI)，包括机器学习模型、自然语言处理和深度学习，从大数据中获取洞察分析。
编写自动数据处理、计算的程序和算法

。
讲述并展示具体情况，向决策者和利益相关者清楚地传达结果的意义，让他们了解技术的各个层面。
解释如何使用结果来解决业务问题。
与其他数据科学团队成员协作，例如数据和业务分析师、IT 架构师、数据工程师和应用程序开发人员。

这些技能的需求量很大，因此，许多正在从事数据科学职业的人开始深入了解各种数据科学课程，例如认证课程、数据科学课程和教育机构提供的学位课程。

数据科学家不一定直接负责数据科学生命周期中涉及的所有流程。例如，数据管道通常由数据工程师处理，但数据科学家可能会针对有用或需要的数据类型提出建议。虽然数据科学家可以构建机器学习模型，但在更大层面上扩展这些工作需要更多的软件工程技能，以优化程序，提高运行速度。因此，数据科学家与机器学习工程师合作来扩展机器学习模型是很常见的。

数据科学家的职责通常与数据分析师的职责重叠，尤其是探索性数据分析和数据可视化。但是，数据科学家的技能通常比普通数据分析师更广泛。相对而言，数据科学家利用 R 和 Python 等通用编程语言来进行更多的统计推断和数据可视化。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

数据科学与商业智能

“数据科学”和“商业智能”(BI) 这两个术语可能很容易混淆，因为它们都与各组织的数据以及对这些数据的分析有关，但它们的侧重点确实不同。

商业智能 (BI) 通常是支持数据准备、数据挖掘、数据管理和数据可视化的技术的总称。利用商业智能工具和流程，最终用户将能够从原始数据中识别可操作的信息，推动各行各业的组织做出数据驱动的决策。虽然数据科学工具在这方面有很多重叠，但商业智能更侧重于过去的数据，通过商业智能工具获取的洞察更多是描述性的。它使用数据来了解之前发生的情况，为行动过程提供信息。商业智能面向静态（不变）数据，这些数据通常是结构化的。虽然数据科学使用描述性数据，但它通常利用此类数据来确定预测变量，然后使用这些变量对数据进行分类或进行预测。

数据科学和商业智能并不相互排斥，对于善于利用数字技术的组织而言，它们将同时使用两者来充分理解数据并从数据中提取价值。

数据科学工具

数据科学家依赖流行的编程语言进行探索性数据分析和统计回归。这些开源工具支持预构建的统计建模、机器学习和图形功能。这些语言包括（在 “Python 与 R：有哪些区别？”中阅读更多内容）：

R Studio：一种用于开发统计计算和图形的开源编程语言和环境。
Python：它是一种动态、灵活的编程语言。Python 包含许多用于快速分析数据的库，例如 NumPy、Pandas、Matplotlib。

为了便于共享代码和其他信息，数据科学家可以使用 GitHub 和 Jupyter Notebook。

一些数据科学家可能更喜欢用户界面，两种常见的企业统计分析工具包括：

SAS：用于分析、报告、数据挖掘和预测建模的综合工具套件，包括可视化和交互式仪表盘。
IBM SPSS：提供高级统计分析、大型机器学习算法库、文本分析、开源可扩展性、与大数据集成以及无缝部署到应用程序中。

数据科学家还应精通大数据处理平台，例如 Apache Spark、开源框架 Apache Hadoop 和 NoSQL 数据库。他们还应熟练使用各种数据可视化工具，包括业务演示和电子表格应用程序（如 Microsoft Excel）中包含的简单图形工具、Tableau 和 IBM Cognos 等专用商业可视化工具，以及 D3.js（用于创建交互式数据可视化的 JavaScript 库）和 RAW Graphs 等开源工具。为了构建机器学习模型，数据科学家经常借助 PyTorch、TensorFlow、MXNet 和 Spark MLib 等框架。

鉴于数据科学的陡峭学习曲线，许多公司正在寻求加快 AI 项目的投资回报；他们经常难以招聘到发挥数据科学项目的全部潜力所需的人才。为了弥补这一差距，他们转向多角色数据科学与机器学习 (DSML) 平台，从而促进了“公民数据科学家”职位的出现。

多角色 DSML 平台使用自动化、自助服务门户和低代码/无代码用户界面，因此，在数字技术或专家数据科学方面的背景很少或没有此类背景的人可以使用数据科学和机器学习来创造业务价值。这些平台还通过提供技术性更强的界面来支持专家数据科学家。使用多角色 DSML 平台可鼓励整个企业范围内的协作。

数据科学和云计算

云计算通过支持访问数据科学项目所需的额外处理能力、存储和其他工具来扩展数据科学。

由于数据科学经常利用大型数据集，因此，能够随着数据规模而扩展的工具非常重要，特别对于时间敏感型项目。使用数据湖等云存储解决方案，可访问存储基础设施，这些基础设施能够轻松摄取和处理大量数据。这些存储系统为最终用户提供了灵活性，使他们能够根据需要启动大型集群。他们还可以添加增量计算节点来加快数据处理作业，从而允许企业为获得更丰硕的长期成果进行短期权衡。云平台通常具有不同的定价模式，例如按使用或进行订阅，以满足最终用户的需求，而无论他们是大型企业还是小型初创公司。

开源技术广泛用于数据科学工具集。当它们托管在云端时，团队无需在本地安装、配置、维护或更新它们。包括 IBM® Cloud 在内的几家云提供商还提供预打包的工具包，支持数据科学家无需编码即可构建模型，进一步普及获得技术创新和数据洞察的机会。

数据科学用例

企业可以从数据科学中获得众多好处。常见用例包括，通过智能自动化优化流程以及增强定位和个性化以改善客户体验 (CX)。不过，更具体的例子包括：

以下是数据科学和人工智能的几个代表性用例：

一家国际银行通过移动应用程序提供更快的贷款服务，该应用程序使用机器学习驱动的信用风险模型和功能强大且安全的混合云计算架构。
一家电子公司正在开发功能超强的 3D 打印传感器，用于为未来的无人驾驶车辆提供指引。该解决方案依靠数据科学和分析工具来增强实时对象检测能力。
一家机器人流程自动化 (RPA) 解决方案提供商开发了一种认知业务流程挖掘解决方案，可为其客户公司减少 15% 到 95% 的事件处理时间。该解决方案经过训练，可以理解客户电子邮件的内容和情绪，指导服务团队优先考虑最相关和最紧急的电子邮件。
一家数字媒体技术公司创建了一个受众分析平台，公司客户可通过该平台在电视受众获得越来越多的数字渠道时，了解哪些内容吸引了他们。该解决方案采用深度分析和机器学习来收集有关观众行为的实时洞察。
城市警察局创建了统计事件分析工具，帮助警员了解何时何地部署资源以预防犯罪。数据驱动的解决方案可创建报告和仪表板，以增强现场警员的态势感知能力。
IBM 合作伙伴上海长江科技发展有限公司使用 IBM® Watson 技术构建一个基于 AI 的医疗评估平台，该平台可以分析现有病历，根据患者出现卒中的风险对患者进行分类，并可以预测不同治疗计划的成功率。