数据科学是一个广泛的多学科领域,旨在从当今庞大的数据集中提取价值。它使用先进工具分析原始数据,收集数据集,对其进行处理,并给出洞察分析,以获得有意义的见解。构成数据科学领域的部分内容包括数据挖掘、统计学、数据分析、数据建模、机器学习建模和编程。
最终,数据科学被用于定义新的业务问题,然后机器学习技术和统计分析可以帮助解决这些问题。数据科学通过理解问题、了解所需数据并分析数据来帮助解决现实世界的问题,从而解决业务问题。
机器学习 (ML) 是人工智能 (AI) 的一个子集,专注于从数据科学所处理的数据中进行学习。它需要依赖数据科学工具,先对非结构化大数据进行清理、准备和分析。随后,机器学习可以从这些数据中“学习”,生成洞察,从而提升性能或为预测提供参考。
正如人类可以通过经验学习,而不仅仅是遵循指令,机器也可以通过将工具应用于数据分析来学习。机器学习针对已知问题使用各种工具和技术,创建算法,使机器能够通过经验从数据中学习,并且仅需极少的人类干预。它可以处理人类一生也难以处理的大量数据,并随着处理的数据增多而不断演进。
在大多数公司中,寻找、清洗和准备适合分析的数据可能占据数据科学家一天工作时间的 80%。虽然这项工作可能枯燥,但做对它至关重要。
来自不同来源、以不同形式收集的数据需要进行数据录入和汇总。如今,通过虚拟数据仓库可以让这项工作变得更容易,这类仓库提供了一个集中化的平台,可以存储来自不同来源的数据。
在应用数据科学时,一个挑战是识别相关的业务问题。例如,这个问题是与收入下降相关,还是与生产瓶颈有关?您是否在寻找某种自己怀疑存在但难以发现的模式?其他挑战还包括:向非技术利益相关者传达结果、确保数据安全、促进数据科学家与数据工程师之间的高效协作,以及确定合适的关键绩效指标 (KPI) 度量。
随着来自社交媒体、电子商务网站、互联网搜索、客户调查等渠道的数据不断增加,基于大数据的新兴研究领域应运而生。这些不断增长的庞大数据集使组织能够监测购买模式和行为,并进行预测。
然而,由于这些数据集是非结构化的,将其解读用于决策可能既复杂又耗时。这正是数据科学发挥作用的地方。
数据科学一词首次出现在 1960 年代,当时它可以与短语“计算机科学”互换。“数据科学”于 2001 年首次作为 一门独立学科使用。数据科学和机器学习都被数据工程师广泛应用于几乎所有行业。
这些领域的发展已经使得,要成为一名负责查看、管理和访问数据的数据分析师,您需要掌握 结构化查询语言 (SQL),同时还需要具备数学、统计学、数据可视化(用于向利益相关者展示结果)以及数据挖掘的能力。理解数据清洗和处理技术也是必要的。由于数据分析师经常构建机器学习模型,因此编程和 AI 知识也非常有价值。同时,数学、统计学、数据可视化(用于向利益相关者展示结果)以及数据挖掘也同样重要。理解数据清洗和处理技术也是必要的。由于数据分析师经常构建机器学习模型,因此编程和 AI 知识也非常有价值。
数据科学在工业和政府中被广泛应用,它有助于推动利润增长、创新产品和服务、改善基础设施和公共系统等。
数据科学的一些用例包括:
机器学习的起源以及其名称本身都可以追溯到 20 世纪 50 年代。1950 年,数据科学家 Alan Turing 提出了我们现在称之为图灵测试的概念,该测试提出了一个问题:“机器能思考吗?”该测试的标准是,机器是否能够进行对话而让人类无法察觉它是机器。从更广泛的层面来看,它探讨的是机器是否能够表现出人类智能。这一思想推动了人工智能的理论研究和发展。
IBM 计算机科学家 Arthur Samuel 在 1952 年创造了“机器学习”这一术语。同年,他编写了一个会下跳棋的程序。1962 年,一位跳棋大师在 IBM 7094 计算机上与该机器学习程序对弈,结果计算机获胜。
今天,机器学习的发展已经达到一个阶段,工程师需要掌握应用数学、计算机编程、统计方法、概率概念、数据结构以及其他计算机科学基础知识,还需要了解像 Hadoop 和 Hive 这样的大数据工具。掌握 SQL 并非必要,因为程序通常使用 R、Java、SAS 等编程语言编写。而 Python 是机器学习中最常用的编程语言。
机器学习和深度学习都是 AI 的子集。深度学习让计算机以类似人脑的方式处理数据。它能够识别文本、图像、声音及其他数据中的复杂模式,并生成准确的洞察与预测。深度学习算法是基于人脑构建的神经网络。
一些最常用的机器学习算法包括线性回归、逻辑回归、决策树、支持向量机 (SVM) 算法、朴素贝叶斯算法以及 KNN 算法。这些可以是监督学习、无监督学习或强化学习。
机器学习工程师可以专注于自然语言处理和计算机视觉,也可以成为专注于机器学习的软件工程师,等等。
机器学习存在一些伦理问题,例如隐私和数据使用方式。非结构化数据是在用户不知情或未同意的情况下从社交媒体网站收集的。尽管许可协议可能会指定如何使用这些数据,但许多社交媒体用户不会阅读这些细则。
另一个问题是,我们并不总是知道机器学习算法的工作原理和如何“做出决策”。解决这个问题的一个办法可能是将机器学习程序开源,以便人们可以查看源代码。
有些机器学习模型使用了带有有偏倚数据的数据集,这些有偏倚的数据会传递到机器学习的结果中。机器学习中的问责制指的是一个人能在多大程度上查看和纠正算法,以及如果结果出现问题谁应承担责任。
有人担心 AI 和机器学习会导致失业。虽然它可能会改变可用工作的类型,但预计机器学习也会创造新的、不同的职位。在许多情况下,它处理例行的、重复性的工作,从而让人类可以转向需要更多创造力、影响力更大的工作。
知名的使用机器学习的公司包括社交媒体平台,这些平台收集大量数据,然后利用用户的过往行为来预测他们的兴趣和需求。平台随后使用这些信息和预测模型来推荐相关的产品、服务或文章。
按需视频订阅公司及其推荐引擎是机器学习应用的另一个例子,自动驾驶汽车的快速发展也是如此。其他使用机器学习的公司包括科技公司、云计算平台、运动服装和装备公司、电动汽车制造商、航天公司等众多企业。
从事数据科学工作会面临诸多挑战。数据可能存在碎片化问题,数据科学技能可能短缺,同时在工具、实践和框架之间需要做出选择,而这些工具和框架在训练和部署方面往往有严格的 IT 标准。对于准确性不明确、预测难以审计的机器学习模型,将其投入生产运行也可能具有挑战性。
IBM 的数据科学与 AI 生命周期产品组合建立在我们长期致力于开源技术的基础上。它包括一系列功能,使企业能够以全新的方式释放其数据的价值。
Watsonx 是一个 AI 产品组合,可以提升生成式 AI 在核心工作流中的影响,以提高工作效率。该组合包含三个强大的组件:watsonx.aistudio 用于新的基础模型、生成式 AI 和机器学习;watsonx.data fit-for-purpose store 提供数据湖的灵活性与数据仓库的性能;watsonx.governance toolkit 用于支持负责任、透明且可解释的 AI 工作流。
watsonx 的这些组件结合到一起,使组织能够:
使用数据科学工具和解决方案,利用数据、算法、机器学习和 AI 技术发现模式,并构建预测。
推出 Cognos Analytics 12.0,人工智能驱动洞察分析可以更好地做出决策。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。