数据集是通常以表格、数组或特定格式(例如 CSV 或 JSON)组织的数据集合,以便于检索和分析。数据集对于数据分析、机器学习 (ML)、人工智能 (AI) 和其他需要可靠、可访问数据的应用程序至关重要。
当今,组织从各种来源收集大量数据,包括客户互动、金融交易、IoT 设备和社交媒体平台。
为了释放所有这些数据的商业价值,通常必须将其组织成数据集,即经过组织的集合,使信息可供分析和应用。
不同类型的数据集以不同的方式存储数据。例如,结构化数据集通常会将数据点排列在具有已定义行和列的表中。非结构化数据集可以包含多种格式,例如文本文件、图像和音频。
虽然并非所有数据集都涉及结构化数据,但它们总是具有一些通用结构,无论是确定的模式还是半结构化数据格式(如 JSON 或 XML)中松散组织的语法。
数据集的示例包括:
组织经常会使用并维护多个数据集,以支持各种业务计划,其中包括数据分析和商业智能 (BI)。
其中,大数据尤其依赖于海量、复杂的数据集来提供价值。如果使用大数据分析进行适当的收集、管理和分析,这些数据集则可帮助揭示新的洞察信息并实现数据驱动式决策。
近年来,人工智能 (AI) 和机器学习的兴起进一步增加了对数据集的关注。组织需要大量且组织良好的训练数据,来开发准确的机器学习模型并完善预测算法。
根据 Gartner 的数据,61% 的组织表示由于 AI 技术的影响,它们必须更新或重新思考其数据与分析运营模式。1
“数据集”一词虽常被广泛使用,但某些特性却决定了数据集合是否会形成数据集。通常,数据集具有 3 个基本特征:变量、架构和元数据。
并非所有数据集合都是数据集。不相关的数据点的随机积累通常不会构成数据集,除非存在适当的组织和结构以进行有意义的分析。
同样,尽管应用程序编程接口 (API)、数据库和电子表格可以与数据集交互或包含数据集,但它们本身不一定是数据集。
API 允许应用程序相互通信,这有时涉及访问和交换数据集。数据库和电子表格是信息的容器,其中可以包括数据集。
组织通常处理 3 种主要类型的数据集,通常根据其处理的数据类型进行分类:
组织通常结合使用多种类型的数据集来支持全面的数据分析策略。例如,零售企业可能会分析结构化销售数据以及非结构化客户评论和半结构化 Web 分析,以更好地了解客户行为和偏好。
结构化数据集以预定义格式组织信息,通常是具有明确定义的行和列的表格。这些数据集是许多关键业务流程的基础,例如客户关系管理 (CRM) 和库存管理。
由于结构化数据集遵循一致的模式,因此它们可以实现快速查询和可靠的分析。这使得它们成为需要精确、可量化数据的商业智能工具和报告系统的理想选择。
结构化数据集的常见示例包括:
非结构化数据集包含不符合传统数据模型或僵化架构的信息。虽然这些数据集需要更复杂的处理工具,但它们通常包含结构化数据格式无法捕获的丰富洞察分析。
组织依靠非结构化数据集来支持人工智能和机器学习模型。这些数据集提供了培训 AI 模型和开发更先进的分析功能所需的多样化的真实数据。
非结构化数据集的常见示例包括:
半结构化数据集弥合了结构化数据与非结构化数据之间的差距。虽然它们不遵循严格的架构,但却包含既定的语法或标记来帮助以灵活、但可解析的格式对信息进行组织。
这种混合方法使得半结构化数据集对于需要处理不同数据类型同时维护某种组织结构的现代数据整合项目和应用程序很有价值。
半结构化数据集的常见示例包括:
组织从多个来源收集数据来构建支持各种业务计划的数据集。数据源可以直接决定数据集的质量和效用。
部分常见的数据源包括:
数据存储库是数据的集中存储区域。专有数据存储库通常存储敏感数据或业务关键数据,如客户记录、财务交易或提供竞争优势的运营指标。
其他数据存储库也是公开可用的。例如,GitHub 等平台在托管代码的同时还托管开源数据集。研究人员和组织可以使用这些公共数据集在机器学习模型和数据科学项目上进行公开合作。
数据库是经过优化的数字数据存储库,可根据需要安全存储和轻松检索数据。
数据库可以包含单个数据集或多个数据集。用户可以通过运行使用结构化查询语言 (SQL) 等专门语言的数据库查询来快速提取相关数据点。
Data.gov 等网站和城市级别的开放数据计划(如 New York City Open Data)提供对数据集的免费访问,其中包括医疗保健、交通和环境指标。研究人员可以使用这些数据集来研究从交通模式到公共健康趋势的一切事物。
从推动人工智能到实现数据驱动的洞察分析,数据集是多项关键业务和技术计划的基础。
数据集的一些最常见的应用包括:
人工智能 (AI) 有可能成为许多组织的关键差异化因素。
据 IBM 商业价值研究院的调查,72% 的绩效优异 CEO 认为,他们的竞争优势依赖拥有最先进的生成式 AI。这些尖端的 AI 系统依靠大量的数据集(包括已标记和未标记的数据集)来有效地训练模型。
利用全面的训练数据,组织可以开发执行复杂任务的 AI 系统,例如:
数据科学家和分析师利用数据集来提取有价值的洞察分析,并推动跨学科的发现。随着各组织收集比以往任何时候都多的数据,数据分析对于检验假设、识别趋势和揭示为战略决策提供依据的关系变得至关重要。
数据集辅助数据分析的一些常见方式包括:
组织使用商业智能 (BI) 来发现数据集中的洞察分析并推动实时决策。
BI 工具可以帮助分析各种类型的数据,以识别趋势、监控性能并发现新的机会。部分应用场景包括:
为任何计划处理庞大而复杂的数据集都会带来一些挑战和需要考虑的问题。其中最明显的一些包括:
所有链接均为 ibm.com 外部链接。
1 由于 AI 技术,组织正在更新其 D&A 运营模式,Gartner,2024 年 4 月 29 日。
获得关于不断演变的 ABI 解决方案格局的独特洞察分析,重点介绍适用于数据和分析领导者的主要发现、假设和建议。
简化数据访问并实现数据治理自动化。了解将湖仓一体战略集成到数据架构中的强大功能,包括优化工作负载的成本、扩展 AI 和分析,以及随时随地使用所有数据。
深入了解数据领导者指南,了解如何构建数据驱动型组织和推动业务优势。
了解开放湖仓一体方法如何提供可信数据以及加快分析和 AI 项目执行。
通过这 4 个关键步骤,将您的数据和分析策略与业务目标联系起来。
深入了解商业智能挑战可能持续存在的原因,以及它对整个组织的用户意味着什么。