什么是非结构化数据?

人群穿越街道的航拍照片

作者

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

什么是非结构化数据?

非结构化数据是指缺少预定义格式的信息。非结构化数据集的规模异常庞大(通常达到 TB 或 PB 级),且包含 90% 的企业生成数据。1

非结构化数据快速增长的驱动力是其广泛而多样化的数据源,包括文本文件、社交媒体、图像和音频文件、即时消息以及智能设备。如今,几乎所有产生的新数据都是非结构化形式:每条发送的消息、上传的照片或触发的传感器都会加剧数据量的膨胀。

与结构化数据(具有预定义数据模型的数据)不同,非结构化数据无法适应传统数据库的固定架构。相反,非结构化数据通常存储于文件系统、非关系型(或 NoSQL 数据库)或数据湖中。

非结构化数据的复杂性和不统一的数据结构同样需要更复杂的数据分析方法。机器学习 (ML) 和自然语言处理 (NLP) 等技术通常用于提取非结构化数据集中的洞察分析。

不久前,非结构化数据仍属于暗数据。非结构化数据的挑战(即数据规模庞大且缺乏统一性)导致其难以应用于多数业务用例。

然而,如今拥有大量非结构化数据的企业实则掌握着重要的战略资产。结构化和非结构化数据相互结合,共同构成了整个企业的完整数据视图。尤其在当前形势下,非结构化数据还能帮助企业释放生成式 AI (gen AI) 的全部潜力。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

非结构化数据的示例有哪些?

大多数非结构化数据均为文本数据:电子邮件消息、Word 文档、PDF、博客和社交媒体帖文。文本式非结构化数据还包括通话记录和消息文本文件,例如来自 Microsoft Teams 或 Slack 的数据。

但是,非结构化数据也可以包含非文本内容。非文本式非结构化数据的常见示例包括图像文件(如 JPEG、GIF 和 PNG)、多媒体文件、视频文件、移动设备活动和来自物联网 (IoT) 设备的传感器数据。

非结构化数据、结构化数据与半结构化数据

数据通常分为结构化、非结构化或半结构化数据,其分类依据为数据格式和架构规则。顾名思义,半结构化数据兼具结构化数据和非结构化数据的属性。以下是各类数据的简要概述:

结构化数据

  • 具有清晰、预定义的架构
  • 可以整齐地放入行和列,例如 Excel 电子表格或关系型数据库管理系统 (RDBMS) 中的行和列
  • 其示例包括电话号码、SEO 标签和客户数据

非结构化数据

  • 无预定义架构
  • 不符合传统关系型数据库的僵化结构
  • 示例包括网页上的文本、通话记录和媒体文件。

半结构化数据

  • 无预定义架构,但拥有元数据(例如标记和语义标记),可进行索引和分析
  • 不符合传统关系型数据库的僵化结构
  • 其示例包括 JavaScript 对象表示法 (JSON)、CSV 和可扩展标记语言 (XML) 文件

为什么非结构化数据很重要?

非结构化数据占据企业产生的所有数据的大部分。它多样、灵活且充满洞察分析,其中一些可能不存在于结构化数据集中。虽然结构化数据仍然非常有价值,但当今大多数公司拥有的大量非结构化数据依然没有得到充分利用。

非结构化数据同样是现代 AI 的关键支撑。非结构化数据(包括公共和内部专有数据)可用于训练 AI 模型并优化模型性能。

Mixture of Experts | 8 月 28 日,第 70 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

非结构化数据的用例有哪些?

借助正确的工具,非结构化数据就能应用于各类用例,例如:

生成式 AI (gen AI)

生成式 AI 依赖深度学习模型,可识别和编码大量数据中的模式与关系。非结构化数据通常来自互联网,适用于提供训练所需的海量丰富且未标注的数据。

检索增强生成 (RAG)

RAG 是一种架构,通过授予生成式 AI 模型访问额外的外部知识库(例如组织的内部非结构化数据)的权限来优化其性能。此过程可帮助模型适应特定领域的用例,确保其生成更精准的反馈。

客户行为和情感分析

情感分析可分析大量文本以确定其是否表达正面情感、负面情感或中立情感。作为了解客户行为的工具,情感分析利用客户跨数字渠道生成的大量非结构化文本数据。

预测性数据分析

企业采用预测性分析来预测未来结果,并借助历史数据来识别风险和机遇。例如,医疗保健组织可以通过挖掘健康记录(非结构化文本数据)来了解如何诊断和治疗特定疾病,并根据研究结果创建预测模型。

聊天机器人文本分析

企业级聊天机器人可以分析与客户或员工对话中的非结构化文本数据并从中提取洞察分析。通常,采用自然语言处理 (NLP) 和机器学习等技术进行分析。从分析的文本数据中提取的洞察分析有助于了解客户行为并优化聊天机器人的性能。

AI 的非结构化数据:详解

人工智能相关的非结构化数据用例正成为企业接纳 AI 创新的关注点。以生成式 AI 为例,这项技术正是 ChatGPT 等主流 AI 应用背后的驱动力。它从基础模型入手,通常采用大语言模型 (LLM)。

创建基础模型涉及使用大量非结构化数据(通常来自互联网)训练深度学习算法。这类非结构化数据丰富多样,能够教导 AI 模型理解上下文和细微差别。

然而,非结构化训练数据可能较为泛化,而非针对特定领域或组织,并且可能已经过时。最终模型可能难以响应提示要求,生成特定领域的反馈。

为了应对此类挑战,组织可以采用多种方式将预训练模型应用于特定用例或任务。其中一种方法是微调,即基于较小的特定任务数据集进行训练以定制基础模型。它需要高质量的结构化数据,通常为专有数据或专业的特定领域知识。

另一种方法——检索增强生成 (RAG) 则可合并非结构化数据。LLM 通常从其训练数据中获取信息,而 RAG 向 AI 工作流添加信息检索组件,借此收集相关数据并将其输入模型以提高响应质量。这些数据包括内部非结构化数据集。

与微调相比,RAG 在响应生成过程中会不断检索最新信息,从而确保结果更及时、更准确。它可以将 AI 项目从停滞不前的泛化状态,转变为定制化、高度相关且具备实际影响力的解决方案。

与结构化数据类似,非结构化数据在应用于 AI 之前也需要进行适当的数据治理和数据管理。需要对数据进行分类、评估数据质量、筛选 PII去重

借助正确的工具以及 AI 的支持,企业就能转换非结构化数据并确保其可用性。如今,了解如何打破数据混乱的局面并建立秩序已成为企业竞争的差异化优势,以及推进企业生成式 AI 部署的催化剂。

如何存储非结构化数据?

非结构化数据通常以其原生格式存储,这扩大了存储选择。一些常见的非结构化数据存储环境包括:

对象存储

对象存储(或基于对象的存储器)将数据存储为对象,是一个简单、独立的存储库,其中包含数据、元数据和唯一标识号。此架构非常适合存储、归档、备份和管理大量静态非结构化数据。基于云的对象存储通常用于优化 AI 工作负载的存储成本和数据使用。

数据湖

数据湖是一种数据存储环境,旨在处理任何数据格式的大量原始数据,尤其是互联网应用程序和服务锁创建的海量大数据。它们利用云计算来提高数据存储的可扩展性和成本效益。通常,数据湖采用基于云的对象存储,例如 Azure Blob Storage、Google Cloud Storage 或 IBM® Cloud Object Storage。

湖仓一体

湖仓一体被认为是数据管理的下一个发展阶段,它结合了数据湖和数据仓库的优点。它们提供快速、低成本的存储空间,可灵活地支持数据分析和 AI/ML 工作负载。湖仓一体还支持实时数据摄取,这对于用以支持实时决策的 AI 应用至关重要。

NoSQL 数据库

结构化查询语言 (SQL) 是一种标准化的特定领域编程语言,可用于存储、操作和检索数据。NoSQL(或非 SQL)数据库旨在存储传统 SQL 数据库之外的数据,且无需预定义架构。NoSQL 数据库具备管理大型非结构化数据集所需的速度和可扩展性。其示例包括 MongoDBRedisHBase

处理非结构化数据的工具有哪些?

存储非结构化数据后,通常需要对其进行处理,才能有效应用于下游用例,例如商业智能或非结构化数据分析。

部分组织利用开源框架来处理大型非结构化数据集。例如,Apache Hadoop 通常集成于数据湖架构中,以实现非结构化和半结构化数据(例如流式音频和社交媒体情感)的批处理。Apache Spark 也是一个开源的大数据处理框架。不过,Spark 采用内存处理技术且速度快如闪电,因此更适合机器学习和 AI 应用。

此外,还存在专用于处理结构化和非结构化数据的现代数据整合平台。这些多用途整合工具可自动采集原始数据并组织数据,然后将处理后的数据迁移到目标数据库。这类功能大大减少了数据科学团队面向 AI 进行原始非结构化数据预处理的人工操作耗时。

非结构化数据分析技术

组织可以利用多种工具和技术,从非结构化数据中提取洞察分析。

AI 分析

AI 分析工具依赖人工智能快速处理大量数据的能力,这对于满足组织从海量非结构化数据集中发掘高价值洞察分析的需求至关重要。借助机器学习和自然语言处理,AI 算法可以筛选非结构化数据以寻找模式并执行实时预测或提出建议。这类分析模型还能集成至现有的仪表板或 API,以实现决策自动化。

文本挖掘

文本挖掘采用朴素贝叶斯支持向量机 (SVM) 和其他深度学习算法,帮助组织探索和发掘非结构化数据中的隐藏关系。文本挖掘运用了信息检索、信息提取、数据挖掘和自然语言处理等多种技术。

自然语言处理 (NLP)

NLP 应用机器学习技术来帮助计算机理解人类语言并与之交流。在非结构化数据分析方面,NLP 能够从非结构化文本数据(例如客户评论和社交媒体帖文)中提取洞察分析。它可以通过提供高级语言处理和理解(例如情感分析)来增强文本挖掘能力。

相关解决方案
数据库软件和解决方案

使用 IBM 数据库解决方案满足混合云中的各种工作负载需求。

深入了解数据库解决方案
采用 IBM Db2 的云原生数据库

深入了解 IBM Db2,这是一种关系数据库,为存储和管理结构化数据提供高性能、可扩展性和可靠性。该数据库在 IBM Cloud 上作为 SaaS 提供,也可以用于自托管。

探索 Db2
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取后续步骤

使用 IBM 数据库解决方案满足混合云中的各种工作负载需求。

深入了解数据库解决方案 深入了解 IBM Db2