非结构化数据是指缺少预定义格式的信息。非结构化数据集的规模异常庞大(通常达到 TB 或 PB 级),且包含 90% 的企业生成数据。1
非结构化数据快速增长的驱动力是其广泛而多样化的数据源,包括文本文件、社交媒体、图像和音频文件、即时消息以及智能设备。如今,几乎所有产生的新数据都是非结构化形式:每条发送的消息、上传的照片或触发的传感器都会加剧数据量的膨胀。
与结构化数据(具有预定义数据模型的数据)不同,非结构化数据无法适应传统数据库的固定架构。相反,非结构化数据通常存储于文件系统、非关系型(或 NoSQL 数据库)或数据湖中。
非结构化数据的复杂性和不统一的数据结构同样需要更复杂的数据分析方法。机器学习 (ML) 和自然语言处理 (NLP) 等技术通常用于提取非结构化数据集中的洞察分析。
不久前,非结构化数据仍属于暗数据。非结构化数据的挑战(即数据规模庞大且缺乏统一性)导致其难以应用于多数业务用例。
然而,如今拥有大量非结构化数据的企业实则掌握着重要的战略资产。结构化和非结构化数据相互结合,共同构成了整个企业的完整数据视图。尤其在当前形势下,非结构化数据还能帮助企业释放生成式 AI (gen AI) 的全部潜力。
大多数非结构化数据均为文本数据:电子邮件消息、Word 文档、PDF、博客和社交媒体帖文。文本式非结构化数据还包括通话记录和消息文本文件,例如来自 Microsoft Teams 或 Slack 的数据。
但是,非结构化数据也可以包含非文本内容。非文本式非结构化数据的常见示例包括图像文件(如 JPEG、GIF 和 PNG)、多媒体文件、视频文件、移动设备活动和来自物联网 (IoT) 设备的传感器数据。
数据通常分为结构化、非结构化或半结构化数据,其分类依据为数据格式和架构规则。顾名思义,半结构化数据兼具结构化数据和非结构化数据的属性。以下是各类数据的简要概述:
结构化数据
非结构化数据
半结构化数据
非结构化数据占据企业产生的所有数据的大部分。它多样、灵活且充满洞察分析,其中一些可能不存在于结构化数据集中。虽然结构化数据仍然非常有价值,但当今大多数公司拥有的大量非结构化数据依然没有得到充分利用。
非结构化数据同样是现代 AI 的关键支撑。非结构化数据(包括公共和内部专有数据)可用于训练 AI 模型并优化模型性能。
生成式 AI 依赖深度学习模型,可识别和编码大量数据中的模式与关系。非结构化数据通常来自互联网,适用于提供训练所需的海量丰富且未标注的数据。
RAG 是一种架构,通过授予生成式 AI 模型访问额外的外部知识库(例如组织的内部非结构化数据)的权限来优化其性能。此过程可帮助模型适应特定领域的用例,确保其生成更精准的反馈。
情感分析可分析大量文本以确定其是否表达正面情感、负面情感或中立情感。作为了解客户行为的工具,情感分析利用客户跨数字渠道生成的大量非结构化文本数据。
企业采用预测性分析来预测未来结果,并借助历史数据来识别风险和机遇。例如,医疗保健组织可以通过挖掘健康记录(非结构化文本数据)来了解如何诊断和治疗特定疾病,并根据研究结果创建预测模型。
人工智能相关的非结构化数据用例正成为企业接纳 AI 创新的关注点。以生成式 AI 为例,这项技术正是 ChatGPT 等主流 AI 应用背后的驱动力。它从基础模型入手,通常采用大语言模型 (LLM)。
创建基础模型涉及使用大量非结构化数据(通常来自互联网)训练深度学习算法。这类非结构化数据丰富多样,能够教导 AI 模型理解上下文和细微差别。
然而,非结构化训练数据可能较为泛化,而非针对特定领域或组织,并且可能已经过时。最终模型可能难以响应提示要求,生成特定领域的反馈。
为了应对此类挑战,组织可以采用多种方式将预训练模型应用于特定用例或任务。其中一种方法是微调,即基于较小的特定任务数据集进行训练以定制基础模型。它需要高质量的结构化数据,通常为专有数据或专业的特定领域知识。
另一种方法——检索增强生成 (RAG) 则可合并非结构化数据。LLM 通常从其训练数据中获取信息,而 RAG 向 AI 工作流添加信息检索组件,借此收集相关数据并将其输入模型以提高响应质量。这些数据包括内部非结构化数据集。
与微调相比,RAG 在响应生成过程中会不断检索最新信息,从而确保结果更及时、更准确。它可以将 AI 项目从停滞不前的泛化状态,转变为定制化、高度相关且具备实际影响力的解决方案。
与结构化数据类似,非结构化数据在应用于 AI 之前也需要进行适当的数据治理和和数据管理。需要对数据进行分类、评估数据质量、筛选 PII 并 去重。
借助正确的工具以及 AI 的支持,企业就能转换非结构化数据并确保其可用性。如今,了解如何打破数据混乱的局面并建立秩序已成为企业竞争的差异化优势,以及推进企业生成式 AI 部署的催化剂。
非结构化数据通常以其原生格式存储,这扩大了存储选择。一些常见的非结构化数据存储环境包括:
存储非结构化数据后,通常需要对其进行处理,才能有效应用于下游用例,例如商业智能或非结构化数据分析。
部分组织利用开源框架来处理大型非结构化数据集。例如,Apache Hadoop 通常集成于数据湖架构中,以实现非结构化和半结构化数据(例如流式音频和社交媒体情感)的批处理。Apache Spark 也是一个开源的大数据处理框架。不过,Spark 采用内存处理技术且速度快如闪电,因此更适合机器学习和 AI 应用。
此外,还存在专用于处理结构化和非结构化数据的现代数据整合平台。这些多用途整合工具可自动采集原始数据并组织数据,然后将处理后的数据迁移到目标数据库。这类功能大大减少了数据科学团队面向 AI 进行原始非结构化数据预处理的人工操作耗时。
组织可以利用多种工具和技术,从非结构化数据中提取洞察分析。
使用 IBM 数据库解决方案满足混合云中的各种工作负载需求。
深入了解 IBM Db2,这是一种关系数据库,为存储和管理结构化数据提供高性能、可扩展性和可靠性。该数据库在 IBM Cloud 上作为 SaaS 提供,也可以用于自托管。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
1 “未开发的价值:每位高管都需要了解的非结构化数据相关信息”,IDC,2023 年 8 月。