非结构化数据是指缺少预定义格式的信息。非结构化数据集的规模异常庞大（通常达到 TB 或 PB 级），且包含 90% 的企业生成数据。1

非结构化数据快速增长的驱动力是其广泛而多样化的数据源，包括文本文件、社交媒体、图像和音频文件、即时消息以及智能设备。如今，几乎所有产生的新数据都是非结构化形式：每条发送的消息、上传的照片或触发的传感器都会加剧数据量的膨胀。

与结构化数据（具有预定义数据模型的数据）不同，非结构化数据无法适应传统数据库的固定架构。相反，非结构化数据通常存储于文件系统、非关系型（或 NoSQL 数据库）或数据湖中。

非结构化数据的复杂性和不统一的数据结构同样需要更复杂的数据分析方法。机器学习 (ML) 和自然语言处理 (NLP) 等技术通常用于提取非结构化数据集中的洞察分析。

不久前，非结构化数据仍属于暗数据。非结构化数据的挑战（即数据规模庞大且缺乏统一性）导致其难以应用于多数业务用例。

然而，如今拥有大量非结构化数据的企业实则掌握着重要的战略资产。结构化和非结构化数据相互结合，共同构成了整个企业的完整数据视图。尤其在当前形势下，非结构化数据还能帮助企业释放生成式 AI (gen AI) 的全部潜力。