什么是数据发现?

数据发现的定义

­­数据发现是从多个(通常是分散的)来源收集、评估和探索数据 的过程。它能帮助组织发现隐藏或孤立的数据, 确保所有有价值信息都能被关注和分析。

在数据发现过程中,数据专业人员从组织的数据库、应用程序、内部文件及其他存储库中识别并提取原始数据。他们通过称为数据画像的流程,检查数据的特征、格式、血缘关系、质量及潜在用途,为成功的数据摄取构建基础。数据发现过程中获得的洞见可用于指导并优化市场营销策略、客户体验和供应链运营等领域的商业决策。

探索性数据分析 (EDA) 是广泛采用的数据发现方法。EDA 通过部署统计方法和算法来调查数据集并总结其主要特征。这些发现帮助数据科学家确定如何最佳处理数据源以获得有价值的洞见。

除了帮助组织识别和利用所有数据源外,数据发现还能增强数据安全性、提高数据准确性,并支持遵守特定数据隐私法规。当结合人工智能 (AI) 和机器学习 (ML) 技术时,它能使组织对其数据资产拥有更强的可见性和控制力。

数据发现与传统数据分析

初看之下,数据发现与数据分析似乎含义相同。但实则是两种不同的数据管理流程,结合使用时效果最佳。

数据发现通常先行开展。这是一个探索性阶段,帮助组织定位并理解所有可用数据——包括孤立或隐藏的信息。在此阶段,分析师可能尚未明确知晓具体寻找的数据内容。

一旦发现数据,便可开始数据分析。该流程涉及使用特定技术与查询来解读数据,挖掘具有意义的洞见。

试以此类比:数据发现如同在厨房中搜寻食材(包括橱柜深处隐藏的原料)。数据分析则是运用发现的食材烹制营养优质的一餐。发现越彻底,成果越出色。

数据发现为何重要?

数据对现代企业至关重要。企业每日从跨部门、业务单元及地理区域的扩展化生态系统中收集海量信息。这些数据由不同用户处理,并存储于分散的数据仓库和员工设备中。

但当数据无处不在时,寻找、访问和使用变得愈发困难。实际上,据估算,有 68% 的企业数据未被利用。未能分析所有类型的数据将导致洞察遗漏与机遇错失。例如,若提升客户留存率的关键隐藏于会议纪要和邮件往来中,而销售团队仅依赖客户关系管理系统 (CRM) 中的数据,会如何?

不了解拥有哪些数据及其存储位置还会使组织面临风险,例如日益增多的个人数据隐私法规所带来的合规压力。数据发现既是隐私问题也是安全问题。若不知敏感数据所在,便无法妥善保护。  

数据发现的优势

数据发现帮助组织探索并利用所有可用数据,可带来以下益处:

  • 增强决策能力
  • 提升数据准确性与质量
  • 加强数据安全
  • 全面合规
增强决策能力

通过挖掘未开发数据,数据发现为数据探索开辟新途径。利益相关者可能发现隐藏的模式关联、可操作的洞察及新兴市场趋势。从而使企业能做出更明智的决策,并通过优化性能实现运营效率

提升数据准确性与质量

通过全面掌握组织数据清单,数据分析师更易识别数据质量问题(如数据不一致或异常值)。更高的准确度有助于减少数据分类过程中的误判。

加强数据安全

数据发现确保识别并定位组织内的所有敏感数据(如个人身份信息 (PII) 与知识产权)。这使得安全团队实施有针对性的网络安全措施。(更多信息参见“数据安全中的数据发现”。)

全面合规

定位所有数据存储位置可帮助组织理解数据血缘关系,并对敏感信息的保护、共享与访问应用特定规则。例如,数据发现能帮助组织判断数据何时适用于《通用数据保护条例》 (GDPR) 或《加州消费者隐私法案》 (CCPA)。

数据安全中的数据发现

未被发现和管理的数据(常称为“影子数据”)构成重大安全风险,尤其在包含敏感信息时。根据《IBM 2024 年 数据泄露成本报告》,涉及影子数据的数据泄露事件占全部事故的三分之一,平均造成 527 万美元损失——比报告计算的平均泄露成本高出 16%。

确保所有组织数据安全的核心在于理解数据如何及从何处进入网络、如何及在何处被共享与存储。因此,稳健的数据发现流程是数据安全和数据保护的关键要素。利用 AI 和 ML 训练系统自动识别含敏感数据的文件,能进一步提升这些工作的成效。

数据发现实践也有助于减少组织的整体攻击面。攻击面是指黑客可用来未经授权访问敏感数据或发动网络攻击的所有组织漏洞、路径或方法。通过数据发现,未使用或重复的数据被清除,仅保留最必要的敏感数据。随后组织可针对这些关键资产优先实施定制化的数据安全措施。

数据发现如何运作?

数据发现是技术流程、工具与策略的结合,可分为以下步骤:

  • 目标确定
  • 数据收集和整合
  • Data preparation
  • 数据可视化
  • 数据分析

目标确定

此初始步骤通常需要界定数据发现流程的目标。这些目标应与组织整体数据战略保持一致。在此阶段,高层管理者与业务单元负责人共同确定希望发现的洞察方向,从而指导数据探索工作。

数据收集和整合

接下来,通过查询数据库、提取远程文件或通过应用程序编程接口 (API) 检索数据等提取方法,从各类来源收集数据。收集到的数据经过摄取整合转换为统一一致的格式,存入数据目录(组织内数据资产的详细清单)。

数据准备

数据收集整合后,需经过多种质量保证流程以确保其不存在错误、不一致及其他数据完整性问题。准备工作可能包括数据验证数据清洗与标准化技术。

数据可视化

数据团队可为准备好的数据创建可视化呈现形式(如图表、图形、仪表板和信息图),通过用户友好界面展示复杂的数据关系。

数据分析

数据可视化工具甚至可能支持自助式分析。 这些工具允许非技术用户访问和分析可视化内容,助力数据驱动型决策。此阶段也可应用高级分析技术,通过预测建模等复杂方法生成预测结果。

在整个流程中,严格的数据治理有助于确保 数据完整性 与 数据安全性。它定义并实施关于数据收集、所有权、存储、处理及使用的政策、标准与规程。

AI 与 ML 数据发现工具

在数据发现中运用 AI、ML 和自然语言处理 (NLP) 技术,可为流程提升速度与智能水平。这些技术使组织对其数据拥有更强的可见性和控制力。主要示例与应用场景包括:

  • 自动数据发现:此类工具自动扫描网络设备和数据存储系统,近乎实时地索引新数据及元数据,以加速资产识别。

  • 自动数据分类:该功能基于预定义规则(如敏感级别、数据访问控制与合规规则)自动标记新数据。

  • 智能搜索AI 驱动的搜索利用 NLP 技术解读用户搜索查询、理解意图,随后返回相关数据结果。 AI 助手能提供直观的自然语言引导。

  • 非结构化数据 NLP:包含大型语言模型 (LLM) 在内的 NLP 工具,可从文档、电子邮件和聊天记录等非结构化数据源中提取结构化数据。

将 AI、ML 和 NLP 集成到数据发现工作流中,可加速洞察生成、提高准确性,并有助于加强法规遵从性。随着数据量持续增长,AI 驱动的数据发现将成为关键能力与竞争优势。

作者

Alexandra Jonker

Staff Editor

IBM Think

相关解决方案
IBM Guardium

保护组织最关键的数据,在不同环境中发现、监控并保护敏感信息,同时实现合规自动化并降低风险。

    深入了解 IBM Guardium
    数据安全解决方案

    在所有环境中保护组织数据,发现、分类、监控并保护敏感信息。

      探索数据安全解决方案
      数据安全服务

      IBM 提供全面的数据安全服务,以保护企业数据、应用程序和 AI。

      探索数据安全服务
      采取后续步骤

      在本地和云环境中持续发现、分类、保护和管理敏感数据,同时加强整体数据安全、合规管理和风险态势。

      1. 深入了解 Guardium Discover and Classify
      2. 探索数据安全解决方案