Think 时事通讯
您的团队能否及时捕获下一个零日?
加入安全领导者的行列,订阅 Think 时事通讯,获取有关 AI、网络安全、数据和自动化的精选资讯。快速访问专家教程和阅读解释器,我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明。
在数据发现过程中,数据专业人员从组织的数据库、应用程序、内部文件及其他存储库中识别并提取原始数据。他们通过称为数据画像的流程,检查数据的特征、格式、血缘关系、质量及潜在用途,为成功的数据摄取构建基础。数据发现过程中获得的洞见可用于指导并优化市场营销策略、客户体验和供应链运营等领域的商业决策。
探索性数据分析 (EDA) 是广泛采用的数据发现方法。EDA 通过部署统计方法和算法来调查数据集并总结其主要特征。这些发现帮助数据科学家确定如何最佳处理数据源以获得有价值的洞见。
除了帮助组织识别和利用所有数据源外,数据发现还能增强数据安全性、提高数据准确性,并支持遵守特定数据隐私法规。当结合人工智能 (AI) 和机器学习 (ML) 技术时,它能使组织对其数据资产拥有更强的可见性和控制力。
Think 时事通讯
加入安全领导者的行列,订阅 Think 时事通讯,获取有关 AI、网络安全、数据和自动化的精选资讯。快速访问专家教程和阅读解释器,我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明。
初看之下,数据发现与数据分析似乎含义相同。但实则是两种不同的数据管理流程,结合使用时效果最佳。
数据发现通常先行开展。这是一个探索性阶段,帮助组织定位并理解所有可用数据——包括孤立或隐藏的信息。在此阶段,分析师可能尚未明确知晓具体寻找的数据内容。
一旦发现数据,便可开始数据分析。该流程涉及使用特定技术与查询来解读数据,挖掘具有意义的洞见。
试以此类比:数据发现如同在厨房中搜寻食材(包括橱柜深处隐藏的原料)。数据分析则是运用发现的食材烹制营养优质的一餐。发现越彻底,成果越出色。
数据发现帮助组织探索并利用所有可用数据,可带来以下益处:
通过挖掘未开发数据,数据发现为数据探索开辟新途径。利益相关者可能发现隐藏的模式关联、可操作的洞察及新兴市场趋势。从而使企业能做出更明智的决策,并通过优化性能实现运营效率。
通过全面掌握组织数据清单,数据分析师更易识别数据质量问题(如数据不一致或异常值)。更高的准确度有助于减少数据分类过程中的误判。
数据发现确保识别并定位组织内的所有敏感数据(如个人身份信息 (PII) 与知识产权)。这使得安全团队实施有针对性的网络安全措施。(更多信息参见“数据安全中的数据发现”。)
定位所有数据存储位置可帮助组织理解数据血缘关系,并对敏感信息的保护、共享与访问应用特定规则。例如,数据发现能帮助组织判断数据何时适用于《通用数据保护条例》 (GDPR) 或《加州消费者隐私法案》 (CCPA)。
未被发现和管理的数据(常称为“影子数据”)构成重大安全风险,尤其在包含敏感信息时。根据《IBM 2024 年 数据泄露成本报告》,涉及影子数据的数据泄露事件占全部事故的三分之一,平均造成 527 万美元损失——比报告计算的平均泄露成本高出 16%。
确保所有组织数据安全的核心在于理解数据如何及从何处进入网络、如何及在何处被共享与存储。因此,稳健的数据发现流程是数据安全和数据保护的关键要素。利用 AI 和 ML 训练系统自动识别含敏感数据的文件,能进一步提升这些工作的成效。
数据发现实践也有助于减少组织的整体攻击面。攻击面是指黑客可用来未经授权访问敏感数据或发动网络攻击的所有组织漏洞、路径或方法。通过数据发现,未使用或重复的数据被清除,仅保留最必要的敏感数据。随后组织可针对这些关键资产优先实施定制化的数据安全措施。
数据发现是技术流程、工具与策略的结合,可分为以下步骤:
此初始步骤通常需要界定数据发现流程的目标。这些目标应与组织整体数据战略保持一致。在此阶段,高层管理者与业务单元负责人共同确定希望发现的洞察方向,从而指导数据探索工作。
数据团队可为准备好的数据创建可视化呈现形式(如图表、图形、仪表板和信息图),通过用户友好界面展示复杂的数据关系。
在数据发现中运用 AI、ML 和自然语言处理 (NLP) 技术,可为流程提升速度与智能水平。这些技术使组织对其数据拥有更强的可见性和控制力。主要示例与应用场景包括:
将 AI、ML 和 NLP 集成到数据发现工作流中,可加速洞察生成、提高准确性,并有助于加强法规遵从性。随着数据量持续增长,AI 驱动的数据发现将成为关键能力与竞争优势。