什么是数据丢失防护 (DLP)?

作者

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

什么是数据丢失防护 (DLP)?

数据丢失防护 (DLP) 是一门利用网络安全策略、流程和技术保护敏感数据免遭盗窃、丢失和滥用的学科。

数据是许多企业的竞争差异化优势 。典型的企业网络包含大量商业秘密、销售记录、客户个人数据和其他敏感信息。黑客攻击的目标就是这些数据,而企业往往很难保证其关键数据的安全。

与此同时,每天有数百甚至数千名授权用户通过云存储和本地部署存储库访问企业数据。防止数据丢失,同时方便授权访问,是大多数组织的首要任务。

数据丢失防护 (DLP) 通过跟踪整个网络中的数据并对数据实施安全策略,帮助组织阻止数据泄漏和丢失。安全团队致力于确保只有正确的人才能以正确的理由访问正确的数据。

数据丢失防护 (DLP) 解决方案在数据包通过网络移动时对其进行检查,从而检测信用卡卡号、医疗保健数据、客户记录和知识产权等机密信息的使用情况。这样,组织就可以对每种类型的数据应用正确的访问控制和使用策略。

您的团队能否及时捕获下一个零日?

加入安全领导者的行列,订阅 Think 时事通讯,获取有关 AI、网络安全、数据和自动化的精选资讯。快速访问专家教程和阅读解释器,我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明

您的订阅将以英语提供。每份时事通讯都包含取消订阅链接。您可以在此处管理订阅或取消订阅。更多相关信息,请参阅我们的 IBM 隐私声明

https://www.ibm.com/cn-zh/privacy

DLP 为何重要

无论数据存储在何处都会面临风险,因此,信息保护成为了组织的重要优先任务。如果失败,则可能会付出高昂的代价。IBM 最新发布《数据泄露成本报告》显示,全球数据泄露的平均成本较去年增长了 10%,达到 488 万美元,为新冠疫情以来的最大增幅。

尤其是个人身份信息 (PII) 对窃贼来说非常有价值,经常成为盗取目标。《数据泄露成本报告》还发现,接近半数的泄露事件涉及客户 PII,其中包括税务识别 (ID) 号、电子邮件地址、电话号码和家庭住址。紧随其后的是知识产权 (IP) 记录,43% 的泄露事件涉及了这类数据。

保护数据正变得越来越困难,因为组织中的各个利益相关者可能会以多种格式、在多个位置使用或存储组织的数据。此外,根据敏感度级别或相关数据隐私法规,不同数据集需要遵循的规则可能有所不同。

DLP 策略和工具通过监控整个网络中所有三种状态(使用中、动态和静态)的每一条数据来帮助组织进行自我保护。

  • 使用中的数据:这是指访问、处理、更新或删除数据的情况。例如,用于分析或计算的组织数据或最终用户编辑的文本文档。

  • 动态数据:也称为传输中的数据,是指在网络中移动的数据,例如由事件流服务器或消息传递应用程序传输的数据,或在网络之间移动的数据。动态数据是三种状态中最不安全的情况,需要特别注意。

  • 静态数据:这是指存储中的数据,例如云驱动器、本地硬盘驱动器或存档中的数据。一般来说,静态数据更容易保护,但仍需采取安全措施。静态数据 可以通过以下简单行为来泄露:例如有人从无人看管的办公桌上拿起 USB 闪存驱动器。 

理想情况下,组织的数据丢失防护解决方案能够监控正在使用的各种软件的所有使用中的、动态和静态数据。例如,为归档、商业智能 (BI) 应用程序、电子邮件、团队合作以及 macOS 和 Microsoft Windows 等操作系统添加 DLP 保护。

数据丢失的类型

数据丢失事件通常被描述为数据泄露、数据外泄或数据渗漏。这些术语有时可以互换使用,但它们具有不同的含义。

  • 数据泄露数据泄露是指导致未经授权访问机密或敏感信息的安全事件。无论是网络攻击还是其他安全事件,一旦有任何未经授权方获取了敏感数据或机密信息,都属于数据泄露。

  • 数据泄露:这是敏感数据或机密信息意外暴露给公众。数据泄漏可能源于技术安全漏洞或程序安全错误,也可能包括电子和物理传输。

  • 数据渗漏渗漏是指窃取数据。当攻击者将他人的数据移动或复制到攻击者控制的设备上时,就属于窃取行为。所有数据渗漏都需要数据外泄或数据泄露,但并非所有数据外泄或数据泄露都会导致数据渗漏。

数据丢失的原因

有些丢失是由简单的错误引起的,有些则是由分布式拒绝服务 (DDos) 攻击、网络钓鱼等网络攻击造成的。几乎所有数据丢失都会造成严重的业务中断。

一些最常见的数据丢失原因包括:

  • 人为错误和社会工程
  • 内部威胁
  • 恶意软件
  • 物理威胁
  • 安全漏洞
  • 智能手机或个人电脑失窃
  • 凭据薄弱或被盗

人为错误和社会工程

数据窃贼利用各种手段,诱使人们分享他们不该分享的数据。 社会工程 可以很巧妙,例如网络钓鱼攻击,说服员工通过电子邮件发送机密数据;也可以很狡猾,例如将受恶意软件感染的 USB 闪存驱动器放在员工可能找到的地方并将其插入组织提供的设备中。

另一方面,人为错误可能很简单,例如将智能手机留在收银台或错误地删除文件。

内部威胁

授权用户(包括员工、承包商、利益相关者和提供商)可能会因粗心大意或出于恶意意图使数据面临风险。

恶意内部人员的动机往往是出于个人利益或对公司不满。 内部威胁 可能是无意中产生的,比如因为粗心大意没有更改密码这种简单的行为,或者在使用公开的 生成式 AI (gen AI) 时暴露了企业敏感数据这种危险行为。
 
恶意内部攻击很常见,而且代价高昂。IBM 最新发布的 《数据泄露成本报告》 发现,与其他攻击媒介相比,恶意内部攻击造成的损失最高,平均达 499 万美元。

恶意软件

专门用来危害计算机系统或其用户的软件。最著名的数据威胁恶意软件是 勒索软件 , 对数据进行加密,使其无法被访问,并要求为解密密钥支付赎金。有时还要求支付第二笔赎金,以防止数据渗漏或与其他网络罪犯共享。

物理威胁

硬盘驱动器故障可能会造成灾难性后果,具体取决于组织的数据备份是否完善。原因可能是磁头碰撞或软件损坏。如果在办公室里打翻了一杯清凉的饮品,比如咖啡、茶、苏打水或水,可能会导致电脑的系统板短路,而且这种情况几乎随时可能会发生。电源中断可能导致系统在错误甚至最坏的时间停机,而工作保存或传输过程可能会因此中断。

安全漏洞

漏洞是应用程序、设备、网络或其他 IT 资产的结构、代码或实施中有黑客可以利用的弱点或缺陷。其中包括编码错误、配置错误、 零日漏洞 (未知或尚未修补的弱点)或过时软件,例如旧版本的 MS Windows。

智能手机或个人电脑失窃

任何无人看管的数字设备(放在桌子、汽车或公共汽车座位上)都可能成为诱人的目标,并授予窃贼访问网络和访问数据的权限。即使窃贼只想出售设备以换取现金,组织仍会因关闭设备访问权限和更换设备而遭受损失。

凭据薄弱或被盗

包括黑客可以轻易猜到的密码,或者黑客或网络罪犯可能会窃取的其他凭据,例如身份证。

数据丢失防护策略和原则

DLP 政策可涵盖多个主题,包括数据分类、访问控制、加密标准、数据保留和处置实践、事件响应协议以及技术控制,如防火墙、入侵检测系统和防病毒软件。

数据保护政策的主要好处是设定了明确的标准。员工知道自己有责任保护敏感信息,并经常接受有关数据安全实践的培训,如识别网络钓鱼企图、安全处理敏感信息和及时报告安全事件。

此外,数据保护策略可以通过为数据相关活动(如访问请求、用户配置、事件报告和执行安全审计)提供清晰的流程来提高运营效率。

信息安全团队通常不会为所有数据制定单一的策略,而是为其网络中不同类型的数据创建不同的策略。这是因为不同类型的数据通常需要针对不同用例进行不同处理,以满足合规需求并避免干扰授权最终用户的认可行为。

例如,个人身份信息 (PII)(例如信用卡号、社会保险号以及家庭住址和电子邮件地址)受要求正确处理的数据安全法规的约束。

但是,公司可能会使用自己的知识产权 (IP) 自由行事。此外,需要访问 PII 的人可能与需要访问公司 IP 的人不同。

两种数据都需要保护,但保护方式不同;因此,需要针对每种数据类型定制不同的 DLP 策略。

DLP 解决方案的类型

组织可以使用 DLP 解决方案来监控网络活动、识别和标记数据,通过执行 DLP 策略来防止滥用或盗窃。

DLP 解决方案主要分为三种类型:

  • 网络 DLP
  • 端点 DLP
  • 云 DLP

网络 DLP

网络 DLP 解决方案重点关注数据如何通过、传入和传出网络。这些解决方案经常使用 人工智能 (AI) 和 机器学习 (ML) 来检测可能预示着数据泄露或丢失的异常流量。虽然网络 DLP 工具旨在监控动态数据,但许多工具也可以提供对网络上正在使用的数据和静态数据的可见性。

端点 DLP

端点 DLP 工具监控笔记本电脑、服务器、移动设备和访问网络的其他设备的活动。这些解决方案直接安装在其监控的设备上,可以阻止用户在这些设备上执行违禁操作。一些端点 DLP 工具还可以阻止设备之间未经批准的数据传输。

云 DLP

云安全解决方案专注于云服务中存储和访问的数据。它们可以扫描、分类、监控和 加密 云存储库中的数据。这些工具还可以协助执行访问控制策略,以控制个人最终用户和可能访问公司数据的任何云服务。

组织可以根据自己的需求以及数据的存储方式选择使用一种解决方案或多种解决方案的组合。所有解决方案都有一个明确的目标:保护所有敏感数据。

DLP 的工作原理

安全团队通常在整个数据生命周期中遵循 4 步流程,借助 DLP 工具将 DLP 策略付诸实践:

  • 数据识别和分类
  • 数据监控
  • 应用数据保护
  • 记录和报告 DLP 工作

数据识别和分类

首先,组织对其所有结构化和非结构化数据进行分类。

  • 结构化数据是具有标准化形式的数据,例如信用卡号。它通常有明确的标签并存储在数据库中。

  • 非结构化数据是自由形式的信息,如文本文档或图像,可能无法在中央数据库中整齐地组织起来。

安全团队通常使用 DLP 工具扫描整个网络,以发现存储在云中、物理端点设备上、员工个人设备上以及其他地方的数据。

接下来,组织会对这些数据进行分类,根据敏感程度和共同特征将其分门别类。对数据进行分类使组织能够将正确的 DLP 策略应用于正确类型的数据。

例如,一些组织可能会根据类型对数据进行分组,如财务数据、营销数据或知识产权。其他组织可能会根据相关法规对数据进行分组,例如《通用数据保护条例》(GDPR)California Consumer Privacy Act (CCPA)

许多 DLP 解决方案可以自动进行数据分类。这些工具可以使用 AI、机器学习和模式匹配来分析结构化和非结构化数据,以确定数据的类型、敏感程度以及适用的策略。

数据监控

对数据进行分类后,安全团队将监控数据的处理方式。DLP 工具可以使用多种技术来识别和跟踪正在使用的敏感数据。这些技术包括:

  • 内容分析,例如使用 AI 和机器学习来解析电子邮件以获取机密信息。 

  • 数据匹配,例如将文件内容与已知敏感数据进行比较。

  • 检测标签,标记和明确标识文件为敏感文件的其他元数据。有时也称为“数据指纹”。

  • 文件匹配,其中 DLP 工具比较受保护文件的哈希值(即文件标识)。

  • 关键字匹配:使用 DLP 查找敏感数据中经常出现的关键字。

  • 模式匹配,例如查找遵循特定格式的数据。例如,American Express 卡号始终为 15 位数字,以“3”开头。但并非所有此类数字都适用于 AmEx,因此 DLP 解决方案还可以查找附近的公司名称、缩写或到期日期。

当 DLP 工具发现敏感数据时,它会查找策略违规行为、异常用户行为、系统漏洞以及其他潜在数据丢失的迹象,包括:

  • 数据泄露,例如用户尝试与组织外部的人员共享机密文件。

  • 未经授权的用户试图访问关键数据或执行未经批准的操作,如编辑、删除或复制敏感文件。

  • 恶意软件签名、来自未知设备的流量或其他恶意活动指标。

 

应用数据保护

当 DLP 解决方案检测到策略违规行为时,它们可以通过实时修复措施进行响应。例如:

  • 在数据通过网络传输时对其进行加密。

  • 终止未经授权的数据访问。

  • 阻止未经授权的传输和恶意流量。

  • 警告违反策略的用户。

  • 标记可疑行为以供安全团队审查。

  • 在用户与关键数据交互之前,发起更多身份验证挑战。

  • 对资源执行最低权限访问,例如在零信任环境中。

一些 DLP 工具还有助于数据恢复,可以自动备份信息,以便在丢失后恢复。

组织还可以采取更积极的措施来执行 DLP 策略。有效的身份和访问管理 (IAM),包括基于角色的访问控制策略,可以限制仅正确的人员才能访问数据。对员工进行数据安全要求和最佳实践培训有助于防止意外数据丢失和泄露。

记录和报告 DLP 工作

DLP 工具通常具有仪表板和报告功能,安全团队可以使用它们来监控网络中的敏感数据。这种文档使安全团队能够随着时间的推移跟踪 DLP 项目的绩效,以便根据需要调整政策和策略。

DLP 工具还可以通过保存数据安全工作的记录来帮助组织遵守相关法规。如果发生网络攻击或需要接受审计时,组织可以使用这些记录来证明自己遵循了适当的数据处理程序。

DLP 和监管合规

DLP 策略通常与合规工作相结合。许多组织专门制定 DLP 策略,以遵守《通用数据保护条例》(GDPR)、《加州消费者隐私法案》(CCPA)、《健康保险流通和责任法案》(HIPAA) 和《支付卡行业数据安全标准》(PCI-DSS) 等规则。

不同的法规对不同类型的数据施加不同的标准。例如,HIPAA 规定了个人健康信息的规则,而 PCI-DSS 规定了组织如何处理支付卡数据。收集这两种数据的公司可能需要为每种类型的数据制定单独的 DLP 策略,以满足合规性要求。

许多 DLP 解决方案包括预先编写的 DLP 策略,这些策略与公司需要满足的各种数据安全和数据隐私标准相符。

DLP 的趋势

从生成式 AI 的兴起到不断出现的法规,有几个因素正在改变数据环境。反过来,DLP 策略和工具也需要通过不断发展来适应这些变化。以下是 DLP 最显著的几个趋势:

  • 混合和多云环境
  • 生成式 AI
  • 加强监管
  • 移动劳动力和远程办公
  • 影子 IT 和影子数据

混合和多云环境

许多组织现在在本地和多个云中存储数据,甚至可能在多个国家或地区。这些措施可能会增加灵活性和成本节约,但也会增加数据保护的复杂性。

例如,《数据泄露成本报告》发现,40% 的泄露事件发生在将数据存储在多个环境中的组织。

生成式 AI

顾名思义,大型语言模型 (LLM) 是大型的语言模型,它们需要消耗大量的数据,组织必须对这些数据进行存储、跟踪和保护,以防范提示注入等威胁。Gartner 预测:“到 2027 年,17% 的网络攻击/数据泄露事件将涉及生成式 AI。”1

加强监管

随着大规模数据泄露和社交媒体滥用,对政府和行业监管的呼声越来越高,这会增加系统和合规性验证的复杂性。欧盟《AI 法案》CCPA 关于 AI 的规则草案等最新进展正在实施一些迄今为止最严格的数据隐私和保护规则。

移动劳动力和远程办公

与管理建筑物或网络中的数据相比,为移动劳动力或远程工作者提供系统访问权限难度更大,因为通信和访问问题会使 IT 人员的工作量成倍增加。

此外,远程工作者有时会有多个雇主或合同,因此“交叉关系”可能会造成更多数据泄露。Gartner 预测,“到 2026 年底,技术民主化、工作数字化和自动化将使完全远程和混合工作者的整个可用市场占总员工的 64%,而 2021 年为 52%。” 1

影子 IT 和影子数据

随着员工越来越多地在工作中使用个人硬件和软件,这种不受管理的影子 IT 给组织带来了重大风险。

员工可能会在个人云存储帐户上共享工作文件、在未经授权的视频会议平台上开会或在未经 IT 批准的情况下创建非官方群聊。Dropbox、Google Drive 和 Microsoft OneDrive 的个人版本可能会给 IT 团队带来安全问题。

企业还面临着影子数据增加的问题,影子数据是指企业网络中 IT 部门不了解或无法管理的数据。影子数据的激增是导致数据泄露的一个主要因素。根据《数据泄露成本报告》,35% 的泄露事件涉及影子数据。

相关解决方案
数据安全和保护解决方案

保护多个环境中的企业数据,遵守隐私法规并降低操作复杂性。

    探索数据安全解决方案
    IBM® Guardium

    了解 IBM Guardium,这是一系列数据安全软件,可保护敏感的本地数据和云端数据。

     

      深入了解 IBM Guardium
      数据安全服务

      IBM 提供全面的数据安全服务,以保护企业数据、应用程序和 AI。

      探索数据安全服务
      采取后续步骤

      利用数据安全解决方案,跨混合云保护组织的数据,并简化合规要求。

      探索数据安全解决方案 预约实时演示
      脚注

      1 预测分析:全球信息安全与风险管理。 Gartner。2024 年 2 月 29 日。