什么是标记化?

作者

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

什么是标记化?

数据安全中,令牌化是指将敏感数据转换为非敏感数字替代项(称为令牌)并映射回原始数据的过程。

令牌化有助于保护敏感信息。例如,可以将敏感数据映射到令牌并放在数字保管库中以进行安全存储。然后,令牌就可以充当相应数据的安全替代项。令牌本身不属于敏感信息,如果不连接到数据保管库就没有任何用处或价值。

您的团队能否及时捕获下一个零日?

加入安全领导者的行列,订阅 Think 时事通讯,获取有关 AI、网络安全、数据和自动化的精选资讯。快速访问专家教程和阅读解释器,我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明

您的订阅将以英语提供。每份时事通讯都包含取消订阅链接。您可以在此处管理订阅或取消订阅。更多相关信息,请参阅我们的 IBM 隐私声明

https://www.ibm.com/cn-zh/privacy

什么是令牌?

数字令牌是一类字符集合,充当了某些其他资产或信息的标识符。例如,可以使用令牌“ot&14%Uyb”替换机密报告中的年度费用数字 45,500,000 美元。

令牌也出现在自然语言处理 (NLP) 中,尽管该领域的概念略有不同。在 NLP 中,令牌是指机器可以理解的单个语言单位,通常是一个单词或单词的一部分。

不同类型的令牌化可生成不同类型的令牌。常见令牌包括:

  • 不可逆令牌就是指无法转换回其原始值的令牌。不可逆令牌通常用于数据匿名化,这使得令牌化后的数据集可以用于第三方分析或在较不安全的环境中使用。

  • 可逆令牌可以通过去令牌化转换回其原始数据值。当人员和系统需要访问原始数据时,可逆令牌非常有用。例如,在发放退款时,支付处理商可能需要将支付令牌转换回实际的支付卡详细信息。

  • 格式保留令牌与其替换的数据具有相同的格式。例如,格式为 1234-1234-1234-1234 的信用卡号的令牌可能为 8493-9756-1986-6455。格式保留令牌有助于确保数据结构保持不变(即使在令牌化后也是如此),因此有助于实现业务连续性。得益于这种稳定的结构,令牌更有可能同时兼容传统软件和更新后的软件。

  • 使用令牌化来保护敏感信息的支付系统具有高价值和低价值的令牌。高价值令牌 (HVT) 可在交易中替代主账号 (PAN),使其能够自行完成交易。低价值令牌 (LVT) 可替代 PAN,但 不能完成交易。LVT 必须映射到有效的 PAN。
屏幕截图显示了原始客户记录和令牌化版本。
客户记录令牌化示例

令牌化的工作原理

令牌化系统往往包含以下组件:

1. 令牌生成器,可通过多种技术中的一种创建令牌。这些技术可以包括不同的函数:

  • 在数学上可逆的加密函数使用强大的加密算法,可以通过相关的加密密钥进行反向解密。

  • 单向、不可逆的加密函数,例如哈希函数。

  • 随机数生成器,用于创建随机令牌,通常被视为最强大的令牌值生成技术之一。

2.令牌映射过程,将新创建的令牌值分配给原始值。建立了一个安全的交叉引用数据库,用于跟踪令牌与真实数据之间的关联。该数据库保存在安全的数据存储中,因此只有授权用户才能访问它。

3. 令牌数据存储令牌保管库,用于存储原始值及其相关的令牌值。为了提高安全性,存储在保管库中的数据通常经过加密。保管库是将令牌连接回其原始值的唯一位置。

4. 加密密钥管理器,用于跟踪和保护用来加密保管库中的数据、传输中的令牌或是令牌化系统中的其他数据和资产的任何加密密钥。

也可以在没有保管库的情况下进行令牌化。无保管库令牌化不是将敏感信息存储在安全的数据库中,而是使用加密算法从敏感数据生成令牌。同一算法可以用来逆转该过程,将令牌转换回原始数据。大多数可逆令牌不需要将原始敏感信息存储在保管库中。

当使用第三方令牌化服务提供商时,原始敏感数据可能会从企业的内部系统中移除,转移到第三方的存储中,并被令牌所替代。这种替代有助于降低企业内部数据泄露的风险。令牌本身通常存储在企业内部,以简化正常运营。

令牌化实际应用示例

  1. 要在政府官方网站上注册帐户,用户必须输入社会安全号码 (SSN)。

  2. 网站会将社会保障号发送到令牌化服务。令牌化服务会生成一个代表 SSN 的令牌,并将实际 SSN 存储在一个安全的保管库中。

  3. 令牌化服务会将令牌发送回网站。该网站仅存储非敏感令牌。

  4. 当网站需要使用原始 SSN 时(例如,在以后的访问中确认用户身份),会将令牌发送回令牌化服务。该服务会将令牌与其保管库中的正确 SSN 进行匹配,以确认用户身份。

令牌化的用例和优点

令牌化方法可以为众多行业和业务职能中多种类型的数据提供额外的数据保护。

数据安全

数据令牌化让组织能够从其内部数据系统中移除或隐藏任意或所有敏感数据元素。这样一来,黑客可以窃取的有价值数据就会少之又少,这有助于组织减少容易导致数据泄露的漏洞。

令牌化通常用于保护敏感的商业数据和个人身份信息 (PII),例如护照号码或社会保障号码。在金融服务、营销和零售领域,令牌化通常用于保护持卡人数据和账户信息。

每条敏感信息都会获得自己的唯一标识符。在大多数中间数据使用(即,在收集敏感数据之后,但在最终处置之前使用)中,这些令牌可以替代真实数据,而无需进行去令牌化。

令牌化还可以帮助组织满足合规性要求。例如,许多医疗保健组织使用令牌化来帮助符合《健康保险可携带性和责任法案》(HIPAA) 所规定的数据隐私规则。

一些访问控制系统也使用数字令牌。例如,在基于令牌的身份验证协议中,用户验证其身份后,获得一个访问令牌,凭此令牌可以访问受保护的服务和资产。许多应用程序编程接口 (API) 都以这种方式使用令牌。

数字支付

银行、电子商务网站和其他应用程序经常通过令牌化来保护银行账号、信用卡号和其他敏感数据。

在付款处理过程中,令牌化系统可以用支付令牌替换信用卡信息、主账号 (PAN) 或其他财务数据。

这种令牌化过程可消除购买与财务信息之间的联系,从而保护客户的敏感数据免遭恶意行为者利用。

自然语言处理 (NLP)

令牌化是自然语言处理 (NLP) 中使用的一种预处理技术。NLP 工具通常以语言单位处理文本,例如单词、从句、句子和段落。因此,NLP 算法必须首先将大型文本分割成 NLP 工具可以处理的较小令牌。这些令牌以算法可以理解的方式表示文本。

此插图显示了 NLP 算法如何将文本分解成一系列令牌。
此插图显示了 NLP 算法如何将文本分解成一系列令牌。

合规性要求

数据令牌化可以帮助组织遵守政府监管要求和行业标准。许多组织使用令牌化作为一种非破坏性模糊化形式来保护 PII。

例如,支付卡行业数据安全标准 (PCI DSS) 要求企业满足网络安全要求,以保护持卡人数据。为遵守这些要求,组织可以采取的措施之一是将主账号令牌化。令牌化还可以帮助组织遵守欧盟通用数据保护条例 (GDPR) 规定的数据隐私规则。

资产令牌化

无论是有形资产还是无形资产,都可以用令牌来代表。令牌化资产的移动或交易往往比实际资产更安全、更轻松,让组织能够自动处理交易、简化运营方式并提高资产流动性。

由令牌表示的有形资产可能包括艺术品、设备或房地产。无形资产包括数据、知识产权或是承诺投资回报率的证券令牌(类似于债券和股权)。非同质化令牌 (NFT) 可用于购买艺术品、音乐和数字收藏品等数字资产。

区块链

基于令牌的区块链技术能够通过一次交易实现所有权和价值的转移,而不像传统方法那样在交易时间与结算之间可能会有延迟。智能合约可以帮助区块链上的令牌转让和其他交易实现自动化

加密货币可以使用加密令牌将其区块链上的资产或权益令牌化。有资产支持的令牌被称为稳定币,可以消除中介和托管账户,从而优化业务流程。

令牌化与加密的对比

令牌化用不敏感(在其他情况下无用)的字符串替代敏感数据。加密技术通过对数据进行编码搅乱,使其仅能通过称为解密密钥的私钥进行还原解码。

令牌化和加密都有助于保护数据,但它们通常适用于不同的用例。令牌化在原始数据很容易被替换的情况下很常见,例如存储定期付款的付款数据。加密在原始数据的访问很重要的情况下很常见,例如保护静态数据和传输中的数据。

与加密相比,令牌化过程可以占用更少的资源。令牌化只需用非敏感令牌替换数据,而加密系统需要经常在使用数据时进行加密和解密,其成本可能会变得很高。

相关解决方案
数据安全和保护解决方案

保护多个环境中的企业数据,遵守隐私法规并降低操作复杂性。

    探索数据安全解决方案
    IBM® Guardium

    了解 IBM Guardium,这是一系列数据安全软件,可保护敏感的本地数据和云端数据。

     

      深入了解 IBM Guardium
      数据安全服务

      IBM 提供全面的数据安全服务,以保护企业数据、应用程序和 AI。

      探索数据安全服务
      采取后续步骤

      利用数据安全解决方案,跨混合云保护组织的数据,并简化合规要求。

      探索数据安全解决方案 预约实时演示