什么是标记化?

彩色方块图片

作者

James Holdsworth

Content Writer

Matthew Kosinski

Staff Editor

IBM Think

什么是标记化?

数据安全中,令牌化是指将敏感数据转换为非敏感数字替代项(称为令牌)并映射回原始数据的过程。

令牌化有助于保护敏感信息。例如,可以将敏感数据映射到令牌并放在数字保险库中以进行安全存储。然后,令牌就可以充当相应数据的安全替代项。令牌本身不属于敏感信息,如果不连接到数据保险库就没有任何用处或价值。

男子正在看电脑

增强安全情报


每周在 Think 时事通讯中获取有关安全、AI 等的新闻和洞察分析,从而预防威胁。

什么是令牌?

数字令牌是一类字符集合,充当了某些其他资产或信息的标识符。例如,可以使用令牌“ot&14%Uyb”替换机密报告中的年度费用数字 45,500,000 美元。

令牌也出现在自然语言处理 (NLP) 中,不过该领域的这一概念略有不同。在 NLP 中,令牌是指机器可以理解的单个语言单位,通常是一个单词或单词的一部分。

不同类型的令牌化可生成不同类型的令牌。常见令牌包括:

  • 不可逆令牌是指无法转换回其原始值的令牌。不可逆令牌常用于数据匿名化,让令牌化数据集可以用于第三方分析或不太安全的环境。

  • 可逆令牌可通过去令牌化转换回其原始数据值。在人员和系统需要使用原始数据的情况下,可逆令牌非常有用。例如在发放退款时,支付处理商可能需要将支付令牌转换回实际的支付卡详细信息。

  • 格式保留令牌与其替换的数据具有相同的格式。例如,格式为 1234-1234-1234-1234 的信用卡号的令牌可能是 8493-9756-1986-6455。格式保留令牌有助于确保数据结构保持不变(即使在令牌化后也是如此),因此有助于实现业务连续性。得益于这种稳定的结构,令牌更有可能同时兼容传统软件和更新后的软件。

  • 在通过令牌化来保护敏感信息的支付系统中,令牌也有高价值和低价值之分。高价值令牌 (HVT) 可在交易中替代主账号 (PAN),使其能够自行完成交易。低价值令牌 (LVT) 可替代 PAN,但不能完成交易。低价值令牌必须映射到有效的 PAN。

令牌化的工作原理

令牌化系统往往包含以下组件:

1. 令牌生成器,可通过多种技术中的一种创建令牌。这些技术可能包含不同的函数:

  • 数学上可逆的加密函数,使用强大的加密算法,可通过关联的加密密钥进行逆转。

  • 单向、不可逆的加密函数,例如哈希函数。

  • 随机数生成器,用于创建随机令牌——通常被视为最强大的令牌值生成技术之一。

2. 将新创建的令牌值分配给原始值的令牌映射过程。该过程会创建一个安全的交叉引用令牌数据库,用于跟踪令牌与真实数据之间的关联。此令牌数据库保存在安全的数据存储中,只有授权用户才能访问。

3. 保存原始值及其相关令牌值的令牌数据存储库令牌保险库。存储在保险库中的数据通常会进行加密以提高安全性。保险库是将令牌连接回其原始值的唯一位置。

4. 加密密钥管理器,用于跟踪和保护用来加密保险库中的数据、传输中的令牌或是令牌化系统中的其他数据和资产的任何加密密钥。

也可以在没有保险库的情况下进行令牌化。无保险库令牌化不是将敏感信息存储在安全的数据库中,而是使用加密算法从敏感数据生成令牌。同一算法可以用来逆转该过程,将令牌转换回原始数据。大多数可逆令牌不需要将原始敏感信息存储在保险库中。

当使用第三方标记化提供商时,原始敏感数据可能会从企业内部系统中移除,移动到第三方存储空间并用令牌替换。这种替代有助于降低企业内部数据泄露的风险。令牌本身通常存储在企业内部,以简化正常运营。

令牌化实际应用示例

  1. 要在政府官方网站上注册帐户,用户必须输入社会安全号码 (SSN)。

  2. 网站将社会安全号码发送到令牌化服务。令牌化服务会生成代表 SSN 的令牌,并将实际 SSN 存储在安全的保险库中。

  3. 令牌化服务将令牌发送回网站。网站仅存储不属于敏感信息的令牌。

  4. 当网站需要使用原始 SSN 时(例如,在以后的访问中确认用户身份),会将令牌发送回令牌化服务。该服务会将令牌与其保险库中的正确 SSN 进行匹配,以确认用户身份。
Mixture of Experts | 8 月 28 日,第 70 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

令牌化的用例和优点

令牌化方法可以为众多行业和业务职能中多种类型的数据提供额外的数据保护

数据安全

数据令牌化让组织能够从其内部数据系统中移除或隐藏任意或所有敏感数据元素。这样一来,黑客可以窃取的有价值数据就会少之又少,这有助于组织减少容易导致数据泄露的漏洞。

令牌化常用于保护敏感的业务数据和个人身份信息 (PII),例如护照号码或社会安全号码。在金融服务、营销和零售领域,令牌化常用于保护持卡人数据和帐户信息。

每条敏感信息都会获得自己的唯一标识符。在大多数中间数据使用(即,在收集敏感数据之后,但在最终处置之前使用)中,这些令牌可以替代真实数据,而无需进行去令牌化。

此外,令牌化还可以帮助组织满足合规要求。例如,许多医疗保健组织借助令牌化来满足《健康保险流通和责任法案》(HIPAA) 规定的数据隐私规则。

一些访问控制系统也会使用数字令牌。例如,在基于令牌身份验证协议中,用户完成身份验证之后即可获得访问令牌,可以使用该令牌来访问受保护的资产和服务。许多应用程序编程接口 (API) 以这种方式使用令牌。

数字支付

银行、电子商务网站和其他应用程序经常通过令牌化来保护银行账号、信用卡号和其他敏感数据。

在付款处理过程中,令牌化系统可以用支付令牌替换信用卡信息、主账号 (PAN) 或其他财务数据。

这种令牌化过程可消除购买与财务信息之间的联系,从而保护客户的敏感数据免遭恶意行为者利用。

自然语言处理 (NLP)

令牌化是自然语言处理 (NLP) 中使用的一种预处理技术。NLP 工具通常按语言单位(例如单词、从句、句子和段落)来处理文本。因此,NLP 算法必须首先将大型文本分割成 NLP 工具可以处理的较小令牌。令牌以算法可以理解的方式表示文本。

合规性要求

数据令牌化可以帮助组织遵守政府监管要求和行业标准。许多组织使用令牌化作为一种非破坏性模糊化形式来保护 PII。

例如,《支付卡行业数据安全标准》(PCI DSS) 规定企业必须满足网络安全要求以保护持卡人数据。为遵守这些要求,组织可以采取的措施之一是将主账号令牌化。令牌化还可以帮助组织遵守欧盟《通用数据保护条例》(GDPR) 制定的数据隐私规则。

资产令牌化

无论是有形资产还是无形资产,都可以用令牌来代表。令牌化资产的移动或交易往往比实际资产更安全、更轻松,让组织能够自动处理交易、简化运营方式并提高资产流动性。

令牌代表的有形资产可能包括艺术品、设备或房地产。无形资产包括数据、知识产权或是承诺投资回报率的证券令牌(类似于债券和股权)。非同质化令牌 (NFT) 让消费者能够购买数字资产,例如艺术品、音乐和数字收藏品。

区块链

基于令牌的区块链技术能够通过一次交易实现所有权和价值的转移,而不像传统方法那样在交易时间与结算之间可能会有延迟。智能合约可以帮助区块链上的令牌转让和其他交易实现自动化

加密货币可以使用加密令牌将其区块链上的资产或权益令牌化。有资产支持的令牌被称为稳定币,可以消除中介和托管账户,从而优化业务流程。

令牌化与加密的对比

令牌化用不敏感(在其他情况下无用)的字符串替代敏感数据。加密将数据打乱,以便可以用密钥(称为解密密钥)将其解密。

标记化和加密都有助于保护数据,但它们通常适用于不同的用例。标记化在原始数据很容易被替换的情况下很常见,例如存储定期付款的付款数据。加密在原始数据的访问很重要的情况下很常见,例如保护静态数据和传输中的数据。

与加密相比,令牌化过程可以占用更少的资源。令牌化只需用非敏感令牌替换数据,而加密系统需要经常在使用数据时进行加密和解密,其成本可能会变得很高。

相关解决方案
数据安全和保护解决方案

保护多个环境中的企业数据,遵守隐私法规并降低操作复杂性。

    探索数据安全解决方案
    IBM® Guardium

    了解 IBM Guardium,这是一系列数据安全软件,可保护敏感的本地数据和云端数据。

     

      深入了解 IBM Guardium
      数据安全服务

      IBM 提供全面的数据安全服务,以保护企业数据、应用程序和 AI。

      探索数据安全服务
      采取后续步骤

      利用数据安全解决方案,跨混合云保护组织的数据,并简化合规要求。

      探索数据安全解决方案 预约实时演示