主页

AI and ML

Synthetic Data Sets

IBM 合成数据集
旨在加快 AI 的采用并提高预测准确性,推动业务创新并增加价值
阅读 IBM 红皮书
Data Fabric 架构的数字化插图

IBM 合成数据集是一系列人工生成的数据集,它们旨在增强预测性 AI 模型训练和大语言模型 (LLM),以便金融服务领域的 IBM ZLinuxONE 企业能快速访问适用于 AI 项目的相关丰富数据。

这些预构建的数据集可进行下载,并打包为 CSV 与 DDL 文件,以便使用并兼容所有内容(包括数据库、电子表格和硬件平台以及标准 AI 工具)。这些数据集还使用了 IBM 的行业专业知识和金融服务领域的知识,而不使用任何真实的客户种子数据,从而可缓解涉及个人身份信息 (PII) 的安全问题。

为应对此场景,经整理的 IBM 合成数据集可用于欺诈检测用例。因此,客户可下载这些数据集,并支持开发面向金融服务的预测性 AI 模型和 LLM,或优化现有模型以提高准确性并降低风险。

宣布推出 IBM 合成数据集

了解预构建的合成数据如何能提高 AI 准确性、加速项目进度并快速提供结果。利用 IBM 合成数据集快速开启 AI 之旅。

数据集类型
适用于支付卡的 IBM 合成数据集

非常适合培训 AI 模型以检测信用卡欺诈。该数据集包括具有详细交易历史记录的模拟信用卡和持卡人。每笔交易都标记为是否为欺诈,并通过欺诈者 ID 链接起来进行模式跟踪。

适用于核心银行和洗钱业务的 IBM 合成数据集

非常适合反洗钱解决方案。该数据集包括标记为洗钱、支票欺诈和自动推送支付 (APP) 欺诈的模拟银行交易。该数据集可捕获欺诈场景和洗钱活动,从而标记类型以及账户详细信息和转账记录。

适用于房屋保险的 IBM 合成数据集

非常适合改善索赔欺诈检测、承保和定价。该数据集使用房主、保单、索赔和灾难事件信息来提供合成的“假设”情景和欺诈性索赔的标签,并为贷款审核和信用评分等领域提供洞察分析。

优势
快速开始训练 AI 模型

它可作为快速、简单且符合隐私要求的训练数据,用于从头开始创建和构建模型。此外,由于可轻松下载文件,因而有助于与 Db2 和其他数据库一起使用,并包括用例的关键属性而无需任何真实 PII。

利用更丰富的数据增强模型

它可提供更丰富、更多样化的数据来增强现有的预测模型并对 LLM 进行微调。合成数据包含的信息比真实数据中的信息更为丰富,其中包括交易欺诈标签、银行生态系统中的多个实体等。

验证 AI 模型的准确性

它可以用作验证现有欺诈或洗钱模型的“答卷”,因为所有交易都被标记为是否为任一类型的欺诈。使用我们的数据集测试现有模型是否能够准确预测欺诈行为。

功能

不含真实 PII 保持的逻辑 已知真实信息 参照完整性
用例
信用卡欺诈检测

准确的欺诈检测可保持客户满意度和忠诚度,同时最大限度地减少财务损失。适用于支付卡的 IBM 合成数据集通过提供标记的交易数据改进了欺诈保护 AI 模型。

反洗钱

适用于核心银行和洗钱业务的 IBM 合成数据集提供标记数据,包括真实银行数据中不可用的全球交易和现金交易。这有助于建立更强大的反洗钱模型,降低风险和误报,节省调查时间和成本。

保险理赔欺诈

保险公司使用真实的理赔数据,但适用于房屋保险的 IBM 合成数据集添加了合成的“假设”场景,涵盖不同的理赔类型和欺诈案例。每项理赔都标记了是否为欺诈、检测状态及原因,从而为训练、验证和改进用于欺诈检测的 AI 模型提供丰富的数据集。

资源 IBM 合成数据集红皮书

在此 IBM Redbooks 红皮书中,阅读有关 IBM 合成数据集的更多信息,其中通过设计和数据模式提供了有关数据集、方法、安全性和道德规范的更详细信息。

反洗钱模型的真实合成金融交易

阅读 Nuerips 上发表的学术论文,其中包含用于检测洗钱的合成数据集生成方法的技术细节。

合成信用卡交易

阅读有关结合技术方法和领域知识生成高质量合成信用卡数据的信息,这些数据用于训练预测欺诈行为的模型。

一种用于金融欺诈检测的简单、有效、高效的图转换器

实际了解 IBM 和麻省理工学院的研究人员如何利用 IBM 合成数据集的数据开发欺诈检测图转换器 (FraudGT)。

用于金融犯罪检测的基于实时子图的特征提取

了解 IBM Research 和加州理工学院如何开发图形特征预处理器,这是一个用于实时检测金融交易图中典型洗钱模式的软件库。该模型使用 IBM 合成数据集来开发相关解决方案。

采取下一步行动

了解如何利用合成数据集在 IBM Z 和 LinuxONE 上快速启动 AI 项目。

阅读 IBM 红皮书 报名参加网络研讨会
更多探索方式 文档 支持 支持与服务 社区