主页
AI and ML
Synthetic Data Sets
这些预构建的数据集可进行下载,并打包为 CSV 与 DDL 文件,以便使用并兼容所有内容(包括数据库、电子表格和硬件平台以及标准 AI 工具)。这些数据集还使用了 IBM 的行业专业知识和金融服务领域的知识,而不使用任何真实的客户种子数据,从而可缓解涉及个人身份信息 (PII) 的安全问题。
为应对此场景,经整理的 IBM 合成数据集可用于欺诈检测用例。因此,客户可下载这些数据集,并支持开发面向金融服务的预测性 AI 模型和 LLM,或优化现有模型以提高准确性并降低风险。
了解预构建的合成数据如何能提高 AI 准确性、加速项目进度并快速提供结果。利用 IBM 合成数据集快速开启 AI 之旅。
非常适合培训 AI 模型以检测信用卡欺诈。该数据集包括具有详细交易历史记录的模拟信用卡和持卡人。每笔交易都标记为是否为欺诈,并通过欺诈者 ID 链接起来进行模式跟踪。
非常适合反洗钱解决方案。该数据集包括标记为洗钱、支票欺诈和自动推送支付 (APP) 欺诈的模拟银行交易。该数据集可捕获欺诈场景和洗钱活动,从而标记类型以及账户详细信息和转账记录。
非常适合改善索赔欺诈检测、承保和定价。该数据集使用房主、保单、索赔和灾难事件信息来提供合成的“假设”情景和欺诈性索赔的标签,并为贷款审核和信用评分等领域提供洞察分析。
准确的欺诈检测可保持客户满意度和忠诚度,同时最大限度地减少财务损失。适用于支付卡的 IBM 合成数据集通过提供标记的交易数据改进了欺诈保护 AI 模型。
适用于核心银行和洗钱业务的 IBM 合成数据集提供标记数据,包括真实银行数据中不可用的全球交易和现金交易。这有助于建立更强大的反洗钱模型,降低风险和误报,节省调查时间和成本。
保险公司使用真实的理赔数据,但适用于房屋保险的 IBM 合成数据集添加了合成的“假设”场景,涵盖不同的理赔类型和欺诈案例。每项理赔都标记了是否为欺诈、检测状态及原因,从而为训练、验证和改进用于欺诈检测的 AI 模型提供丰富的数据集。
在此 IBM Redbooks 红皮书中,阅读有关 IBM 合成数据集的更多信息,其中通过设计和数据模式提供了有关数据集、方法、安全性和道德规范的更详细信息。
阅读 Nuerips 上发表的学术论文,其中包含用于检测洗钱的合成数据集生成方法的技术细节。
阅读有关结合技术方法和领域知识生成高质量合成信用卡数据的信息,这些数据用于训练预测欺诈行为的模型。
实际了解 IBM 和麻省理工学院的研究人员如何利用 IBM 合成数据集的数据开发欺诈检测图转换器 (FraudGT)。
了解 IBM Research 和加州理工学院如何开发图形特征预处理器,这是一个用于实时检测金融交易图中典型洗钱模式的软件库。该模型使用 IBM 合成数据集来开发相关解决方案。