Inicio

AI and ML

Synthetic Data Sets

Conjuntos de datos sintéticos de IBM
Diseñado para acelerar la adopción de AI y aumentar la precisión predictiva para impulsar la innovación y el valor empresarial
Lea el Redpaper de IBM
Ilustración digital de la arquitectura de Data Fabric

IBM Synthetic Data Sets es una familia de conjuntos de datos generados artificialmente diseñados para mejorar el entrenamiento de modelos de IA predictivos y de modelos de lenguaje de gran tamaño (LLM) en beneficio de las empresas IBM Z y LinuxONE para servicios financieros, que les permite acceder rápidamente a datos relevantes y ricos para proyectos de IA.

Estos conjuntos de datos predefinidos se pueden descargar y empaquetar como archivos CSV y DDL, lo que facilita su uso y compatibilidad con todo, desde bases de datos hasta hojas de cálculo, pasando por plataformas de hardware y herramientas de IA estándar. Estos conjuntos de datos también utilizan la experiencia industrial de IBM y su conocimiento de la industria de los servicios financieros sin utilizar ningún dato de clientes reales, lo que soluciona el problema de la seguridad de la información de identificación personal (PII).

Para abordar esta dirección, los conjuntos de datos de IBM se curaron para casos de uso de detección de fraude. Así, los clientes pueden descargar los conjuntos de datos y permitir el desarrollo de modelos de IA y LLMs para servicios financieros u optimizar los modelos existentes para mejorar la precisión y la mitigación de riesgos.

Presentación de IBM Synthetic Data Sets

Descubra cómo los datos sintéticos prediseñados aumentan la precisión de AI, aceleran los proyectos y ofrecen Resultados rápidos. Inicie su camino hacia el AI con IBM Synthetic Data Sets.

Tipos de conjuntos de datos
Conjuntos de datos sintéticos de IBM para tarjetas de pago

Ideal para entrenar modelos de IA para detectar fraudes con tarjetas de crédito. El conjunto de datos incluye tarjetas de crédito simuladas y titulares con historiales de transacciones detallados. Cada transacción está etiquetada como “sí” o “no” en caso de fraude y vinculada por el identificador del estafador para rastrear patrones.

Conjuntos de datos sintéticos de IBM para la banca central y el lavado de dinero

Ideales para soluciones contra el blanqueo de capitales. El conjunto de datos incluye transacciones bancarias simuladas etiquetadas para el blanqueo de capitales, el fraude con cheques y el fraude por pagos automáticos autorizados (APP). Además, captura escenarios de fraude y actividades de blanqueo de capitales, y etiqueta los tipos junto con los detalles de cuentas y transferencias.

Conjuntos de datos sintéticos de IBM para seguros de propietarios de viviendas

Ideales para mejorar la detección de fraude en reclamaciones, suscripción y fijación de precios. El conjunto de datos utiliza información sobre propietarios de viviendas, pólizas, siniestros y catástrofes para ofrecer escenarios hipotéticos sintéticos y etiquetar los siniestros fraudulentos, lo que proporciona insights para áreas como la suscripción de préstamos y la calificación crediticia.

Beneficios
Impulse el entrenamiento de modelos de IA

Sirve como datos de entrenamiento rápidos, fáciles y respetuosos con la privacidad para crear y construir modelos desde cero. Los archivos de descarga fácil incluyen atributos clave para casos de uso sin ninguna PII real y facilitan el uso con Db2 y otras bases de datos.

Mejore los modelos con datos más completos

Proporciona datos más ricos y diversos para mejorar los modelos predictivos existentes y afinar los LLM. Los datos sintéticos incluyen información más amplia que la disponible en los datos reales, como etiquetas de fraude en las transacciones, múltiples entidades en todo el ecosistema bancario y mucho más.

Validar la precisión de los modelos de IA

Puede utilizarse como "hoja de respuestas" para validar los modelos existentes de fraude o blanqueo de capitales, ya que todas las transacciones están etiquetadas como pertenecientes a uno de los dos tipos de fraude. También podemos probar si los modelos existentes pueden predecir con precisión el fraude con nuestros conjuntos de datos.

Características

No se incluye PII real Lógica mantenida Verdad fundamental conocida Integridad referencial
Casos de uso
Detección de fraudes con tarjetas de crédito

La detección de fraude mantiene a los clientes satisfechos y leales a la vez que minimiza las pérdidas financieras. Los conjuntos de datos sintéticos de IBM para tarjetas de pago mejoran los modelos de IA de protección contra el fraude al proporcionar datos de transacciones etiquetados.

Antilavado de dinero

IBM Synthetic Data Sets for Core Banking and Money Laundering proporciona datos etiquetados, incluidas transacciones globales y en efectivo que no están disponibles en datos bancarios reales. Esto ayuda a construir modelos más sólidos contra el lavado de dinero, reduciendo los riesgos y los falsos positivos, ahorrando tiempo y costos de investigación.

Fraude de reclamaciones de seguros

Las aseguradoras utilizan datos de reclamaciones reales, pero IBM Synthetic Data Sets for Homeowners Insurance añade escenarios hipotéticos sintéticos que abarcan diversos tipos de reclamaciones y casos de fraude. Cada siniestro se etiqueta en función del fraude, el estado de detección y el motivo, lo que proporciona un rico conjunto de datos para entrenar, validar y mejorar los modelos de IA para la detección de siniestros fraudulentos.

Recursos Redpaper sobre conjuntos de datos sintéticos de IBM

Lea más acerca de los conjuntos de datos sintéticos de IBM en este Redpaper de IBM Redbooks, donde se ofrecen más detalles sobre los conjuntos de datos, la metodología, la seguridad, la ética por diseño y los esquemas de datos.

Transacciones financieras sintéticas realistas para modelos de prevención del blanqueo de dinero

Lea el artículo académico publicado presentado en Nuerips con detalles técnicos en torno a la metodología de generación de conjuntos de datos sintéticos utilizados para detectar lavado de dinero.

Sintetizar las transacciones con tarjeta de crédito

Lea sobre el enfoque técnico y el conocimiento del dominio que se combinaron para generar datos sintéticos de tarjetas de crédito de calidad utilizados para entrenar modelos para predecir el fraude.

Un transformador gráfico simple, eficaz y eficiente para la detección de fraudes financieros

Real acerca de cómo los investigadores de IBM y el MIT desarrollaron un transformador de gráficos de detección de fraudes (FraudGT) empleando datos de nuestros IBM Synthetic Data Sets.

Extracción de características en tiempo real basada en subgrafos para la detección de delitos financieros

Lea cómo IBM Research y Caltech desarrollaron Graph Feature Preprocessor, una biblioteca de software para detectar patrones típicos de blanqueo de dinero en gráficos de transacciones financieras en tiempo real. Este modelo se desarrolló utilizando IBM Synthetic Data Sets.

Dé el siguiente paso

Descubra cómo poner en marcha proyectos de AI en IBM Z y LinuxONE con conjuntos de datos sintéticos.

Lea el Redpaper de IBM Regístrese para el webinar
Más formas de explorar Documentación Soporte Soporte y servicios Comunidad