Inicio
AI and ML
Synthetic Data Sets
IBM Synthetic Data Sets es una familia de conjuntos de datos generados artificialmente diseñados para mejorar el entrenamiento de modelos de IA predictivos y de modelos de lenguaje de gran tamaño (LLM) en beneficio de las empresas IBM Z y LinuxONE para servicios financieros, que les permite acceder rápidamente a datos relevantes y ricos para proyectos de IA.
Estos conjuntos de datos predefinidos se pueden descargar y empaquetar como archivos CSV y DDL, lo que facilita su uso y compatibilidad con todo, desde bases de datos hasta hojas de cálculo, pasando por plataformas de hardware y herramientas de IA estándar. Estos conjuntos de datos también utilizan la experiencia industrial de IBM y su conocimiento de la industria de los servicios financieros sin utilizar ningún dato de clientes reales, lo que soluciona el problema de la seguridad de la información de identificación personal (PII).
Para abordar esta dirección, los conjuntos de datos de IBM se curaron para casos de uso de detección de fraude. Así, los clientes pueden descargar los conjuntos de datos y permitir el desarrollo de modelos de IA y LLMs para servicios financieros u optimizar los modelos existentes para mejorar la precisión y la mitigación de riesgos.
Descubra cómo los datos sintéticos prediseñados aumentan la precisión de AI, aceleran los proyectos y ofrecen Resultados rápidos. Inicie su camino hacia el AI con IBM Synthetic Data Sets.
Ideal para entrenar modelos de IA para detectar fraudes con tarjetas de crédito. El conjunto de datos incluye tarjetas de crédito simuladas y titulares con historiales de transacciones detallados. Cada transacción está etiquetada como “sí” o “no” en caso de fraude y vinculada por el identificador del estafador para rastrear patrones.
Ideales para soluciones contra el blanqueo de capitales. El conjunto de datos incluye transacciones bancarias simuladas etiquetadas para el blanqueo de capitales, el fraude con cheques y el fraude por pagos automáticos autorizados (APP). Además, captura escenarios de fraude y actividades de blanqueo de capitales, y etiqueta los tipos junto con los detalles de cuentas y transferencias.
Ideales para mejorar la detección de fraude en reclamaciones, suscripción y fijación de precios. El conjunto de datos utiliza información sobre propietarios de viviendas, pólizas, siniestros y catástrofes para ofrecer escenarios hipotéticos sintéticos y etiquetar los siniestros fraudulentos, lo que proporciona insights para áreas como la suscripción de préstamos y la calificación crediticia.
La detección de fraude mantiene a los clientes satisfechos y leales a la vez que minimiza las pérdidas financieras. Los conjuntos de datos sintéticos de IBM para tarjetas de pago mejoran los modelos de IA de protección contra el fraude al proporcionar datos de transacciones etiquetados.
IBM Synthetic Data Sets for Core Banking and Money Laundering proporciona datos etiquetados, incluidas transacciones globales y en efectivo que no están disponibles en datos bancarios reales. Esto ayuda a construir modelos más sólidos contra el lavado de dinero, reduciendo los riesgos y los falsos positivos, ahorrando tiempo y costos de investigación.
Las aseguradoras utilizan datos de reclamaciones reales, pero IBM Synthetic Data Sets for Homeowners Insurance añade escenarios hipotéticos sintéticos que abarcan diversos tipos de reclamaciones y casos de fraude. Cada siniestro se etiqueta en función del fraude, el estado de detección y el motivo, lo que proporciona un rico conjunto de datos para entrenar, validar y mejorar los modelos de IA para la detección de siniestros fraudulentos.
Lea más acerca de los conjuntos de datos sintéticos de IBM en este Redpaper de IBM Redbooks, donde se ofrecen más detalles sobre los conjuntos de datos, la metodología, la seguridad, la ética por diseño y los esquemas de datos.
Lea el artículo académico publicado presentado en Nuerips con detalles técnicos en torno a la metodología de generación de conjuntos de datos sintéticos utilizados para detectar lavado de dinero.
Lea sobre el enfoque técnico y el conocimiento del dominio que se combinaron para generar datos sintéticos de tarjetas de crédito de calidad utilizados para entrenar modelos para predecir el fraude.
Real acerca de cómo los investigadores de IBM y el MIT desarrollaron un transformador de gráficos de detección de fraudes (FraudGT) empleando datos de nuestros IBM Synthetic Data Sets.
Lea cómo IBM Research y Caltech desarrollaron Graph Feature Preprocessor, una biblioteca de software para detectar patrones típicos de blanqueo de dinero en gráficos de transacciones financieras en tiempo real. Este modelo se desarrolló utilizando IBM Synthetic Data Sets.