IBM Synthetic Data Sets

Diseñado para acelerar la adopción de la IA y aumentar la precisión predictiva a fin de impulsar la innovación y el valor empresarial

Ilustración digital de bloques 3D que representan la tecnología y la innovación, con especial atención a los componentes digitales y el diseño futurista.

Conjuntos de datos sintéticos prediseñados para IA

Los IBM® Synthetic Data Sets son conjuntos de datos artificiales prediseñados creados para entrenar modelos de IA y modelos de lenguaje de gran tamaño (LLM) en beneficio de las empresas que utilizan IBM® Z y LinuxONE en el sector de los servicios financieros.

Creados con la experiencia en servicios financieros de IBM, estos conjuntos de datos ofrecen datos ricos y compatibles con la privacidad (descargables en CSV o DDL) para un desarrollo de IA rápido, seguro y preciso.

Webinar: Introducción a IBM Synthetic Data Sets
Acelere el entrenamiento de modelos de IA de forma segura

Inicie la creación de modelos de IA con conjuntos de datos descargables y sin PII creados para un uso rápido y conforme a la normativa.

Mejore los modelos con datos más completos

Acceda a datos sintéticos enriquecidos, incluidas etiquetas de fraude y múltiples entidades, para obtener conocimiento más sólido y amplio.

Validar la precisión de los modelos de IA

Utilice las transacciones etiquetadas como clave de respuesta para probar, validar y perfeccionar los modelos de detección del fraude.

Optimice la detección de riesgos en las finanzas

Mejore la precisión predictiva y reduzca el riesgo en los proyectos de IA de servicios financieros con conjuntos de datos seleccionados.

Diagrama de IBM Synthetic Data Sets que no muestra PII real incluida
Conjuntos de datos compatibles

La metodología de generación de modelos basada en agentes se lleva a cabo a nivel de población estadística, por lo que no es necesario acceder a datos de origen reales, cuyo proceso puede llevar meses. Los conjuntos de datos cumplen la normativa sobre protección de datos porque no contienen PII real o anonimizada, puesto que se generan artificialmente.

Diagrama de IBM Synthetic Data Sets que muestra la lógica mantenida
Datos sintéticos realistas

IBM Synthetic Data Sets se basa en años de entradas y código personalizados incorporados a nuestro modelo basado en agentes, algo que no ofrecen otros generadores de datos sintéticos. Estos conjuntos de datos conservan y reflejan con precisión las complejas relaciones y restricciones del mundo real que suelen plantear dificultades a la hora de generar datos con otros generadores.

Diagrama de IBM Synthetic Data Sets que muestra la realidad del terreno conocida
Mejorar la precisión del modelo de IA

Los datos de entrenamiento de la verdad del terreno añaden anotaciones sobre la información que se sabe que es verdadera, lo que mejora la precisión del modelo de IA. IBM Synthetic Data Sets tiene una verdad conocida, donde cada transacción está etiquetada para fraude y lavado de dinero.

Diagrama de conjuntos de datos sintéticos de IBM que muestra la integridad referencial
Conectar tablas de datos

La integridad referencial se refiere a la relación entre diferentes tablas y a que la conexión tenga sentido, sea precisa, coherente y esté actualizada. Está presente en todos los conjuntos de datos sintéticos de IBM, pero no suele darse en los datos generados por los generadores de datos sintéticos estándar.

Diagrama de IBM Synthetic Data Sets que no muestra PII real incluida
Conjuntos de datos compatibles

La metodología de generación de modelos basada en agentes se lleva a cabo a nivel de población estadística, por lo que no es necesario acceder a datos de origen reales, cuyo proceso puede llevar meses. Los conjuntos de datos cumplen la normativa sobre protección de datos porque no contienen PII real o anonimizada, puesto que se generan artificialmente.

Diagrama de IBM Synthetic Data Sets que muestra la lógica mantenida
Datos sintéticos realistas

IBM Synthetic Data Sets se basa en años de entradas y código personalizados incorporados a nuestro modelo basado en agentes, algo que no ofrecen otros generadores de datos sintéticos. Estos conjuntos de datos conservan y reflejan con precisión las complejas relaciones y restricciones del mundo real que suelen plantear dificultades a la hora de generar datos con otros generadores.

Diagrama de IBM Synthetic Data Sets que muestra la realidad del terreno conocida
Mejorar la precisión del modelo de IA

Los datos de entrenamiento de la verdad del terreno añaden anotaciones sobre la información que se sabe que es verdadera, lo que mejora la precisión del modelo de IA. IBM Synthetic Data Sets tiene una verdad conocida, donde cada transacción está etiquetada para fraude y lavado de dinero.

Diagrama de conjuntos de datos sintéticos de IBM que muestra la integridad referencial
Conectar tablas de datos

La integridad referencial se refiere a la relación entre diferentes tablas y a que la conexión tenga sentido, sea precisa, coherente y esté actualizada. Está presente en todos los conjuntos de datos sintéticos de IBM, pero no suele darse en los datos generados por los generadores de datos sintéticos estándar.

Casos de uso
Ilustración de una tarjeta de crédito
Detección del fraude con tarjetas de crédito

La detección precisa del fraude mantiene a los clientes satisfechos y fieles, al mismo tiempo que minimiza las pérdidas financieras. IBM® Synthetic Data Sets for Payments Cards mejora los modelos de IA de protección contra el fraude al proporcionar datos de transacciones etiquetados.detección

Ilustración isométrica de dinero
Lucha contra el blanqueo de dinero

IBM® Synthetic Data Sets for Core Banking and Money Laundering proporciona datos etiquetados, incluidas transacciones globales y en efectivo no disponibles en los datos bancarios reales. Esto ayuda a crear modelos más sólidos contra el blanqueo de capitales, lo que reduce los riesgos y los falsos positivos, y permite ahorrar tiempo y costes de investigación.

Ilustración isométrica de un edificio de seguros
Fraude de reclamaciones de seguros

Las aseguradoras utilizan datos de reclamaciones reales, pero IBM® Synthetic Data Sets for Homeowners Insurance añade escenarios hipotéticos sintéticos que abarcan diversos tipos de reclamaciones y casos de fraude. Cada siniestro se etiqueta en función del fraude, el estado de detección y el motivo, lo que proporciona un rico conjunto de datos para entrenar, validar y mejorar los modelos de IA para la detección de siniestros fraudulentos.

Insignia de los premios de tecnología bancaria de EE. UU. 2025
IBM Synthetic Data Sets gana el Banking Tech Award a la "Mejor solución de IA".
De el siguiente paso

Descubra cómo impulsar proyectos de IA en IBM Z y LinuxONE con conjuntos de datos sintéticos.

Lea el Redpaper de IBM Vea la reproducción del webinar sobre el producto
Más opciones para profundizar Documentación Soporte Servicios y asistencia durante todo el ciclo de vida Comunidad