IBM Synthetic Data Sets

Diseñado para acelerar la adopción de AI y aumentar la precisión predictiva para impulsar la innovación y el valor empresarial

Ilustración digital de bloques 3D que representan tecnología e innovación, con un enfoque en componentes digitales y diseño futurista.

Conjuntos de datos sintéticos prediseñados para IA

IBM® Synthetic Data Sets son conjuntos de datos artificiales prediseñados para entrenar modelos predictivos de IA y modelos de lenguaje grandes (LLM) para beneficiar a las empresas de IBM® Z y LinuxONE en servicios financieros.

Creados con la experiencia en servicios financieros de IBM, estos conjuntos de datos ofrecen datos enriquecidos y que cumplen con la privacidad (descargables en CSV o DDL) para un desarrollo de IA rápido, seguro y preciso.

Seminario web: Introducción a IBM Synthetic Data Sets
Acelere el entrenamiento de modelos de IA de forma segura

Impulse la creación de modelos de IA con conjuntos de datos descargables y sin PII creados para un uso rápido y compatible.

Mejore los modelos con datos más completos

Acceda a datos sintéticos enriquecidos, incluidas etiquetas de fraude y múltiples entidades, para obtener insights más sólidos y amplios.

Validar la precisión de los modelos de IA

Utilice transacciones etiquetadas como clave de respuesta para probar, validar y refinar los modelos de detección de fraude.

Optimice la detección de riesgos en las finanzas

Mejore la precisión predictiva y reduzca el riesgo en proyectos de IA de servicios financieros con conjuntos de datos curados.

Diagrama de conjuntos de datos sintéticos de IBM que no muestra PII real incluida
Conjuntos de datos compatibles

La metodología de generación de modelos basados en agentes se encuentra a nivel estadístico de población, por lo que no se necesitan datos de origen reales, a los que se puede tardar meses. Los conjuntos de datos cumplen con las regulaciones de privacidad de datos porque no contienen ninguna información de identificación personal real o anónima porque se generan artificialmente.

Diagrama de conjuntos de datos sintéticos de IBM que muestra la lógica mantenida
Datos sintéticos realistas

IBM Synthetic Data Sets se basa en años de entradas y código personalizados incorporados a nuestro modelo basado en agentes, algo que no ofrecen otros generadores de datos sintéticos. Estos conjuntos de datos conservan y reflejan con precisión las complejas relaciones y restricciones del mundo real que suelen plantear dificultades a la hora de generar datos con otros generadores.

Diagrama de conjuntos de datos sintéticos de IBM que muestra la verdad fundamental conocida
Mejorar la precisión de los modelos de IA

Los datos de entrenamiento de la verdad del terreno agregan anotaciones con respecto a la información que se sabe que es verdadera, lo que mejora la precisión del modelo de IA. IBM Synthetic Data Sets tiene una verdad fundamental conocida, donde cada transacción está etiquetada como fraude y lavado de dinero.

Diagrama de conjuntos de datos sintéticos de IBM que muestra la integridad referencial
Conectar tablas de datos

La integridad referencial se refiere a la relación entre diferentes tablas y a que la conexión tenga sentido, sea precisa, coherente y esté actualizada. Está presente en todos los conjuntos de datos sintéticos de IBM, pero no suele darse en los datos generados por los generadores de datos sintéticos estándar.

Diagrama de conjuntos de datos sintéticos de IBM que no muestra PII real incluida
Conjuntos de datos compatibles

La metodología de generación de modelos basados en agentes se encuentra a nivel estadístico de población, por lo que no se necesitan datos de origen reales, a los que se puede tardar meses. Los conjuntos de datos cumplen con las regulaciones de privacidad de datos porque no contienen ninguna información de identificación personal real o anónima porque se generan artificialmente.

Diagrama de conjuntos de datos sintéticos de IBM que muestra la lógica mantenida
Datos sintéticos realistas

IBM Synthetic Data Sets se basa en años de entradas y código personalizados incorporados a nuestro modelo basado en agentes, algo que no ofrecen otros generadores de datos sintéticos. Estos conjuntos de datos conservan y reflejan con precisión las complejas relaciones y restricciones del mundo real que suelen plantear dificultades a la hora de generar datos con otros generadores.

Diagrama de conjuntos de datos sintéticos de IBM que muestra la verdad fundamental conocida
Mejorar la precisión de los modelos de IA

Los datos de entrenamiento de la verdad del terreno agregan anotaciones con respecto a la información que se sabe que es verdadera, lo que mejora la precisión del modelo de IA. IBM Synthetic Data Sets tiene una verdad fundamental conocida, donde cada transacción está etiquetada como fraude y lavado de dinero.

Diagrama de conjuntos de datos sintéticos de IBM que muestra la integridad referencial
Conectar tablas de datos

La integridad referencial se refiere a la relación entre diferentes tablas y a que la conexión tenga sentido, sea precisa, coherente y esté actualizada. Está presente en todos los conjuntos de datos sintéticos de IBM, pero no suele darse en los datos generados por los generadores de datos sintéticos estándar.

Casos de uso
Ilustración de una tarjeta de crédito
Detección de fraudes con tarjetas de crédito

La detección de fraude mantiene a los clientes satisfechos y leales, a la vez que minimiza las pérdidas financieras. IBM Synthetic Data Sets for Payments Cards mejora los modelos de IA de protección contra el fraude al proporcionar datos de transacciones etiquetados.

Ilustración isométrica de dinero
Antilavado de dinero

IBM Synthetic Data Sets for Core Banking and Money Laundering proporciona datos etiquetados, incluidas transacciones globales y en efectivo que no están disponibles en datos bancarios reales. Esto ayuda a construir modelos más sólidos contra el lavado de dinero, reduciendo los riesgos y los falsos positivos, ahorrando tiempo y costos de investigación.

Ilustración isométrica de un edificio de seguros
Fraude de reclamaciones de seguros

Las aseguradoras utilizan datos de reclamaciones reales, pero IBM Synthetic Data Sets for Homeowners Insurance añade escenarios hipotéticos sintéticos que abarcan diversos tipos de reclamaciones y casos de fraude. Cada siniestro se etiqueta en función del fraude, el estado de detección y el motivo, lo que proporciona un rico conjunto de datos para entrenar, validar y mejorar los modelos de IA para la detección de siniestros fraudulentos.

Insignia de Banking tech awards USA 2025
IBM Synthetic Data Sets gana el Banking Tech Award a la "Mejor solución de IA".
Dé el siguiente paso

Descubra cómo poner en marcha proyectos de IA en IBM Z y LinuxONE con Synthetic Data Sets.

Lea el Redpaper de IBM Vea la reproducción del seminario web del producto
Más formas de explorar Documentación Soporte Servicios y soporte durante el ciclo de vida Comunidad