Tiempo de lectura
Los sistemas de IA solo pueden ser tan fiables como los datos que se utilizan para desarrollarlos. Por eso, el uso de datos fiables y de alta calidad es un primer paso crítico para crear una IA responsable. Pero sin transparencia sobre la procedencia de los datos (detalles sobre dónde se originaron los datos, cómo se desarrollaron y cómo se pueden utilizar desde un punto de vista legal y contractual), evaluar la fiabilidad de un conjunto de datos puede ser un reto, incluso para los profesionales de datos experimentados. La falta de una taxonomía estándar de metadatos para conjuntos de datos es un punto débil común en todo el ecosistema de datos.
Por eso, cuando la Data & Trust Alliance (D&TA) emprendió el desarrollo de los primeros Estándares de procedencia de datos intersectoriales, IBM estaba deseando contribuir. A lo largo de 2024, lideramos los primeros esfuerzos de prueba y fuimos de las primeras organizaciones en comenzar a alinear nuestros estándares internos de datos con los estándares de procedencia de datos, cuando correspondía. Ahora, tres meses después de que concluyéramos nuestras pruebas y se anunciara formalmente la versión 1.0 de los Estándares de procedencia de los datos, hemos visto un impacto constante y cuantificable en la eficiencia general de nuestros procesos de diligencia y gestión de datos.
IBM se compromete a desarrollar e implementar la IA de forma responsable. Y ese compromiso se extiende a los datos que utilizamos para construir y entrenar nuestros sistemas de IA. Como "Cliente Cero", queríamos evaluar los Estándares de procedencia de los datos en un entorno riguroso para comprender realmente su impacto y ponerlos a prueba de manera significativa. Por lo tanto, implementamos elementos clave dentro de nuestro propio Programa de Gobierno Integrado (IGP) que rige los datos y modelos desarrollados y utilizados por IBM, comenzando con una evaluación de la exhaustividad de los estándares. Para ello, comparamos los Estándares de procedencia de los datos con nuestros propios requisitos de ingesta de datos para conjuntos de datos que se utilizan para desarrollar modelos fundacionales y evaluamos el grado en que la taxonomía de metadatos de los Estándares de procedencia de los datos nos permitió validar la idoneidad de los datos para una variedad de de casos de uso.
A continuación, pedimos a científicos de datos e investigadores de IBM de varios niveles de experiencia que aplicaran los Estándares de procedencia de datos a varios tipos comunes de datos, incluidos datos propiedad de IBM, datos de terceros y datos que incluyen HAP (discurso de odio, lenguaje abusivo y blasfemia) material.
Por último, pedimos a los expertos de la Oficina de Privacidad y Tecnología Responsable de IBM que examinaran la integridad y precisión de los envíos de metadatos de acuerdo con los Estándares de procedencia de los datos, revisando los envíos con los científicos de datos y los investigadores para comprender mejor sus puntos débiles o confusión. Este feedback cualitativo nos permitió identificar términos, definiciones y orientación que eran poco claros o ambiguos.
El impacto más notable que hemos observado desde que alineamos más estrechamente nuestros estándares de datos internos con los Estándares de procedencia de datos es una reducción en el tiempo que lleva procesar las solicitudes de autorización de datos. En el período de ocho meses durante el cual probamos los Estándares de procedencia de datos e implementamos otras mejoras de procesos y tecnología, observamos que el tiempo promedio de procesamiento de autorización de datos disminuyó en un 58 % para los datos de terceros y en un 62 % para los datos propietarios de IBM. Esta mejora es particularmente importante dado el aumento en las solicitudes de autorización que llegan a través del IGP. En agosto de 2024, el número de solicitudes de autorización tanto de datos de terceros como de propiedad de IBM ya había superado el número total de todo 2023.
Esta mejora de la eficiencia es muy valiosa. Nuestro equipo de gobierno del dato es capaz de procesar más solicitudes de datos con mayor velocidad, lo que nos permite escalar nuestro programa de gobierno del dato mientras mantenemos nuestros estándares de confianza y transparencia. Algunos aspectos de los estándares de procedencia de datos que nos ayudaron a acelerar nuestros procesos de diligencia de datos incluyen los siguientes:
Esto tiene un efecto dominó en toda nuestra empresa. Cuando las solicitudes de autorización de datos son precisas y se procesan de manera más eficiente, se acelera el desarrollo de modelos, lo que permite a nuestros equipos responder más rápido a las solicitudes de los clientes. También significa que nuestro catálogo interempresarial de datos borrados siempre se está ampliando y mejorando en calidad, lo que permite una reutilización más eficiente y responsable por parte de nuestros profesionales en toda la empresa.
Los metadatos transparentes y consistentes permiten a los profesionales tomar decisiones más rápidas e informadas sobre la selección de datos, lo que en última instancia puede conducir a modelos y sistemas más responsables. Esto es cierto no sólo para IBM, sino también para todo el ecosistema de datos. Una adopción más amplia de los Estándares de procedencia de los datos puede proporcionar un rendimiento significativo de la inversión tanto a través de una mayor automatización como de una innovación responsable.
A través de nuestra experiencia "Cliente Cero" con los Estándares de procedencia de los datos, estamos reforzando nuestro compromiso con la confianza elevando el listón de la transparencia sobre los datos que subyacen a nuestros sistemas de IA. Nuestra experiencia en la administración de nuestro propio Programa de Gobierno Integrado o IGP, incluida la alineación de nuestros estándares internos de datos más estrechamente con los Estándares de procedencia de los datos, nos permite llevar la IA al mercado con mayor rapidez y confianza. También nos ha preparado para apoyar mejor a los clientes en la implementación de sus propios marcos de gobierno del dato, incluida la alineación con los estándares de sectores y marcos como los Estándares de procedencia de datos. Después de todo, si podemos hacer que algo funcione para IBM, sin duda podemos ayudar a nuestros clientes a hacer lo mismo.
Lea nuestra guía para comenzar a utilizar el gobierno de la IA
Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.
IBM Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados a la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de idioma, código, series de tiempo y salvaguardas.
Acceda a nuestro catálogo completo de más de 100 cursos en línea al adquirir hoy mismo una suscripción individual o multiusuario, que le permitirá ampliar sus conocimientos en una amplia gama de nuestros productos a un precio reducido.
Dirigido por los principales líderes de opinión de IBM, el plan de estudios está diseñado para ayudar a los líderes empresariales a conseguir el conocimiento necesario para priorizar las inversiones en IA que pueden impulsar el crecimiento.
¿Quiere obtener un mayor rendimiento de sus inversiones en IA? Descubra cómo escalar la IA generativa en áreas clave impulsa el cambio ayudando a sus mentes más brillantes a crear y ofrecer nuevas soluciones innovadoras.
Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.
Profundice en los tres elementos cruciales de una estrategia de IA sólida: crear una ventaja competitiva, ampliar la IA en toda la empresa y promover una IA fiable.