Tiempo de lectura
Los sistemas de AI solo pueden ser tan confiables como los datos que se utilizan para desarrollarlos. Por eso, el uso de datos confiables y de alta calidad es un paso crítico hacia la creación de IA responsable. Pero sin transparencia sobre la procedencia de los datos (detalles sobre dónde se originaron, cómo se desarrollaron y cómo se pueden utilizar desde un punto de vista legal y contractual), evaluar la confiabilidad de un conjunto de datos puede ser un desafío, incluso para los profesionales de datos experimentados. La falta de una taxonomía de metadatos estándar para conjuntos de datos es un punto débil común en todo el ecosistema de datos.
Así pues, cuando The Data & Trust Alliance (D&TA) emprendió el desarrollo de los primeros estándares respecto de la procedencia de los datos intersectoriales, IBM estaba ansiosa por contribuir. A lo largo de 2024, lideramos los primeros esfuerzos de prueba y estuvimos entre las primeras organizaciones en comenzar a alinear nuestros estándares de datos internos con los estándares respecto de la procedencia de los datos, según fue necesario. Ahora, tres meses después de que concluimos nuestras pruebas y se anunciara formalmente la versión 1.0 de los estándares respecto de la procedencia de los datos, hemos observado un impacto constante y cuantificable en la eficiencia general de nuestros procesos de diligencia y gestión de datos.
IBM se compromete a desarrollar y desplegar la IA de manera responsable. Y ese compromiso se extiende a los datos que utilizamos para desarrollar y entrenar nuestros sistemas de AI. Como “cliente cero”, queríamos evaluar los estándares respecto de la procedencia de los datos en un entorno riguroso para comprender realmente su impacto y ponerlos a prueba de manera significativa. Por lo tanto, implementamos elementos clave dentro de nuestro propio Programa de gobernanza integrada (IGP, sigla en inglés de Integrated Governance Program) que rige los datos y modelos desarrollados y utilizados por IBM, comenzando con una evaluación de la exhaustividad de los estándares. Para ello, comparamos los estándares respecto de la procedencia de los datos con nuestros propios requisitos de ingesta de datos para conjuntos de datos que se utilizan para desarrollar modelos fundacionales y evaluamos el grado en que la taxonomía de los metadatos de dichos estándares nos permitió validar la idoneidad de los datos para diversos casos de uso.
A continuación, pedimos a científicos de datos e investigadores de IBM con diversos niveles de experiencia que aplicaran los estándares mencionados a varios tipos comunes de datos, incluidos datos propiedad de IBM, datos de terceros y datos que incluyen material con discurso de odio, lenguaje agresivo y soez (HAP, sigla en inglés de hate speech, abusive language and profanity).
Por último, pedimos a los expertos de la Oficina de Privacidad y Tecnología Responsable de IBM que examinaran la integridad y precisión de los envíos de metadatos de acuerdo con los estándares en cuestión, revisando los envíos con los científicos de datos e investigadores para comprender mejor sus puntos débiles o confusión. Esta retroalimentación cualitativa nos permitió identificar términos, definiciones y orientación que no estaban claros o eran ambiguos.
El impacto más notable que hemos observado desde que alineamos más estrechamente nuestros estándares internos de datos con los estándares respecto de la procedencia de los datos es la reducción en el tiempo que lleva procesar las solicitudes de autorización de datos. En el período de ocho meses durante el cual probamos los estándares respecto de la procedencia de los datos e implementamos otras mejoras tecnológicas y de procesos, observamos que el tiempo promedio de procesamiento de la autorización de datos disminuyó un 58 % en el caso de los datos de terceros y un 62 % en el de los datos propiedad de IBM. Esta mejora es particularmente importante dado el aumento de solicitudes de autorización que llegan a través del IGP. Para agosto de 2024, el número de solicitudes de autorización tanto de datos de terceros como de datos propiedad de IBM ya había superado el número total de todo el año 2023.
Esta mayor eficiencia es muy valiosa. Nuestro equipo de gobernanza de datos puede procesar más solicitudes de datos con mayor velocidad, lo que nos permite ampliar la escala de nuestro programa de gobernanza de datos mientras mantenemos nuestros estándares de confianza y transparencia . Algunos aspectos de los estándares respecto de la procedencia de los datos que nos ayudaron a acelerar nuestros procesos de diligencia de datos son los siguientes:
Esto tiene un efecto dominó en toda nuestra empresa. Cuando las solicitudes de autorización de datos son precisas y se procesan de manera más eficiente, se acelera el desarrollo de modelos, lo que permite a nuestros equipos responder más rápido a las solicitudes de los clientes. También significa que nuestro catálogo interempresarial de datos borrados siempre se está ampliando y mejorando en calidad, lo que permite una reutilización más eficiente y responsable por parte de nuestros profesionales en toda la empresa.
Los metadatos transparentes y congruentes permiten a los profesionales tomar decisiones más rápidas e informadas sobre la selección de datos, lo que en última instancia puede conducir a modelos y sistemas más responsables. Eso es cierto no solo para IBM, sino también para todo el ecosistema de datos. Una adopción más amplia de los estándares respecto de la procedencia de los datos puede ofrecer un retorno de la inversión significativo a través tanto de mayor automatización como de la innovación responsable.
A través de nuestra experiencia de “cliente cero” con los estándares respecto de la procedencia de los datos, estamos reforzando nuestro compromiso con la confianza al elevar los estándares de transparencia en torno de los datos que sustentan nuestros sistemas de IA. Nuestra experiencia en la administración de nuestro propio Programa de gobernanza integrada (IGP), incluida la alineación más estricta de nuestros estándares internos con los estándares respecto de la procedencia de los datos, nos permite llevar IA al mercado con mayor velocidad y confianza. También nos ha preparado para brindar un mejor soporte a los clientes en la implementación de sus propios marcos de gobernanza de datos, incluida la alineación con los estándares y marcos de la industria, como los estándares respecto de la procedencia de los datos. Después de todo, si podemos hacer que algo funcione para IBM, ciertamente podemos ayudar a nuestros clientes a hacer lo mismo.
Lea nuestra guía de primeros pasos en torno a la gobernanza de la IA
Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.
IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.
Acceda a nuestro catálogo completo de más de 100 cursos en línea al adquirir hoy mismo una suscripción individual o multiusuario, que le permitirá ampliar sus conocimientos en una amplia gama de nuestros productos a un precio reducido.
Dirigida por los principales líderes de opinión de IBM, el plan de estudios está diseñado para ayudar a los líderes empresariales a obtener los conocimientos necesarios para priorizar las inversiones en IA que pueden impulsar el crecimiento.
¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.
Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.
Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.