Tempo di lettura
I sistemi di AI possono essere affidabili solo nella misura in cui lo sono i dati utilizzati per svilupparli. Ecco perché l'utilizzo di dati affidabili e di alta qualità è un passo critico verso la creazione di un'AI responsabile. Ma senza trasparenza sulla provenienza dei dati, dettagli sull'origine dei dati, su come sono stati sviluppati e su come possono essere utilizzati dal punto di vista legale e contrattuale, valutare l'affidabilità di un set di dati può essere difficile, anche per professionisti esperti dei dati. La mancanza di una tassonomia standard dei metadati per i set di dati è un punto dolente comune in tutto l'ecosistema dei dati.
Quindi, quando Data & Trust Alliance (D&TA) ha intrapreso lo sviluppo dei primissimi standard di provenienza dei dati intersettoriali, IBM® era ansiosa di contribuire. Nel corso del 2024, abbiamo condotto i primi test e siamo stati tra le prime organizzazioni a iniziare ad allineare i nostri standard interni sui dati con gli standard di provenienza dei dati, laddove appropriato. Ora, tre mesi dopo la conclusione dei nostri test e l'annuncio ufficiale della V1.0 degli standard di provenienza dei dati, abbiamo riscontrato un impatto coerente e quantificabile sull'efficienza complessiva dei nostri processi di diligenza e gestione dei dati.
IBM si impegna a sviluppare e a implementare l'AI in modo responsabile. E questo impegno si estende ai dati che utilizziamo per costruire e addestrare i nostri sistemi di AI. In qualità di "Client Zero" volevamo valutare gli standard di provenienza dei dati in un ambiente rigoroso per comprenderne veramente l'impatto e metterli alla prova in modo significativo. Per questo motivo abbiamo implementato elementi chiave all'interno del nostro Integrated Governance Program (IGP) che governa i dati e i modelli sviluppati e utilizzati da IBM, a partire da una valutazione della completezza degli standard. A tal fine, abbiamo confrontato gli standard di provenienza dei dati con i nostri requisiti di assunzione dei dati per i set di dati utilizzati per sviluppare foundation model e abbiamo valutato il grado in cui la tassonomia dei metadati degli standard di provenienza dei dati ci ha consentito di convalidare l'idoneità dei dati per una varietà di casi d'uso.
Successivamente, abbiamo chiesto a data scientist e ricercatori IBM con vari livelli di esperienza di applicare gli standard di provenienza dei dati a diversi tipi comuni di dati, inclusi dati proprietari di IBM, dati di terze parti e dati che includono materiale HAP (incitamento all'odio, linguaggio offensivo e volgarità).
Infine, abbiamo chiesto agli esperti dell'IBM Office of Privacy and Responsible Technology di esaminare la completezza e l'accuratezza degli invii di metadati in conformità con gli standard di provenienza dei dati, esaminando gli invii con i data scientist e i ricercatori per comprendere meglio i loro punti deboli o la loro confusione. Questo feedback qualitativo ci ha consentito di individuare termini, definizioni e linee guida poco chiari o ambigui.
L'impatto più notevole che abbiamo osservato da quando abbiamo allineato più strettamente i nostri standard interni sui dati con gli standard di provenienza dei dati è la riduzione del tempo necessario per elaborare le richieste di autorizzazione dei dati. Nel periodo di otto mesi durante i quali abbiamo testato gli standard di provenienza dei dati e implementato altri miglioramenti di tecnologia e dei processi, abbiamo osservato che il tempo medio di elaborazione della cancellazione dei dati è diminuito del 58% per i dati di terze parti e del 62% per i dati proprietari di IBM. Questo miglioramento è particolarmente importante dato l'aumento delle richieste di autorizzazione provenienti tramite IGP. Ad agosto 2024, il numero di richieste di autorizzazione per dati di terze parti e proprietari di IBM aveva già superato il numero totale di tutto il 2023.
Questa maggiore efficienza è molto preziosa. Il nostro team di governance dei dati è in grado di elaborare più richieste di dati con maggiore velocità, consentendoci di scalare il nostro programma di governance dei dati mantenendo i nostri standard di fiducia e trasparenza. Ecco alcuni aspetti degli standard di provenienza dei dati che ci hanno aiutato ad accelerare i nostri processi di data diligence:
Ciò ha un effetto a catena su tutta la nostra azienda. Quando le richieste di autorizzazione dei dati sono accurate ed elaborate in modo più efficiente, lo sviluppo del modello viene accelerato, consentendo ai nostri team di rispondere più rapidamente alle richieste dei clienti. Significa anche che il nostro catalogo interaziendale di dati cancellati è in continua espansione e miglioramento in termini di qualità, consentendo un riutilizzo più efficiente e responsabile da parte dei nostri professionisti in tutta l'azienda.
I metadati trasparenti e coerenti consentono ai professionisti di fare scelte più rapide e informate sulla selezione dei dati, che possono in ultima analisi portare a modelli e sistemi più responsabili. Questo è vero non solo per IBM, ma anche per l'intero ecosistema di dati. Una più ampia adozione degli standard di provenienza dei dati può fornire un significativo ritorno sull'investimento attraverso un'ulteriore automazione e un'innovazione responsabile.
Attraverso la nostra esperienza “Client Zero” con gli standard di provenienza dei dati, stiamo rafforzando il nostro impegno verso la fiducia, alzando l'asticella della trasparenza sui dati alla base dei nostri sistemi di AI. La nostra Esperienza nella gestione del nostro Integrated Governance Program o IGP, incluso l'allineamento dei nostri standard interni sui dati con gli standard di provenienza dei dati, ci consente di portare AI sul mercato con maggiore velocità e fiducia. Ci ha anche preparato a supportare meglio i clienti nell'implementazione dei propri framework di governance dei dati, incluso l'allineamento con gli standard e i framework del settore come i Data Provenance Standards. Dopotutto, se riusciamo a far funzionare qualcosa per IBM, possiamo certamente aiutare i nostri clienti a fare lo stesso.
Leggi la nostra guida per iniziare con la governance dell'AI
Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.
IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.
Accedi al nostro catalogo completo di oltre 100 corsi online acquistando oggi stesso un abbonamento individuale o multiutente che ti consentirà di ampliare le tue competenze su una gamma di prodotti a un prezzo contenuto.
Condotto dai migliori leader di pensiero di IBM, il programma di studi è stato progettato per aiutare i dirigenti aziendali ad acquisire le conoscenze necessarie per dare priorità agli investimenti in AI che possono favorire la crescita.
Vuoi ottenere un ritorno migliore sui tuoi investimenti nell'AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.
Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.
Approfondisci i 3 elementi critici di una solida strategia AI: creare un vantaggio competitivo, scalare l'AI attraverso l'azienda e promuovere un'AI affidabile.