Il framework di servizi Data Quality for AI (o DQAI) offre tutti gli strumenti necessari agli sviluppatori di modelli e ai data scientist per implementare un programma di preparazione dei dati formalizzato e sistematico, ossia la fase preliminare e più dispendiosa in termini di tempo del processo di sviluppo di un modello. Questo framework è adatto alla preparazione dei dati per le attività di classificazione e regressione supervisionate. Include il software necessario per:
— effettuare controlli di qualità,
— eseguire la correzione,
— redigere relazioni di audit,
— automatizzare tutto quanto sopra.
Sebbene il pipelining delle attività sia essenziale per la scalabilità e la ripetibilità, le funzionalità incluse possono essere utilizzate anche per l'esplorazione personalizzata dei dati e il miglioramento dei modelli a opera di umani. I servizi inclusi possono aumentare la produttività in qualsiasi fase del processo di sviluppo di un modello, ma sono particolarmente utili per la fase di preparazione dei dati.
Oltre a tutto ciò che si può ottenere dalle sorgenti di dati originali, esistono metodi che, partendo da un dataset di input, possono aiutare a sintetizzare nuovi dati (sia per l'integrazione che per la sostituzione) apprendendo i vincoli dei dati originali o grazie alle indicazioni di uno sviluppatore. Ciò può essere utile quando problemi normativi o contrattuali vietano l'utilizzo diretto dei dati in un'attività di modellazione, quando è auspicabile esplorare dataset con vincoli diversi o quando sono necessari più dati per la formazione.
Questo framework è adatto all'uso sia su dati tabulari che su dati di serie temporali, nonché su nuove modalità supportate in fase di sviluppo.
Punteggi di qualità e relativi insight, con un'indicazione delle specifiche regioni di dati che riducono il punteggio e consigli su come migliorarle.
Esegui le raccomandazioni fornite dai metodi di quality analysis. Il toolkit supporta una varietà di tipi di dati, inclusi dati tabulari e dati di serie temporali.
Il sistema può imparare le caratteristiche dei dati (ad es. limiti, spazi vuoti, ecc.) oppure è l'utente che può specificarle.
Genera un nuovo dataset con le caratteristiche e le distribuzioni del primo.
Combina i convalidatori e i correttori con i vincoli per affrontare un caso d'uso o un flusso di lavoro dell'applicazione, producendo un punteggio complessivo di qualità dei dati
Documentazione automatizzata delle modifiche che registra le variazioni delta nelle metriche di qualità e nelle trasformazioni dei dati applicate
Data Quality for AI è una fonte unica e compatibile per molti algoritmi disponibili al pubblico, nonché per nuovi metodi sviluppati esclusivamente da IBM Research.
Riduci il time to value per gli incarichi di modellazione diminuendo il numero di esperimenti tentati e regressioni realizzate nelle attività downstream.
Facilita l'adozione dell'AI in tutta l'azienda fornendo strumenti per formalizzare e simulare il processo di preparazione dei dati
Miglioramenti trasversali in termini di efficienza operativa e produttività per i seguenti ruoli: AI steward, data scientist, esperto in materia, responsabile dei rischi AI, utente business.
— Controllo della purezza dell'etichetta — Controllo dell'omogeneità dei dati — Controllo della parità delle classi — Controllo della completezza — Controllo del rilevamento degli outlier — Controllo della correlazione delle funzioni — Controllo della distorsione dei dati — Controllo della ridondanza delle funzioni — e molte altre
— Correzione della purezza — Correzione della disomogeneità — Correzione della disparità delle classi — Correzione delle incompletezze — Rimozione degli outlier — Rimozione della correlazione delle funzioni — Rimozione della distorsione dei dati — Rimozione della ridondanza delle funzioni — e molte altre