Data Quality for AI
Rivedi, correggi, rifattorizza e ripristina i dati per uno sviluppo di modelli più rapido e produttivo
Prova questa API
sfondo nero, verde e blu
A mio avviso, se l'80% del nostro lavoro consiste nella preparazione dei dati, allora garantirne qualità dei dati è il compito più importante per un team dedicato al machine learning. Andrew Ng, Professor of AI at Standford University and founder of DeepLearning.AI March 2021 https://www.deeplearning.ai/the-batch/issue-84/
Data Quality for AI di IBM Research

Il framework di servizi Data Quality for AI (o DQAI) offre tutti gli strumenti necessari agli sviluppatori di modelli e ai data scientist per implementare un programma di preparazione dei dati formalizzato e sistematico, ossia la fase preliminare e più dispendiosa in termini di tempo del processo di sviluppo di un modello. Questo framework è adatto alla preparazione dei dati per le attività di classificazione e regressione supervisionate. Include il software necessario per:

— effettuare controlli di qualità,
— eseguire la correzione,
— redigere relazioni di audit,
— automatizzare tutto quanto sopra.

Sebbene il pipelining delle attività sia essenziale per la scalabilità e la ripetibilità, le funzionalità incluse possono essere utilizzate anche per l'esplorazione personalizzata dei dati e il miglioramento dei modelli a opera di umani. I servizi inclusi possono aumentare la produttività in qualsiasi fase del processo di sviluppo di un modello, ma sono particolarmente utili per la fase di preparazione dei dati.

Oltre a tutto ciò che si può ottenere dalle sorgenti di dati originali, esistono metodi che, partendo da un dataset di input, possono aiutare a sintetizzare nuovi dati (sia per l'integrazione che per la sostituzione) apprendendo i vincoli dei dati originali o grazie alle indicazioni di uno sviluppatore. Ciò può essere utile quando problemi normativi o contrattuali vietano l'utilizzo diretto dei dati in un'attività di modellazione, quando è auspicabile esplorare dataset con vincoli diversi o quando sono necessari più dati per la formazione.

Questo framework è adatto all'uso sia su dati tabulari che su dati di serie temporali, nonché su nuove modalità supportate in fase di sviluppo.

Funzionalità
Convalida dei dati

Punteggi di qualità e relativi insight, con un'indicazione delle specifiche regioni di dati che riducono il punteggio e consigli su come migliorarle.


Correzione dei dati

Esegui le raccomandazioni fornite dai metodi di quality analysis. Il toolkit supporta una varietà di tipi di dati, inclusi dati tabulari e dati di serie temporali.


Vincoli dei dati

Il sistema può imparare le caratteristiche dei dati (ad es. limiti, spazi vuoti, ecc.) oppure è l'utente che può specificarle.


Sintesi dei dati

Genera un nuovo dataset con le caratteristiche e le distribuzioni del primo.


Pipelining

Combina i convalidatori e i correttori con i vincoli per affrontare un caso d'uso o un flusso di lavoro dell'applicazione, producendo un punteggio complessivo di qualità dei dati


Reportistica

Documentazione automatizzata delle modifiche che registra le variazioni delta nelle metriche di qualità e nelle trasformazioni dei dati applicate

Quali benefici posso ottenere per le operazioni di modellazione?
Strumenti completi e compatibili

Data Quality for AI è una fonte unica e compatibile per molti algoritmi disponibili al pubblico, nonché per nuovi metodi sviluppati esclusivamente da IBM Research.

Risparmi in termini di tempo e costi

Riduci il time to value per gli incarichi di modellazione diminuendo il numero di esperimenti tentati e regressioni realizzate nelle attività downstream.

Operazioni formalizzate e semplificate

Facilita l'adozione dell'AI in tutta l'azienda fornendo strumenti per formalizzare e simulare il processo di preparazione dei dati

Standardizzazione e coordinamento dei team

Miglioramenti trasversali in termini di efficienza operativa e produttività per i seguenti ruoli: AI steward, data scientist, esperto in materia, responsabile dei rischi AI, utente business.

Un esempio delle utility incluse
Convalida dei dati

— Controllo della purezza dell'etichetta — Controllo dell'omogeneità dei dati — Controllo della parità delle classi — Controllo della completezza — Controllo del rilevamento degli outlier — Controllo della correlazione delle funzioni — Controllo della distorsione dei dati — Controllo della ridondanza delle funzioni — e molte altre

Correzione dei dati

— Correzione della purezza — Correzione della disomogeneità — Correzione della disparità delle classi — Correzione delle incompletezze — Rimozione degli outlier — Rimozione della correlazione delle funzioni — Rimozione della distorsione dei dati — Rimozione della ridondanza delle funzioni — e molte altre