Essa estrutura de serviços de Qualidade de Dados para IA (ou DQAI, na sigla em inglês) oferece todas as ferramentas para permitir que os desenvolvedores de modelos e cientistas de dados implementem um programa formalizado e sistemático de preparação de dados, a etapa preliminar e mais demorada do ciclo de vida de desenvolvimento de modelos. Esta estrutura é apropriada para dados que estão sendo preparados para tarefas supervisionadas de classificação ou regressão. Ela inclui o software necessário para:
—implementar verificações de qualidade,
— executar correções,
— gerar relatórios de auditoria,
— automatizar todos os itens acima.
Embora o encapsulamento de tarefas seja essencial para a escalabilidade e a repetibilidade, os recursos incluídos também podem ser usados para a exploração de dados personalizados e o aprimoramento de modelos orientados por humanos. A utilização dos serviços incluídos pode ser produtiva em qualquer estágio do ciclo de vida do desenvolvimento do modelo; a oferta foi projetada para ser especialmente valiosa no início do processamento de dados, no estágio de preparação dos dados.
Além de tudo, isso pode ser realizado em fontes de dados originais, e há métodos que, a partir de um conjunto de dados de entrada, podem ajudar a sintetizar novos dados, seja para suplementação ou substituição, entendendo as restrições dos dados originais ou fazendo com que sejam especificadas por um desenvolvedor. Isso pode ser útil quando questões regulatórias ou contratuais proíbem o uso direto de dados em um esforço de modelagem, quando é desejável explorar conjuntos de dados com restrições diferentes ou quando são necessários mais dados para treinamento.
Essa oferta é adequada para uso em dados tabulares e de séries temporais e em novas modalidades compatíveis que estão sendo desenvolvidas.
Pontuações de qualidade e insights sobre essas pontuações de qualidade, até apontando para regiões específicas de dados responsáveis pela redução da pontuação e recomendando como essas regiões de dados podem ser aprimoradas.
Execute as recomendações oferecidas pelos métodos de análise de qualidade. O toolkit é compatível com vários tipos de dados, incluindo dados tabulares e de séries temporais.
O sistema pode aprender ou o usuário pode especificar características dos dados (por exemplo, limites, lacunas, ...).
Gere um novo conjunto de dados com as características e distribuições do primeiro.
Combinar validadores e remediadores juntamente com restrições para lidar com um caso de uso ou fluxo de trabalho do aplicativo, gera uma pontuação geral de qualidade de dados
Documentação automatizada de alterações que registra deltachanges em métricas de qualidade e transformações de dados aplicadas
A qualidade de dados para IA serve como uma fonte única e compatível para muitos algoritmos publicamente disponíveis, bem como novos métodos desenvolvidos exclusivamente pela IBM Research.
Reduza o time to value de um esforço de modelagem reduzindo o número de tentativas de experimentos e regressões realizadas em tarefas posteriores.
Reduzir a barreira para a adoção da IA em toda a empresa, fornecendo ferramentas para formalizar e simular o processo de preparação de dados
Cruzamento de melhorias na eficiência operacional e produtividade para as seguintes funções definidas: AI Steward, Data Scientist, Subject Matter Expert, AI Risk Officer, Business User.
— Verificação de Pureza de Rótulo — Verificação de Homogeneidade de Dados — Verificação de Paridade de Classe — Verificação de Completude — Verificação de Detecção de Valor discrepante — Verificação de Correlação de Recurso — Verificação de Viés de Dados — Verificação de Redundância de Recurso — e muito mais
— Remediação de Pureza — Remediação de Irregularidade — Remediação de Disparidade de Classe — Remediação Incompleta — Remoção de Valor Discrepante — Remoção de Correlação de Recurso — Remoção de Viés de Dados — Remoção de Redundância de Recurso — e muito mais