Qualidade de dados para IA
Revise, corrija, refatore e reabasteça os dados para um desenvolvimento de modelos mais rápido e produtivo
Iniciar um teste da API
fundo preto, verde e azul
Minha opinião é que, se 80% do nosso trabalho for preparação de dados, temos que garantir que a qualidade dos dados seja o trabalho importante de uma equipe de aprendizado de máquina. Andrew Ng, Professor of AI at Standford University and founder of DeepLearning.AI March 2021 https://www.deeplearning.ai/the-batch/issue-84/
Qualidade de dados para IA da IBM Research

Essa estrutura de serviços de Qualidade de Dados para IA (ou DQAI, na sigla em inglês) oferece todas as ferramentas para permitir que os desenvolvedores de modelos e cientistas de dados implementem um programa formalizado e sistemático de preparação de dados, a etapa preliminar e mais demorada do ciclo de vida de desenvolvimento de modelos. Esta estrutura é apropriada para dados que estão sendo preparados para tarefas supervisionadas de classificação ou regressão. Ela inclui o software necessário para:

—implementar verificações de qualidade,
— executar correções,
— gerar relatórios de auditoria,
— automatizar todos os itens acima.

Embora o encapsulamento de tarefas seja essencial para a escalabilidade e a repetibilidade, os recursos incluídos também podem ser usados para a exploração de dados personalizados e o aprimoramento de modelos orientados por humanos. A utilização dos serviços incluídos pode ser produtiva em qualquer estágio do ciclo de vida do desenvolvimento do modelo; a oferta foi projetada para ser especialmente valiosa no início do processamento de dados, no estágio de preparação dos dados.

Além de tudo, isso pode ser realizado em fontes de dados originais, e há métodos que, a partir de um conjunto de dados de entrada, podem ajudar a sintetizar novos dados, seja para suplementação ou substituição, entendendo as restrições dos dados originais ou fazendo com que sejam especificadas por um desenvolvedor. Isso pode ser útil quando questões regulatórias ou contratuais proíbem o uso direto de dados em um esforço de modelagem, quando é desejável explorar conjuntos de dados com restrições diferentes ou quando são necessários mais dados para treinamento.

Essa oferta é adequada para uso em dados tabulares e de séries temporais e em novas modalidades compatíveis que estão sendo desenvolvidas.

Recursos
Validação de dados

Pontuações de qualidade e insights sobre essas pontuações de qualidade, até apontando para regiões específicas de dados responsáveis pela redução da pontuação e recomendando como essas regiões de dados podem ser aprimoradas.


Remediação de dados

Execute as recomendações oferecidas pelos métodos de análise de qualidade. O toolkit é compatível com vários tipos de dados, incluindo dados tabulares e de séries temporais.


Restrições de dados

O sistema pode aprender ou o usuário pode especificar características dos dados (por exemplo, limites, lacunas, ...).


Síntese de dados

Gere um novo conjunto de dados com as características e distribuições do primeiro.


Enfileirando

Combinar validadores e remediadores juntamente com restrições para lidar com um caso de uso ou fluxo de trabalho do aplicativo, gera uma pontuação geral de qualidade de dados


Relatórios

Documentação automatizada de alterações que registra deltachanges em métricas de qualidade e transformações de dados aplicadas

Que benefícios posso ter em minhas operações de modelagem?
Ferramentas abrangentes e compatíveis

A qualidade de dados para IA serve como uma fonte única e compatível para muitos algoritmos publicamente disponíveis, bem como novos métodos desenvolvidos exclusivamente pela IBM Research.

Economia de tempo e custo

Reduza o time to value de um esforço de modelagem reduzindo o número de tentativas de experimentos e regressões realizadas em tarefas posteriores.

Operações formalizadas e simplificadas

Reduzir a barreira para a adoção da IA em toda a empresa, fornecendo ferramentas para formalizar e simular o processo de preparação de dados

Padronização e coordenação da equipe

Cruzamento de melhorias na eficiência operacional e produtividade para as seguintes funções definidas: AI Steward, Data Scientist, Subject Matter Expert, AI Risk Officer, Business User.

Uma amostra dos serviços essenciais inclusos
Validação de dados

— Verificação de Pureza de Rótulo — Verificação de Homogeneidade de Dados — Verificação de Paridade de Classe — Verificação de Completude — Verificação de Detecção de Valor discrepante — Verificação de Correlação de Recurso — Verificação de Viés de Dados — Verificação de Redundância de Recurso — e muito mais

Remediação de dados

— Remediação de Pureza — Remediação de Irregularidade — Remediação de Disparidade de Classe — Remediação Incompleta — Remoção de Valor Discrepante — Remoção de Correlação de Recurso — Remoção de Viés de Dados — Remoção de Redundância de Recurso — e muito mais