Criando regras de qualidade de dados baseadas em SQL
É possível criar regras de qualidade de dados baseadas em SQL para avaliar a qualidade dos dados no projeto. Use essas regras para medir erros, em vez de avaliar a conformidade com critérios de qualidade específicos
Para que uma regra de qualidade de dados baseada em SQL contribua para as pontuações de qualidade de dados de uma coluna e do ativo que a contém, adicione essa coluna como um item relacionado à regra correspondente. Use o tipo de relacionamento Valida a qualidade de dados do A mesma pontuação e os mesmos problemas são relatados para todas as colunas vinculadas a esse tipo de relacionamento.
- Requisito
- Para descrições de regras e explicações de expressões geradas por IA, as seguintes configurações do projeto devem ser ativadas:
- Configurações de inteligência de dados : uso de recursos de IA generativa no projeto
- Configurações de qualidade dos dados : a opção de explicar as regras de qualidade dos dados com IA
Para criar uma regra de qualidade de dados baseada em SQL:
Abra um projeto, clique em Novo ativo > Medir e monitorar a qualidade dos dados .
Defina detalhes:
- Especifique um nome para a regra de qualidade de dados
- Opcional: forneça uma descrição. Se as descrições geradas por IA estiverem ativadas, uma explicação da expressão e uma descrição baseada nessa explicação serão geradas quando você salvar a regra. Essa descrição é atualizada automaticamente sempre que você altera a instrução SQL, a menos que você tenha editado a descrição.
- Opcional: Selecione uma dimensão de qualidade de dados para descrever a métrica de qualidade de dados primária para a lógica de regras neste ativo. A dimensão selecionada pode ser usada como categoria de relatório, para filtrar ou para visualizar dados selecionados.
Selecione a lógica da regra de consulta SQL.
Especifique a origem dos dados a serem verificados selecionando uma conexão existente ou criando uma nova. A conexão deve suportar consultas SQL. Para obter origens de dados suportadas, consulte Origens de dados suportadas para curadoria e qualidade de dados.
Se você selecionar uma conexão existente e essa conexão tiver sido criada com credenciais pessoais, será necessário desbloquear a conexão
Crie sua consulta SQL. Você mesmo pode criar a consulta SQL ou inserir uma consulta de texto simples e convertê-la em SQL usando um dos modelos disponíveis.
Para trabalhar com consultas de texto simples, o projeto deve estar habilitado para consultas em linguagem natural, mas essa é uma operação única. Para obter detalhes, consulte Configurações das ferramentas de inteligência de dados.
Você pode fornecer contexto adicional aos modelos para obter uma saída SQL mais precisa e sensível ao contexto fazendo upload de amostras de consultas. Para obter mais informações, consulte Fornecendo contexto adicional para conversões de texto para SQL.
Lembre-se: não é garantido que as consultas geradas sejam idênticas entre uma execução e outra, portanto, você poderá observar variações.Na área de texto livre da guia SQL, insira sua consulta de texto, selecione um dos modelos disponíveis (
) e gere a instrução SQL. Devido ao modo como as regras baseadas em SQL funcionam, certifique-se de inserir uma consulta que retorne os registros de exceção. Por exemplo, "A data do pedido está no futuro" ou "A idade do cliente é inferior a 18 anos".
Dica: Ometa-llama/llama-3-3-70b modelé melhor em seguir instruções rápidas para converter texto em SQL e, portanto, pode fornecer resultados mais precisos em comparação com Granite os modelos.Ao inserir sua consulta de texto, você pode fornecer informações adicionais que servem como prompt personalizado para o modelo. Preceda essas informações adicionais com o aviso de isenção de responsabilidade
Note:.Os ativos do projeto da conexão e do banco de dados selecionados são usados como ativos de referência para converter sua consulta de texto em uma consulta SQL. Por padrão, o modelo de idioma grande seleciona até 40 ativos mais relevantes desses ativos de referência para a tradução. Para selecionar ativos de referência manualmente, clique em Ativos de referência. Não selecione nenhum arquivo CSV carregado localmente. Esses arquivos não são considerados para a geração de consultas SQL.
Copie a instrução SQL gerada para a área SQL. Você ainda pode atualizar a consulta SQL conforme necessário.
Quer você mesmo crie a consulta ou use uma consulta gerada, certifique-se de que a instrução SELECT atenda às seguintes condições:
- A instrução retorna apenas colunas com nomes exclusivos.. Colunas com nomes duplicados causarão erros de validação quando forem executadas, mesmo que o teste da regra tenha sido aprovado.
- A instrução retorna o número de registros que não atendem sua condição de qualidade de dados.. As regras baseadas em SQL funcionam de uma maneira diferente das regras criadas a partir de definições de qualidade de dados Eles relatam os registros que a instrução SELECT retorna como
failedouNot metAlém disso, o número total de registros que é relatado é igual ao número de registros retornados, e não o número de registros verificados
Por exemplo, supondo que você tenha uma tabela
db2admin.credit_cardcom 31 linhas e deseja verificar quantos registros com o tipo de cartão AMEX estão na tabela, a diferença é a seguinte:Regra de qualidade de dados de uma definição de qualidade de dados
Você verifica registros nos quais o tipo de cartão é AMEX.
Expressão na definição de qualidade de dados:Col = 'AMEX'
Expressão de Limite na regra de qualidade de dados:credit_card.card_type = 'AMEX'
Resultado da Amostra:Total: 31 | Met: 4 (12.9%) Not met: 27 (87.1%)Regra de qualidade de dados baseada em SQL
Você verifica registros nos quais o tipo de cartão não é AMEX.
instrução SELECT:select card_type from db2admin.credit_card where card_type <> 'AMEX'
Resultado de amostra:Total: 27 | Met: 0 (0%) Not met: 27 (100%)Verifique também o conjunto de Instruções SQL de Amostra para Regras de Qualidade de Dados. Essas amostras demonstram como é possível gravar regras SQL para retornar registros que não atendem aos seus critérios de qualidade É possível copiar as instruções fornecidas em suas próprias regras de qualidade de dados e ajustá-las conforme necessário
Considere estas convenções para especificar nomes de colunas, tabelas e esquemas em sua instrução SELECT:
- Nomes de tabela e esquema em origens de dados PostgreSQL fazem distinção entre maiúsculas e minúsculas. Pode ser necessário colocar os nomes entre aspas duplas como neste exemplo: "schema". "table_name"
- Tente evitar consultas do
SELECT *Essas consultas podem causar erros de validação quando os nomes de colunas forem alterados Limite a seleção da coluna. - Se o nome da coluna não iniciar com um caractere alfabético ou contiver caracteres diferentes de caracteres alfabéticos, caracteres numéricos ou sublinhados, use um alias para o nome da coluna.
A qualquer momento, é possível testar as instruções SQL.. Observe que o teste retorna apenas os nomes das colunas selecionadas por sua consulta Não é feito nenhum processamento real. Uma verificação de validade é feita ao clicar em Avançar. Não é possível continuar, a menos que sua consulta seja aprovada nesta verificação
Em projetos nos quais o conteúdo gerado por IA está habilitado, uma explicação para a instrução SQL é gerada quando você salva a regra. A explicação é atualizada para cada alteração na instrução SQL.
Definir configurações de saída e conteúdo.
Selecione se você deseja que a saída de regra seja gravada em um banco de dados Se não, apenas algumas informações estatísticas serão fornecidas no histórico de execução da regra Para obter mais informações, consulte Definição de configurações de saída para regras de qualidade de dados.
Revise sua configuração. Para assegurar que sua regra esteja configurada corretamente, é possível testá-la antes de realmente salvá-la no projeto.
O resultado do teste da regra é exibido diretamente. Em geral, são exibidos no máximo 100 registros de exceção. Se você configurou alguma definição de saída, a saída corresponde à sua configuração. Se você não configurou nenhuma definição de saída, as colunas da instrução SELECT são exibidas.
Para alterar a configuração, clique no ícone Editar
no bloco e atualize as configurações. Quando sua revisão estiver concluída, clique em Criar ou Criar regra e definir tarefa. Para ambas as opções de criação, a regra e seu fluxo de e-mail ( DataStage ) relacionado são adicionados ao projeto. O nome padrão do fluxo “ DataStage ” é
DataStage flow of data rule <rulename>. Se você optar por criar apenas a regra, uma tarefa com configurações padrão será criada quando você executar a regra diretamente. Ou você pode criar uma tarefa com configurações personalizadas a qualquer momento posteriormente. Se você optar por definir também uma tarefa, poderá configurar diretamente as definições da tarefa. Para obter mais informações sobre as configurações, consulte Criação de tarefas para regras de qualidade de dados.
Se sua regra for configurada adequadamente sem nenhuma informação ausente, ela terá o status Pronto.. Esse status significa que a regra pode ser executada O status da regra Não pronto indica que a regra não pode ser executada por causa de erros de sintaxe SQL, dependências modificadas ou outros problemas de definição de regra Por exemplo, a senha para acessar a origem de dados mudou. É mais provável que esse status seja visto para regras de qualidade de dados criadas usando a API IBM Knowledge Catalog : Criar regra de qualidade de dados. Ao criar regras de qualidade de dados usando a API, certifique-se de testar e validar a regra.
Para confirmar que uma regra ainda é válida antes de ser executada manualmente, é possível verificar o status da regra selecionando Validar no menu overflow.