Métrica de avaliação de desvio de características

A métrica de avaliação de desvio de recurso mede a alteração na distribuição de valores para recursos importantes.

Detalhes da métrica

O desvio de recurso é uma métrica de avaliação de desvio v2 que avalia as alterações na distribuição de dados para modelos de aprendizado de máquina.

Escopo

A métrica de desvio de recurso avalia apenas os modelos de aprendizado de máquina.

Tipos de ativos de IA : Modelos de aprendizado de máquina

Pontuações e valores

A pontuação da métrica de desvio de recurso indica a alteração na distribuição de valores para recursos importantes.

  • Melhor pontuação possível : 0.0
  • Proporções :
    • Em 0: Nenhuma alteração na distribuição de valores
    • Acima de 0: aumento da mudança na distribuição de valores

Processo de avaliação

O desvio é calculado para recursos categóricos e numéricos medindo a distribuição de probabilidade de valores contínuos e discretos. Para identificar valores discretos para recursos numéricos, um logaritmo binário é usado para comparar o número de valores distintos de cada recurso com o número total de valores de cada recurso.

Fazer os cálculos

A seguinte fórmula de logaritmo binário é usada para identificar recursos numéricos discretos:

A fórmula do logaritmo binário é exibida

Se o distinct_values_count for menor que o logaritmo binário do total_count, o recurso será identificado como discreto.

A Distância de Jensen Shannon é a forma normalizada da Divergência de Kullback-Leibler (KL) que mede o quanto uma distribuição de probabilidade difere da segunda distribuição de probabilidade. A distância de Jensen Shannon é uma pontuação simétrica e sempre tem um valor finito.

A fórmula a seguir é usada para calcular a distância de Jensen Shannon para duas distribuições de probabilidade, linha de base (B) e produção (P):

A fórmula da distância de Jensen Shannon é exibida

O coeficiente de sobreposição é calculado medindo-se a área total da interseção entre duas distribuições de probabilidade. Para medir a dissimilaridade entre as distribuições, a interseção ou a área de sobreposição é subtraída de 1 para calcular a quantidade de desvio.

A fórmula a seguir é usada para calcular o coeficiente de sobreposição:

A fórmula do coeficiente de sobreposição é exibida

  • 𝑥 é uma série de amostras equidistantes que abrangem o domínio de circunflexo f é exibido e que vão do mínimo combinado dos dados de linha de base e de produção ao máximo combinado dos dados de linha de base e de produção.

  • o símbolo d(x) é exibido é a diferença entre duas amostras 𝑥 consecutivas.

  • explicação da fórmula é o valor da função de densidade para dados de produção em uma amostra de 𝑥.

  • explicação da fórmula é o valor da função de densidade para dados de linha de base para uma amostra de 𝑥.

A distância de variação total mede a diferença máxima entre as probabilidades que duas distribuições de probabilidade, linha de base (B) e produção (P), atribuem à mesma transação, conforme mostrado na fórmula a seguir:

A fórmula de distribuição de probabilidade é exibida

Se as duas distribuições forem iguais, a distância de variação total entre elas será 0.

A fórmula a seguir é usada para calcular a distância de variação total:

A fórmula da distância de variação total é exibida

  • 𝑥 é uma série de amostras equidistantes que abrangem o domínio de circunflexo f é exibido e que vão do mínimo combinado dos dados de linha de base e de produção ao máximo combinado dos dados de linha de base e de produção.

  • o símbolo d(x) é exibido é a diferença entre duas amostras 𝑥 consecutivas.

  • explicação da fórmula é o valor da função de densidade para dados de produção em uma amostra de 𝑥.

  • explicação da fórmula é o valor da função de densidade para dados de linha de base para uma amostra de 𝑥.

O denominador explicação da fórmula representa a área total sob os gráficos da função de densidade para os dados de produção e de linha de base. Essas somas são uma aproximação das integrações no espaço do domínio e ambos os termos devem ser 1 e o total deve ser