Métrica de avaliação de desvio de características
A métrica de avaliação de desvio de recurso mede a alteração na distribuição de valores para recursos importantes.
Detalhes da métrica
O desvio de recurso é uma métrica de avaliação de desvio v2 que avalia as alterações na distribuição de dados para modelos de aprendizado de máquina.
Escopo
A métrica de desvio de recurso avalia apenas os modelos de aprendizado de máquina.
Tipos de ativos de IA : Modelos de aprendizado de máquina
Pontuações e valores
A pontuação da métrica de desvio de recurso indica a alteração na distribuição de valores para recursos importantes.
- Melhor pontuação possível : 0.0
- Proporções :
- Em 0: Nenhuma alteração na distribuição de valores
- Acima de 0: aumento da mudança na distribuição de valores
Processo de avaliação
O desvio é calculado para recursos categóricos e numéricos medindo a distribuição de probabilidade de valores contínuos e discretos. Para identificar valores discretos para recursos numéricos, um logaritmo binário é usado para comparar o número de valores distintos de cada recurso com o número total de valores de cada recurso.
Fazer os cálculos
A seguinte fórmula de logaritmo binário é usada para identificar recursos numéricos discretos:
Se o distinct_values_count for menor que o logaritmo binário do total_count, o recurso será identificado como discreto.
A Distância de Jensen Shannon é a forma normalizada da Divergência de Kullback-Leibler (KL) que mede o quanto uma distribuição de probabilidade difere da segunda distribuição de probabilidade. A distância de Jensen Shannon é uma pontuação simétrica e sempre tem um valor finito.
A fórmula a seguir é usada para calcular a distância de Jensen Shannon para duas distribuições de probabilidade, linha de base (B) e produção (P):
O coeficiente de sobreposição é calculado medindo-se a área total da interseção entre duas distribuições de probabilidade. Para medir a dissimilaridade entre as distribuições, a interseção ou a área de sobreposição é subtraída de 1 para calcular a quantidade de desvio.
A fórmula a seguir é usada para calcular o coeficiente de sobreposição:
𝑥 é uma série de amostras equidistantes que abrangem o domínio de
e que vão do mínimo combinado dos dados de linha de base e de produção ao máximo combinado dos dados de linha de base e de produção.
é a diferença entre duas amostras 𝑥 consecutivas.
é o valor da função de densidade para dados de produção em uma amostra de 𝑥.
é o valor da função de densidade para dados de linha de base para uma amostra de 𝑥.
A distância de variação total mede a diferença máxima entre as probabilidades que duas distribuições de probabilidade, linha de base (B) e produção (P), atribuem à mesma transação, conforme mostrado na fórmula a seguir:
Se as duas distribuições forem iguais, a distância de variação total entre elas será 0.
A fórmula a seguir é usada para calcular a distância de variação total:
𝑥 é uma série de amostras equidistantes que abrangem o domínio de
e que vão do mínimo combinado dos dados de linha de base e de produção ao máximo combinado dos dados de linha de base e de produção.
é a diferença entre duas amostras 𝑥 consecutivas.
é o valor da função de densidade para dados de produção em uma amostra de 𝑥.
é o valor da função de densidade para dados de linha de base para uma amostra de 𝑥.
O denominador representa a área total sob os gráficos da função de densidade para os dados de produção e de linha de base. Essas somas são uma aproximação das integrações no espaço do domínio e ambos os termos devem ser 1 e o total deve ser