UNCERT 비교
정보 이론 원리를 바탕으로 작성된 알고리즘을 사용하여 두 문자열의 유사성을 평가합니다.
가중치는 문자열 길이, 전위 수 및 지정되지 않은 문자의 삽입, 삭제 또는 대체 수 기능으로 비교하는 두 문자열 사이의 차이에 따라 지정됩니다. 긴 단어에서는 짧은 단어보다 오류가 발생하기 쉬우므로 문자열 길이는 중요한 고려사항입니다. 즉, 긴 단어에서 발생한 오류 수가 짧은 단어에서 발생한 오류 수와 동일한 경우에는 긴 단어를 더욱 잘 이해할 수 있습니다.
필수 열
다음의 데이터 소스 및 참조 소스 열은 필수사항입니다.
- 바로 데이터입니다. 데이터 소스의 문자열.
이 비교를 벡터 및 역방향 일치와 함께 사용할 수 있습니다. 매치 디자이너에서 사용할 벡터를 생성하려면 DataStage 의 " Make Vector stage "를 참조하십시오.
- 참고. 참조 소스의 문자열(두 소스 일치에만 적용됨).
필수 매개변수
다음의 매개변수가 필요합니다.
Param 1. 컷오프 임계값은
0 - 900의 숫자입니다.
- 900. 두 문자열은 동일합니다.
- 850. 두 문자열은 동일하다고 안전하게 간주할 수 있습니다.
- 800. 두 문자열은 아마도 동일할 것이다.
- 750. 두 문자열은 아마도 다를 것입니다.
- 700. 두 문자열은 거의 확실히 다릅니다.
매개변수의 Param 1 값이 높을수록, Param 1 매개변수의 값이 낮을 때보다 일치 조건에서 허용되는 차이점이 줄어듭니다.
예
지정된 가중치는 일치 가중치와 불일치 가중치 사이에 선형으로 비례합니다. 예를 들어, 700을 지정하고 점수가 700 이하인 경우 전체 불일치 가중치가 지정됩니다. 문자열이 정확히 일치하면 전체 일치 가중치가 지정됩니다.
다른 예로 MatchParm에 850을 지정한다고 가정합니다. 즉, 허용치가 상대적으로 낮아집니다. 점수가 800이면 지정한 매개변수보다 낮기 때문에 전체 불일치 가중치를 받게 됩니다. 점수 800이 문자열이 거의 동일함을 의미하더라도 낮은 허용치가 필요합니다.