초안: IBM 에서 매칭 알고리즘 사용자 지정 및 강화하기 Master Data Management
IBM ( Master Data Management )가 레코드를 매칭하여 마스터 데이터 엔티티를 생성하는 방식을 제어하기 위해 매칭 알고리즘을 조정하고 사용자 지정하십시오.
- 필수 권한
- 마스터 데이터 인스턴스를 구성하려면 서비스의 IBMMaster Data Management 사용자 DataEngineer 그룹 구성원이어야 합니다.
매칭 알고리즘을 구성하고 튜닝하는 데에는 네 가지 핵심 단계가 있습니다:
일치하는 속성 선택 중. 매칭 과정에서 비교할 속성을 선택함으로써, 매칭 알고리즘에 있어 어떤 데이터 포인트가 가장 중요한지 지정할 수 있습니다. 강력한 차별 요소인 속성을 선택하는 것이 중요합니다. 운전면허증 번호와 같은 고유 식별자는 훌륭한 대조 속성입니다. 매칭을 처음 실행하기 전에 일치하는 속성을 선택해야 합니다. 자세한 내용은 ‘일치하는 속성 선택’을 참조하십시오.
쌍 리뷰 요청 및 완료 쌍 검토를 요청하여 매칭 알고리즘의 가중치와 매칭 임계값을 최적화하는 지능형 튜닝 권장 사항을 생성하십시오. 쌍 검토 과정에서 데이터 관리자는 기록 쌍을 비교하여 일치 여부(일치, 가능성 있음, 일치하지 않음)를 판단합니다. 데이터 관리자의 답변은 결과적인 튜닝 권장 사항을 결정하는 데 활용됩니다. 자세한 내용은 ‘쌍 검토 요청하기 ’를 참조하세요.
튜닝 권장 사항 적용 중. 하나 이상의 페어 리뷰 작업이 완료되면, 데이터 엔지니어는 튜닝 권장 사항을 생성하고 이를 검토한 뒤 예상 결과를 확인한 후, 이를 적용할지 여부를 결정할 수 있습니다. 자세한 내용은 ‘튜닝 권장 사항 적용’을 참조하십시오.
자동 링크 및 사무적 검토 기준 정의. 쌍 검토에서 조정 권장 사항을 수락하면 자동 연결 및 교정 임계값이 자동으로 결정되지만, 필요한 경우 언제든지 수동으로 임계값을 재설정할 수 있습니다. 자세한 내용은 ‘자동 링크 및 사서 검토 기준값 수동 변경’을 참조하십시오.
REST IBMMaster Data Management API를 사용하는 고급 알고리즘 조정 절차에 대한 정보는 고급 매칭 알고리즘 조정을 참조하십시오.
매칭 알고리즘의 임계값 이해하기
IBM ( Master Data Management )가 수행하는 각 레코드 간 일치 비교는 일치 점수를 산출합니다. 이 점수는 0에서 100 사이의 백분율 값으로, 0은 확실히 일치하지 않는 경우를, 100은 확실히 일치하는 경우를 나타냅니다. 매칭 알고리즘 구성의 일환으로 데이터 엔지니어는 두 가지 임계값을 정의할 수 있습니다:
자동 연결 임계 값은 알고리즘이 두 레코드 간 자동 일치 결정을 내리기 위한 최소 일치 점수를 정의합니다.
- 자동 링크 임계값이 낮으면 전체 일치 건수가 증가하지만, 오탐 일치도 더 많이 발생할 가능성이 있습니다.
- 자동 연결 임계값이 높으면 전체 일치 건수는 줄어들고 단일 멤버 레코드로만 구성된 단일체 엔티티가 더 많아지며, 오탐지(false negative)로 인한 미일치 사례도 더 많이 발생할 가능성이 있습니다.
사무적 검토 기준 은 잠재적 일치 항목에 대한 최소 일치 점수를 정의합니다. 사무적 검토 기준점 미만의 점수는 부적합으로 간주됩니다. 설정된 경우, 시스템은 사무적 검토 기준값과 자동 연결 기준값 사이에 해당하는 점수를 잠재적 일치 워크플로를 통해 전송하여 데이터 관리자가 수정할 수 있도록 합니다.
일치 알고리즘 조정 준비
아직 데이터에 대해 매칭을 실행하지 않았다면, 매칭을 실행하기 전에 매칭 속성을 선택해야 합니다. 필요한 경우 선택사항을 변경할 수 있습니다.
매칭을 한 번 이상 실행하기 전에는 자동 링크 설정의 민감도 조정이나 쌍 검토 요청을 할 수 없습니다. 이 제한사항으로 인해 기본 민감도에서 임계값을 변경하기 위한 일부 비교 기준이 마련됩니다. 예를 들어, 데이터의 허위 양성 일치가 너무 많음을 알게 되면 민감도를 올릴 수 있습니다. 싱글톤 레코드가 너무 많으면 민감도를 낮출 수 있습니다.
팁: 매칭 알고리즘 설정을 변경하기 전에, 현재 설정을 저장하기 위해 새로운 구성 스냅샷을 생성하는 것을 고려해 보세요. 스냅샷을 생성해 두면 변경 결과에 만족하지 못할 경우 나중에 이전 구성으로 쉽게 되돌릴 수 있습니다. 스냅샷 생성에 대한 자세한 내용은 ‘스냅샷을 사용하여 마스터 데이터 구성 설정 저장 및 불러오기’를 참조하십시오.
일치 속성 선택
매칭 알고리즘에서 사용하는 IBMMaster Data Management 속성을 선택하려면:
마스터 데이터 탐색 메뉴에서 ‘데이터 유형’을 클릭합니다.
‘엔티티 유형’을 클릭한 다음, 매칭 알고리즘을 조정하려는 엔티티 유형을 선택하고 ‘편집’ 아이콘을 클릭합니다.
매치 설정 탭으로 이동한 후 사이드바에서 속성 선택을 선택하여 데이터 매칭에 사용할 속성을 선택하십시오. 이 탭( IBM )을 처음 열면, Master Data Management 에서 데이터 유형을 기반으로 적합한 속성을 자동으로 제안해 줍니다.
일치하는 속성 목록 및 해당 컴포넌트 필드를 검토하십시오. 매칭 알고리즘은 이러한 속성과 필드를 사용하여 레코드를 비교하고 마스터 데이터 엔티티를 생성합니다. 목록에서 속성을 추가하거나 제거하려면 속성 편집을 클릭하고 필요에 따라 속성 및 해당 컴포넌트 필드를 선택하거나 지우십시오.
일치 속성을 선택할 때는 ‘일치 강도’ 표시기를 사용하여 변경 사항이 일치 알고리즘에 미치는 영향을 대략적으로 확인할 수 있습니다.
데이터 유형 정의에 사용자 정의 속성을 추가한 경우, 기본적으로 매칭 시 고려 대상에서 제외됩니다. 일치하는 사용자 정의 속성 유형을 사용하려는 경우 이를 선택한 후 고려할 필드를 지정해야 합니다. 필드를 지정하지 않으면 매칭 알고리즘이 해당 속성을 사용할 수 없습니다.
사용자 정의되지 않은 (사전 정의) 속성 유형의 경우 고려할 필드를 지정하지 않으면 일치하는 알고리즘이 기본 필드 세트를 사용합니다.
선택한 매칭 속성에 만족하시면 ‘저장’을 클릭하세요.
업데이트된 설정에 따라 일치하는 엔티티를 다시 생성하십시오. 작업 표시줄에서 ‘실행’ 아이콘을
클릭하세요.
일치 프로세스는 완료하는 데 약간의 시간이 소요됩니다. 백그라운드에서 실행하므로 사용자는 작업을 계속할 수 있습니다. 완료되면 통지를 받고 일치 결과 탭에서 결과의 세부사항을 검토할 수 있습니다.
매칭 알고리즘을 훈련하기 위해 페어 리뷰를 요청합니다
페어 리뷰를 활용하여 매칭 알고리즘을 조정하고 훈련시키세요. 데이터 엔지니어는 데이터 관리자에게 페어 리뷰를 요청하고, 해당 리뷰 결과를 바탕으로 튜닝 권장 사항을 도출한 뒤, 이를 수용할지 여부를 결정할 수 있습니다.
쌍 검토 작업 중에 데이터 관리자는 기록 쌍을 검토하여 서로 일치하는지 확인합니다. 신발 리뷰가 한 건씩 추가될 때마다, IBM Master Data Management 는 알고리즘 최적화를 위한 권장 사항을 도출하는 데 필요한 데이터를 더 많이 확보하게 됩니다. 검토되는 쌍이 많을수록 튜닝 권장 사항의 정확도가 높아집니다.
각 조직마다 잘못된 일치에 대한 위험 허용도 수준이 다릅니다. 페어 리뷰를 통해 가장 적합한 매칭 설정을 파악할 수 있습니다.
페어 리뷰 결과 외에도, IBM Master Data Management 에서 알고리즘에 대한 권장 설정을 생성할 때 데이터 관리자가 실제로 취한 조치를 고려 대상에 포함하도록 선택할 수 있습니다.
쌍 리뷰를 요청하려면:
마스터 데이터 탐색 메뉴에서 ‘데이터 유형’을 클릭합니다.
‘엔티티 유형’을 클릭한 다음, 매칭 알고리즘을 조정하려는 엔티티 유형을 선택하고 ‘편집’ 아이콘을 클릭합니다.
사이드바에서 알고리즘 튜닝을 선택하여 알고리즘 튜닝 도구에 접근하십시오. 화면을 아래로 스크롤하여 ‘페어 분석’ 섹션으로 이동하세요.
‘페어 분석 ’ 섹션에서 ‘페어 검토 요청’을 클릭하세요.
이 작업의 일환으로 검토해야 할 레코드 쌍의 수를 선택하십시오. 더 많은 쌍을 검토하면 더 나은 튜닝 권장 사항을 얻을 수 있습니다. IBM Master Data Management 일부 쌍 검토를 완료하고 매칭을 실행하기 전까지는 오탐지율과 누락률을 표시할 수 없습니다.
참고: 실제로 생성되는 쌍의 수는 이 단계에서 정의된 수와 정확히 일치하지 않을 수 있습니다. 생성된 레코드 쌍의 수는 시스템 내 사용 가능한 데이터 양 및 기타 요인에 따라 달라집니다.IBM ( Master Data Management )가 검토를 위해 샘플 레코드 쌍을 가져올 레코드 소스를 선택하십시오. ‘기록 출처’ 속성은 마스터 데이터의 모든 레코드에 포함되어 있습니다.
요청 보내기를 클릭하세요.
IBM Master Data Management 레코드 쌍을 생성하고 쌍 검토 작업을 생성하기 시작합니다. 이 페이지의 ‘페어 분석 ’ 섹션에서는 검토 상태( 대기 중, 진행 중, 완료 )를 알려줄 뿐만 아니라, 현재 진행 중인 검토 작업의 진행 상황도 추적해 줍니다.
데이터 관리자 사용자로서 페어 리뷰 작업을 완료하는 방법에 대한 정보는 페어 리뷰 완료를 참조하십시오.
튜닝 권장 사항 생성 및 적용
페어 리뷰 작업의 결과를 활용하여 튜닝 권장 사항을 도출할 수 있습니다. 선택 사항으로, 수동 연결, 수동 연결 해제, 잠재적 일치 항목 수정 작업 등 시스템 내 마스터 데이터를 유지 관리하기 위해 데이터 스튜어드 사용자가 수행한 실제 작업들을 포함하도록 선택할 수도 있습니다.
페어 리뷰 결과를 관리하고 튜닝 권장 사항을 생성하려면:
마스터 데이터 탐색 메뉴에서 ‘데이터 유형’을 클릭합니다.
‘엔티티 유형’을 클릭한 다음, 매칭 알고리즘을 조정하려는 엔티티 유형을 선택하고 ‘편집’ 아이콘을 클릭합니다.
사이드바에서 알고리즘 튜닝을 선택하여 알고리즘 튜닝 도구에 접근하십시오. 화면을 아래로 스크롤하여 ‘페어 분석’ 섹션으로 이동하세요.
‘페어 분석 ’ 섹션에서 시스템 내 보류 중, 진행 중 또는 완료된 페어 검토 작업의 상태를 확인하십시오.
표에서 하나 이상의 쌍 검토 작업을 선택하면, 검토된 쌍의 총 수와 일치, 불일치, 또는 불확실한 일치로 판정된 쌍의 수와 같은 정보를 확인할 수 있습니다.
팁: 더 이상 필요하지 않거나 유효하지 않은 페어 리뷰 작업을 삭제하려면, 표에서 해당 작업을 선택한 다음 [삭제]를 클릭하세요.
새로운 튜닝 권장 사항 생성:
- 표에서 ‘ IBM ’ Master Data Management 에 대한 검토 작업 한 개 이상을 선택하여, 해당 알고리즘에 대한 조정 권장 사항을 생성할 때 이를 반영하도록 하십시오.
- 권장 사항에 실제 관리 결정을 반영하려면 ‘권장 사항 생성 시 관리 결정 고려’를 선택하세요.
- ‘튜닝 시작’을 클릭하세요. IBM Master Data Management 추천 결과를 생성하는 데 시간이 좀 걸립니다.
권장 사항이 준비되면 현재 설정 옆의 패널에 표시됩니다. 권장 사항에 따른 예상 결과를 현재 설정의 결과와 비교해 볼 수 있습니다.
현재 설정 및 권장 설정에 대한 매칭 결과에 관한 추가 예측 및 통계를 확인하려면 아래로 스크롤하여 혼동 행렬을 살펴보세요. 혼동 행렬을 사용하여 매칭 알고리즘의 예측 결과를 다음 성능 지표와 비교하여 시각화하고 정확도를 평가하십시오:
- 정탐(True positives)
- 미탐(False negatives)
- 민감도
- 오탐(False positives)
- 정탐(True negatives)
- 특이도
- 정밀도
- 음의 정밀도
- 정확도
혼동 행렬에 포함된 각 지표의 정의는 화면상의 용어집을 참조하십시오.
생성된 튜닝 권장 사항을 적용하려면:
‘알고리즘 조정’ 페이지의 ‘활성 임계값 설정’ 섹션에서 현재 매칭 알고리즘 설정과 함께 현재 오탐지율 및 누락률 추정치를 확인하십시오.
충분한 수의 쌍 검토를 완료하고 매칭을 실행하기 전까지는 시스템에서 오탐지율과 누락률을 표시할 수 없습니다.
'권장 설정 ' 섹션에서 매칭 알고리즘 설정에 대한 권장 업데이트 내용을 확인하십시오. 이 추천은 귀하가 검토한 쌍과 관리자의 조치를 바탕으로, 오탐률과 누락률이 가장 낮은 기준을 반영한 것입니다.
권장 설정을 적용하려면 ‘설정 적용’을 클릭하세요. 권장 사항을 적용하면 자동 링크 민감도와 각 속성의 연관된 일치 가중치가 변경됩니다.
선택 사항: 권장 설정의 사본을 저장하려면 ‘권장 설정 내보내기’를 클릭하세요.
업데이트된 설정에 따라 일치하는 엔티티를 다시 생성하십시오. ‘경기 결과 ’ 탭으로 이동한 다음, 작업 표시줄에서 ‘경기 검색’ 아이콘을
클릭하세요.
일치 프로세스는 완료하는 데 약간의 시간이 소요됩니다. 백그라운드에서 실행하므로 사용자는 작업을 계속할 수 있습니다. 완료되면 통지를 받고 일치 결과 탭에서 결과의 세부사항을 검토할 수 있습니다.
자동 링크 및 사무적 검토 임계값 수동 변경
쌍 검토를 활용하여 추천을 생성하지 않는다면, 요구 사항에 맞는 자동 링크 및 사무적 검토 감도를 찾는 데 시행착오가 필요할 수 있습니다. 조직의 특정 요구사항에 따라 민감도를 조정하고 데이터를 두 번 이상 다시 일치시키는 프로세스를 반복해야 할 수도 있습니다.
시스템은 자동 링크 민감도(0~100)에 최대 일치 점수를 곱하여 총 자동 링크 임계값을 계산하며, 이 최대 일치 점수는 선택된 일치 속성과 해당 속성의 최대 가중치에 따라 결정됩니다.
매칭 알고리즘의 자동 연결 및 수동 검토 기준값을 수동으로 변경하려면:
마스터 데이터 탐색 메뉴에서 ‘데이터 유형’을 클릭합니다.
‘엔티티 유형’을 클릭한 다음, 매칭 알고리즘을 조정하려는 엔티티 유형을 선택하고 ‘편집’ 아이콘을 클릭합니다.
사이드바에서 알고리즘 튜닝을 선택하여 알고리즘 튜닝 도구에 접근하십시오.
‘활성 임계값 ’ 섹션의 현재 설정과 현재 오탐지율 및 누락률 추정치를 확인하십시오.
충분한 수의 쌍 검토를 완료하고 매칭을 실행하기 전까지는 시스템에서 오탐지율과 누락률을 표시할 수 없습니다.
슬라이더를 사용하거나 숫자 값을 입력하여 자동 링크 및 서면 검토 임계값을 업데이트한 후 '임계값 적용'을 클릭하세요. 알고리즘 변경 사항을 적용하려면 매칭을 실행하라는 메시지가 표시됩니다.
원하는 경우, ‘사무 검토 활성화’ 토글 스위치를 사용하여 사무 검토 범위를 비활성화할 수 있습니다. 사무적 검토 범위를 비활성화하면 알고리즘은 일치 여부만 판단할 수 있으며, 데이터 관리자가 수정할 수 있도록 잠재적 일치 항목을 대기열에 추가할 수 없습니다.
업데이트된 설정에 따라 일치하는 엔티티를 다시 생성하십시오. ‘경기 결과 ’ 탭으로 이동한 다음, 작업 표시줄에서 ‘경기 검색’ 아이콘을
클릭하세요.
일치 프로세스는 완료하는 데 약간의 시간이 소요됩니다. 백그라운드에서 실행하므로 사용자는 작업을 계속할 수 있습니다. 처리가 완료되면 알림이 전송되며, 이후 ‘매칭 결과’ 탭에서 결과 세부 정보를 확인할 수 있습니다.