IBM Watson Knowledge Catalog란 무엇인가요?

IBM Watson® Knowledge Catalog는 데이터 사이언스 및 모든 형태의 AI를 활성화하기 위해 손쉽게 접근하여 사용할 수 있도록 사용자가 상주 위치와 무관하게 머신 러닝 모델과 정형, 비정형 데이터를 포함하여 지식과 분석 자산을 카탈로그화할 수 있도록 해주는 클라우드 기반의 엔터프라이즈 메타데이터 저장소입니다.

선택된 소스 유형에 대해 Watson Knowledge Catalog는 제공된 연결에서 데이터 자산을 자동으로 검색하고 등록할 수 있습니다. 자산이 카탈로그에 추가되면 자동으로 색인화되고 분류되므로 데이터 엔지니어, 데이터 사이언티스트, 데이터 관리자 및 비즈니스 분석가와 같은 사용자가 손쉽게 자산을 검색하고, 이해하고, 공유하고, 사용할 수 있습니다. AI 기반의 검색과 추천은 자산 간의 관계, 이러한 자산의 사용 방법 및 사용자 간의 소셜 연결에 대한 이해를 기반으로 카탈로그에서 가장 관련성이 큰 자산으로 사용자를 안내합니다.

또한 Watson Knowledge Catalog는 올바른 사용자에게 올바른 데이터의 전달을 보장하기 위해 데이터 및 액세스 정책을 정의하고 시행할 수 있도록 허용하는 강력한 지능형 거버넌스 프레임워크도 제공합니다.  

Watson Knowledge Catalog 비즈니스 용어집으로 사용자는 공통 비즈니스 어휘를 작성하고 이를 자산, 정책 및 규칙과 연관시킴으로써 비즈니스 도메인과 기술 자산을 연결시킵니다.

Watson Knowledge Catalog는 어떤 지역에 배치될 수 있나요?

지역 데이터 제한사항이 있는 경우에는 다음 도시 중 하나에 이를 배치할 수 있습니다. 달라스, 런던, 프랑크푸르트, 도쿄.

Watson Knowledge Catalog는 전 세계 어디에서나 사용할 수 있나요?

예. 미국 외에도 영국, 독일일본에서 Watson Knowledge Catalog에 등록할 수 있습니다.

내 데이터를 Watson Knowledge Catalog로 이동해야 하나요?

아니요. 기존 저장소에 데이터를 보관할 수 있습니다. Watson Knowledge Catalog는 자산의 메타데이터를 저장합니다.

지원되는 데이터 소스와 자산 유형은 무엇인가요?

IBM은 원격 데이터 자산에 연결할 수 있도록 해주는 클라우드 또는 온프레미스 데이터 소스 유형에 대해 30개 이상의 커넥터를 제공합니다. 예를 들어, 클라우드 또는 온프레미스의 IBM Db2®, IBM Cloudant®, IBM Cloud™ Object Storage, Oracle, Microsoft SQL Server, Microsoft Azure, Amazon S3, Salesforce.com, Hortonworks HDFS, Sybase 등에 대한 커넥터가 IBM에서 제공됩니다.

원격 데이터 소스의 자산 외에도 Watson Knowledge Catalog에서는 정형(행/열), 반정형 및 비정형 데이터와 같은 기타 자산 유형을 지원합니다. 예를 들어, 몇 가지만 예로 들자면 CSV, Microsoft Excel, PDF, 텍스트, Microsoft Word, Jupyter Notebook(IPYNB), 이미지 및 HTML 파일을 프로파일링할 카탈로그에 추가하고 이를 기타 사용자와 공유할 수 있습니다.

Watson Knowledge Catalog에 포함할 수 있는 최대 자산 수는 몇 개인가요?

Professional 플랜을 사용하는 경우에는 Knowledge Catalog에 포함할 수 있는 자산 수에 제한이 없습니다. Standard 및 Lite 플랜에서 자산의 한계는 각각 500개와 50개입니다.

Watson Knowledge Catalog는 관리 서비스를 제공하나요?

Watson Knowledge Catalog에는 정책 및 발생한 조치를 기반으로 결과를 판별하게 될 자동화된 정책 시행 엔진이 포함되어 있습니다. Watson Knowledge Catalog가 시스템 내의 거버넌스 정책을 설정하는 기능을 제공하므로, 사용자는 민감한 콘텐츠를 마스킹하여 데이터를 변환하거나 데이터에 대한 액세스를 제한할 수 있습니다.  

데이터를 마스킹하는 데이터 정책으로 원래 데이터 소스를 삭제하거나 변경할 수 있나요?

아니요. 데이터 보호 정책이 카탈로그에서 민감한 데이터를 익명으로 처리하는 경우에는 애플리케이션에서 관리하는 미리보기 데이터만 변환됩니다. 원래 소스 데이터는 수정되지 않습니다.

Watson Knowledge Catalog는 분류 서비스를 제공하나요?

Watson Knowledge Catalog는 카탈로그에 추가 시 데이터 자산의 열을 자동으로 분류할 수 있습니다. 기본 제공되는 컴포넌트는 이름, 이메일, 우편주소, 신용카드번호, 운전면허증번호, 주민등록번호, 생년월일, 인구정보, DUNS(Data Universal Numbering System) 번호 등을 포함하여 160개 이상의 속성 분류기를 제공합니다. 또한 카탈로그는 비정형 데이터 자산을 프로파일링하고 콘텐츠에서 메타데이터를 추출합니다(예: 카테고리, 개념, 정서 및 감정). 데이터 자산 프로파일링을 참조하세요.

Watson Knowledge Catalog에 데이터 준비 기능이 있나요?

예, 있습니다. 데이터 준비 기능은 Watson Knowledge Catalog의 일부인 Data Refinery를 통해 사용될 수 있습니다. Data Refinery는 기본 제공되는 오퍼레이션을 사용하여 데이터를 검색, 정리 및 변환할 수 있도록 해주며, 데이터와 상호작용하여 이를 파악할 수 있도록 도와주는 강력한 프로파일링 및 시각화 툴(예: 차트, 그래프 및 통계)도 지원하는 풍부한 기능 세트를 제공합니다. 또한 Watson Knowledge Catalog에서 정의된 데이터 액세스 및 변환 정책은 통제된 카탈로그에서 유래된 민감한 데이터의 보호가 지속될 수 있도록 보장하기 위해 Data Refinery에서도 시행됩니다.

서로 다른 비즈니스 라인의 사람들에 대해 액세스 그룹을 설정할 수 있나요?

예, 가능합니다. 액세스 그룹은 IBM Cloud Identity and Asset Management를 통해 설정될 수 있습니다. Watson Knowledge Catalog의 액세스 제어 모듈에서 사용자는 협업자 또는 사용자 그룹을 추가할 수 있습니다.

용량 단위 시간이란 무엇인가요?

Data Refinery 플로우, Data Refinery 대화식 UI 및 프로파일링 작업은 각 용량 유형마다 시간당 필요한 용량 단위 또는 전체 수에 대해 비용이 청구됩니다.

  • Data Refinery 플로우는 기본 Spark 환경에서 시간당 1.5 용량 단위를 필요로 합니다. 기타 커스터마이징 환경의 경우, 계산은 Spark 드라이버와 실행기에 사용되는 리소스 및 실행자의 수에 따라 다릅니다.
  • Data Refinery 대화식 UI에서는 시간당 1.5 용량 단위가 필요합니다(Refinery UI를 시작하면 시작되고 Refinery UI를 마치면 종료됨).
  • 프로파일링 작업에서는 시간당 6개의 용량 단위가 필요합니다. 각 작업 실행에 대해 0.96(10분에 해당함)의 최소 비용이 적용됩니다.

무료 용량 단위 시간의 세트 번호가 월의 각 플랜에 포함됩니다. Standard 및 Professional 플랜의 경우, 비용은 해당 월에 대해 플랜 한계에 도달된 이후에 적용됩니다. Lite 플랜의 경우, 해당 월에 대한 플랜 한계에 도달된 이후에는 어떤 Data Refinery 플로우나 프로파일링 작업도 다음 달까지는 또는 플랜이 Standard 또는 Professional 플랜으로 업그레이드될 때까지는 실행될 수 없습니다.

기본 용량 유형 3을 사용하는 Data Refinery 플로우 예제:

  1. 1개의 Data Refinery 플로우가 1시간 동안 실행됨: 1.5 CUH
  2. 2개의 Data Refinery 플로우가 각각 1시간 동안 실행됨: 2시간 * 1.5 CUH = 3 CUH
  3. 1개의 Data Refinery 플로우가 30분 동안 실행됨: 0.5시간 * 1.5 CUH = 0.75 CUH
  4. 대화식 Data Refinery UI가 1시간 동안 사용됨: 1.5 CUH

프로파일링 예제(프로파일링 작업은 자동 또는 수동으로 트리거될 수 있음):

  1. 프로파일링 작업이 30분 동안 실행됨: 0.5시간 * 6 CUH = 3 CUH
  2. 프로파일링 작업이 9분 동안 실행됩니다. 최소 비용이 이 시나리오에서 적용됨: 0.16시간 * 6 CUH = 0.96 CUH

Standard 또는 Professional 플랜을 구매한 후에 제품을 최대한 활용하려면 얼마나 많은 셋업이 필요한가요?

Watson Knowledge Catalog는 모두 셀프 서비스입니다. 따라서 관리자는 카탈로그를 작성한 후 바로 자산을 추가하거나 조정하여 이를 시작할 수 있습니다. 추가적인 태스크에는 다음이 포함될 수 있습니다.

  • 비즈니스 용어집 구축
  • 데이터에 대한 액세스를 통제하기 위한 데이터 보호 정책 정의
  • 카탈로그에 사용자 초대

IBM Cloud Pak for Data에서 이를 사용할 수 있나요?

예, 가능합니다. IBM의 최근에 통합된 데이터 플랫폼에 대해 자세히 보기: IBM Cloud Pak™ for Data

Watson Knowledge Catalog 체험하기

머신 러닝과 AI를 활용하여 데이터를 분석할 수 있습니다. 손쉽게 찾아서 사용할 수 있도록 데이터를 카탈로그화할 수 있습니다.