데이터 파이프라인과 데이터 세트에서 예상치 못한 불량 데이터를 제거하기 위해 IBM 데이터밴드는 자동 이상 징후 탐지 기능을 제공합니다.
오늘날의 데이터 플랫폼 팀은 데이터 안정성 및 품질 사고가 발생하면 대개 몇 시간 또는 며칠 후에 다운스트림 소비자가 발견하는 사후 대응을 하는 경우가 많습니다. 데이터 엔지니어링 팀에 책임이 있으며, 피해를 복구하는 데 몇 달이 걸릴 수도 있습니다.
IBM Databand 는 머신 러닝(ML) 기반 이상 징후 탐지 기능을 통해 데이터 인시던트가 발생하면 즉시 플래그를 지정합니다. 데이터 스택의 메타데이터에서 과거 기준선을 구축하고 작업이 기준선을 벗어날 때 스마트 알림 워크플로우를 사용합니다. 아무것도 놓치지 않고 빠르게 대응할 수 있습니다.
메타데이터에서 데이터 이상 징후를 실시간으로 감지하면 분석가들이 조사 결과에 대한 신뢰를 구축하여 더 나은 정보에 기반한 의사 결정과 더 나은 결과를 얻을 수 있습니다.
즉시 사용 가능하며 사용자 지정 가능한 트리거 알림을 통해 연중무휴 24시간 이상 징후를 감지하고 소비자에게 제공되는 모든 데이터가 정확하고 준비된 상태인지 확인할 수 있습니다.
과거 파이프라인 데이터를 탐색하면 엔지니어가 이상 징후를 소급하여 조사할 수 있으므로 향후 파이프라인 성능을 최적화할 수 있습니다.
Databand 는 ML 기반 탐지 기능을 사용하여 파이프라인과 데이터 세트 메타데이터에서 이상 징후를 지속적으로 분석하고 모니터링합니다. 룩백 매개변수와 민감도 설정을 조정하여 중앙 대시보드에 표시되는 알림을 미세 조정할 수 있습니다.
Databand 는 실행 기간, 작업 기간, 입력 횟수 및 출력 횟수와 같은 기본 제공 메트릭을 포함하여 심각도에 따라 우선순위가 지정된 모든 알림에 대한 단일 보기를 제공합니다. 또는 프로세스 및 데이터 품질 편차에 대한 임계값으로 사용자 지정 알림을 구성할 수도 있습니다.
Databand 는 작업 실행기의 메타데이터와 로그를 추적하여 한 곳에서 모든 로그 및 오류 정보에 액세스할 수 있도록 합니다. 데이터 및 코드 변경 추세를 비교하여 데이터 이상 현상의 근본 원인을 빠르게 파악하세요.
Databand 는 이미 사용하고 있는 데이터 파이프라인 및 통합 도구(예: Apache Airflow 및 IBM DataStage와 같이 이미 사용 중인 통합 도구와 통합되어 데이터 패브릭 및 최신 데이터 스택 전반에서 지속적인 데이터 관측이 가능합니다.