Data Quality for AI
모델 개발 속도를 높이고 생산성을 개선하기 위해 데이터를 검토, 수정, 리팩터링, 보충합니다.
API 평가판 시작하기
검정, 녹색, 파란색 배경
데이터 준비 작업이 업무의 80%를 차지한다면, 데이터 품질을 보장하는 것은 머신 러닝 팀의 중요한 업무라고 생각합니다. Andrew Ng, Professor of AI at Standford University and founder of DeepLearning.AI March 2021 https://www.deeplearning.ai/the-batch/issue-84/
IBM Research의 Data Quality for AI

이 Data Quality for AI(줄여서 DQAI) 서비스 프레임워크는 모델 개발자와 데이터 과학자가 모델 개발 라이프사이클에서 가장 많은 시간이 소요되는 예비 단계인 데이터 준비의 공식화되고 체계적인 프로그램을 구현할 수 있는 모든 도구를 제공합니다. 이 프레임워크는 감독 분류 또는 회귀 작업을 위해 준비 중인 데이터에 적합하며, 다음과 같은 작업을 수행하는 데 필요한 소프트웨어가 포함되어 있습니다.

- 품질 검사 구현
- 수정 실행
- 감사 보고서 생성
- 위 모든 작업 자동화

확장성과 반복성을 위해서는 작업의 파이프라인화가 필수적이지만, 포함된 기능은 맞춤형 데이터를 탐색하고 사람이 직접 모델을 개선하는 데에도 사용할 수 있습니다. 포함된 서비스를 활용하면 모델 개발 라이프사이클의 모든 단계에서 생산성을 높일 수 있으며, 특히 데이터 처리 초기인 데이터 준비 단계에서 유용하게 사용할 수 있습니다.

원본 데이터 소스에서 수행할 수 있는 모든 작업 외에도, 입력 데이터 세트에서 새로운 데이터를 합성할 수 있는 방법이 있습니다. 이 새로운 데이터는 원본 데이터의 제약 조건이나 개발자가 제공한 제약 조건을 학습하여 만들어지며, 원본 데이터를 보충하거나 대체하는 데 사용할 수 있습니다. 이는 규제 또는 계약상의 문제로 인해 모델링 작업에서 데이터를 직접 사용할 수 없는 경우, 다양한 제약 조건이 있는 데이터 세트를 탐색하려는 경우, 또는 학습에 더 많은 데이터가 필요한 경우에 유용할 수 있습니다.

이 제품은 표 형식 및 시계열 데이터와 개발 중인 새로운 지원 양식 모두에 사용하기에 적합합니다.

기능
데이터 유효성 검사

품질 점수와 이에 대한 인사이트를 제공하며, 점수를 낮추는 데 책임이 있는 특정 데이터 영역을 지목하고 해당 데이터 영역을 개선할 수 있는 방법을 추천하기도 합니다.


데이터 교정

품질 분석 방법에서 제공하는 권장 사항을 실행합니다. 이 툴킷은 표 형식 데이터 및 시계열 데이터를 포함한 다양한 데이터 유형을 지원합니다.


데이터 제약 조건

시스템이 학습하거나 사용자가 데이터의 특성(예: 경계, 간격 등)을 지정할 수 있습니다.


데이터 합성

첫 번째 데이터 집합의 특성과 분포를 가진 새 데이터 집합을 생성합니다.


파이프라인화

유효성 검사 도구와 교정 도구를 제약 조건과 함께 결합하여 사용 사례 또는 애플리케이션 워크플로우를 해결하고 전체 데이터 품질 점수를 출력합니다.


보고

적용된 품질 메트릭 및 데이터 변환의 델타 변경 사항을 기록하는 변경 사항의 자동화된 문서화

모델링 작업에서 어떤 이점을 얻을 수 있나요?
포괄적이고 호환 가능한 도구

Data Quality for AI는 공개적으로 사용 가능한 많은 알고리즘 IBM Research에서 독점적으로 개발한 새로운 방법을 위한 호환 가능한 단일 소스 역할을 합니다.

시간 및 비용 절감

다운스트림 작업에서 시도되는 실험 및 회귀 실현 횟수를 줄여 모델링 작업의 가치 실현 시간을 단축할 수 있습니다.

공식화 및 간소화된 운영

데이터 준비 프로세스를 공식화하고 단순화하는 툴을 제공하여 전사적으로 AI 도입 장벽을 낮출 수 있습니다.

팀 표준화 및 조정

AI 스튜어드, 데이터 과학자, 주제별 전문가, AI 리스크 책임자, 비즈니스 사용자 등 정의된 역할에 대해 운영 효율성과 생산성을 획기적으로 개선합니다.

포함된 유틸리티 샘플
데이터 유효성 검사

— 라벨 순도 검사 — 데이터 동질성 검사 — 클래스 패리티 검사 — 완전성 검사 — 이상값 감지 검사 — 특징 상관관계 검사 — 데이터 편향성 검사 — 특징 중복성 검사 — 그 외 다양한 유틸리티

데이터 교정

— 순도 교정 — 비균질성 교정 — 클래스 불균일성 교정 — 불완전 교정 — 이상값 제거 — 특징 상관 관계 제거 — 데이터 편향 제거 — 특징 중복 제거 — 그 외 다양한 유틸리티