AI 및 ML Data Quality for AI Data Quality for AI
모델 개발 속도를 높이고 생산성을 개선하기 위해 데이터를 검토, 수정, 리팩터링, 보충합니다.
API 평가판 시작하기
검정, 녹색, 파란색 배경
데이터 준비 작업이 업무의 80%를 차지한다면, 데이터 품질을 보장하는 것은 머신 러닝 팀의 중요한 업무라고 생각합니다. Andrew Ng, Professor of AI at Standford University and founder of DeepLearning.AI March 2021 https://www.deeplearning.ai/the-batch/issue-84/
IBM Research의 Data Quality for AI

이 Data Quality for AI(줄여서 DQAI) 서비스 프레임워크는 모델 개발자와 데이터 과학자가 모델 개발 라이프사이클에서 가장 많은 시간이 소요되는 예비 단계인 데이터 준비의 공식화되고 체계적인 프로그램을 구현할 수 있는 모든 도구를 제공합니다. 이 프레임워크는 감독 분류 또는 회귀 작업을 위해 준비 중인 데이터에 적합하며, 다음과 같은 작업을 수행하는 데 필요한 소프트웨어가 포함되어 있습니다.

- 품질 검사 구현
- 수정 실행
- 감사 보고서 생성
- 위 모든 작업 자동화

확장성과 반복성을 위해서는 작업의 파이프라인화가 필수적이지만, 포함된 기능은 맞춤형 데이터를 탐색하고 사람이 직접 모델을 개선하는 데에도 사용할 수 있습니다. 포함된 서비스를 활용하면 모델 개발 라이프사이클의 모든 단계에서 생산성을 높일 수 있으며, 특히 데이터 처리 초기인 데이터 준비 단계에서 유용하게 사용할 수 있습니다.

원본 데이터 소스에서 수행할 수 있는 모든 작업 외에도, 입력 데이터 세트에서 새로운 데이터를 합성할 수 있는 방법이 있습니다. 이 새로운 데이터는 원본 데이터의 제약 조건이나 개발자가 제공한 제약 조건을 학습하여 만들어지며, 원본 데이터를 보충하거나 대체하는 데 사용할 수 있습니다. 이는 규제 또는 계약상의 문제로 인해 모델링 작업에서 데이터를 직접 사용할 수 없는 경우, 다양한 제약 조건이 있는 데이터 세트를 탐색하려는 경우, 또는 학습에 더 많은 데이터가 필요한 경우에 유용할 수 있습니다.

이 제품은 표 형식 및 시계열 데이터와 개발 중인 새로운 지원 양식 모두에 사용하기에 적합합니다.

기능
데이터 유효성 검사

품질 점수와 이에 대한 인사이트를 제공하며, 점수를 낮추는 데 책임이 있는 특정 데이터 영역을 지목하고 해당 데이터 영역을 개선할 수 있는 방법을 추천하기도 합니다.


데이터 교정

품질 분석 방법에서 제공하는 권장 사항을 실행합니다. 이 툴킷은 표 형식 데이터 및 시계열 데이터를 포함한 다양한 데이터 유형을 지원합니다.


데이터 제약 조건

시스템이 학습하거나 사용자가 데이터의 특성(예: 경계, 간격 등)을 지정할 수 있습니다.


데이터 합성

첫 번째 데이터 집합의 특성과 분포를 가진 새 데이터 집합을 생성합니다.


파이프라인화

유효성 검사 도구와 교정 도구를 제약 조건과 함께 결합하여 사용 사례 또는 애플리케이션 워크플로우를 해결하고 전체 데이터 품질 점수를 출력합니다.


보고

적용된 품질 메트릭 및 데이터 변환의 델타 변경 사항을 기록하는 변경 사항의 자동화된 문서화

모델링 작업에서 어떤 이점을 얻을 수 있나요?
포괄적이고 호환 가능한 도구

Data Quality for AI는 공개적으로 사용 가능한 많은 알고리즘 IBM Research에서 독점적으로 개발한 새로운 방법을 위한 호환 가능한 단일 소스 역할을 합니다.

시간 및 비용 절감

다운스트림 작업에서 시도되는 실험 및 회귀 실현 횟수를 줄여 모델링 작업의 가치 실현 시간을 단축할 수 있습니다.

공식화 및 간소화된 운영

데이터 준비 프로세스를 공식화하고 단순화하는 툴을 제공하여 전사적으로 AI 도입 장벽을 낮출 수 있습니다.

팀 표준화 및 조정

AI 스튜어드, 데이터 과학자, 주제별 전문가, AI 리스크 책임자, 비즈니스 사용자 등 정의된 역할에 대해 운영 효율성과 생산성을 획기적으로 개선합니다.

포함된 유틸리티 샘플
데이터 유효성 검사

— 라벨 순도 검사 — 데이터 동질성 검사 — 클래스 패리티 검사 — 완전성 검사 — 이상값 감지 검사 — 특징 상관관계 검사 — 데이터 편향성 검사 — 특징 중복성 검사 — 그 외 다양한 유틸리티

데이터 교정

— 순도 교정 — 비균질성 교정 — 클래스 불균일성 교정 — 불완전 교정 — 이상값 제거 — 특징 상관 관계 제거 — 데이터 편향 제거 — 특징 중복 제거 — 그 외 다양한 유틸리티