엔터프라이즈 AI를 위한 데이터 수집 및 통합의 중요성

접착 메모지에 아이디어를 적는 여성과 남성 동료

생성형 AI의 등장으로 몇몇 유명 기업들은 민감한 내부 데이터를 잘못 취급할 수 있다는 이유로 사용을 제한하고 있습니다. CNN에 따르면 일부 기업은 기술을 더 잘 이해하기 위해 생성형 AI 도구에 대한 내부 금지 조치를 취했으며, 많은 기업이 내부 ChatGPT의 사용을 차단하기도 했습니다.

기업은 여전히 대규모 언어 모델(LLM)을 탐색할 때 내부 데이터를 사용하는 위험을 감수하는 경우가 많은데, 이는 이러한 상황별 데이터를 통해 LLM이 범용 지식에서 도메인별 지식으로 전환될 수 있기 때문입니다. 생성형 AI 또는 전통적인 AI 개발 주기에서 데이터 수집이 진입점 역할을 합니다. 여기에서 회사의 요구 사항에 맞는 원시 데이터를 수집, 전처리, 마스킹 및 LLM 또는 기타 모델에 적합한 형식으로 변환할 수 있습니다. 현재 데이터 수집의 문제를 극복하기 위한 표준화된 프로세스는 없지만 모델의 정확도는 데이터 수집에 따라 달라집니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

데이터 수집이 제대로 이루어지지 않을 경우의 4가지 위험

  1. 허위 정보 생성: LLM이 오염된 데이터(오류나 부정확한 내용이 포함된 데이터)로 훈련되면 잘못된 답변을 생성할 수 있으며, 이로 인해 잘못된 의사 결정과 잠재적으로 연쇄적인 문제가 발생할 수 있습니다.
  2. 분산 증가: 분산은 일관성을 측정합니다. 데이터가 부족하면 시간이 지남에 따라 답변이 달라지거나 오해의 소지가 있는 이상값이 발생할 수 있으며, 특히 소규모 데이터 세트에 영향을 미칠 수 있습니다. 모델의 분산이 높다는 것은 모델이 훈련 데이터와 함께 작동하지만 실제 산업 사용 사례에는 부적절하다는 것을 나타낼 수 있습니다.
  3. 제한된 데이터 범위와 대표성이 없는 답변: 데이터 소스가 제한적이거나 동질적이지 않거나 잘못된 중복이 있는 경우, 샘플링 편향과 같은 통계적 오류로 인해 모든 결과가 왜곡될 수 있습니다. 이로 인해 모델이 전체 영역, 부서, 인구 통계, 산업 또는 출처를 대화에서 제외할 수 있습니다.
  4. 편향된 데이터를 수정할 때의 어려움: 데이터가 처음부터 편향된 경우 '해당 데이터의 일부를 소급하여 제거하는 유일한 방법은 알고리즘을 처음부터 다시 훈련시키는 것뿐입니다.' LLM 모델은 벡터화되었을 때 대표성이 없거나 오염된 데이터에서 파생된 답변을 학습하지 않는 것이 어렵습니다. 이러한 모델은 이전에 동화된 답변을 기반으로 이해를 강화하는 경향이 있습니다.

데이터 수집은 잘못 처리하면 많은 새로운 문제가 발생할 수 있으므로 처음부터 올바르게 수행해야 합니다. AI 모델에서 훈련 데이터의 기초 작업은 비행기를 조종하는 것과 유사합니다. 이륙 각도가 1도만 어긋나도 예상과 전혀 다른 새로운 대륙에 착륙할 수 있습니다.

전체 생성형 AI 파이프라인은 이를 강화하는 데이터 파이프라인에 달려 있으므로 올바른 예방 조치를 취하는 것이 필수적입니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

신뢰할 수 있는 데이터 수집을 보장하는 4가지 핵심 구성 요소

  1. 데이터 품질 및 거버넌스: 데이터 품질이란 데이터 소스의 보안을 보장하고, 전체적인 데이터를 유지 관리하며, 명확한 메타데이터를 제공하는 것을 의미합니다. 여기에는 웹 스크래핑이나 업로드와 같은 방법을 통해 새로운 데이터로 작업하는 것도 포함될 수 있습니다. 데이터 거버넌스는 법률과 회사 모범 사례를 준수하는 데 도움이 되는 데이터 수명 주기의 지속적인 프로세스입니다.
  2. 데이터 통합: 이러한 도구를 사용하면 회사에서 다양한 데이터 소스를 하나의 안전한 위치로 결합할 수 있습니다. 널리 사용되는 방법은 추출, 로드, 변환(ELT)입니다. ELT 시스템에서 데이터 세트는 사일로화된 웨어하우스에서 선택되고 변환된 다음 소스 또는 대상 데이터 풀에 로드됩니다. IBM® DataStage와 같은 ELT 도구는 병렬 처리 엔진을 통해 빠르고 안전한 변환을 지원합니다. 2023년에는 평균 기업이 수백 개의 서로 다른 데이터 스트림을 수신하므로 전통적인 AI 모델과 새로운 AI 모델 개발을 위한 효율적이고 정확한 데이터 변환이 중요합니다.
  3. 데이터 정리 및 전처리: 여기에는 특정 LLM 교육 요구 사항, 오케스트레이션 도구 또는 데이터 유형을 충족하기 위한 데이터 형식이 포함됩니다. 텍스트 데이터는 청크화되거나 토큰화될 수 있으며 이미징 데이터는 임베딩으로 저장할 수 있습니다. 데이터 통합 도구를 사용하여 포괄적인 변환을 수행할 수 있습니다. 또한 중복 데이터를 삭제하거나 데이터 유형을 변경하여 원시 데이터를 직접 조작해야 할 수도 있습니다.
  4. 데이터 스토리지: 데이터가 정리되고 처리된 후에는 데이터 스토리지라는 과제가 발생합니다. 대부분의 데이터는 클라우드 또는 온프레미스에서 호스팅되므로 기업은 데이터를 저장할 위치를 결정해야 합니다. 개인 데이터, 내부 문서 또는 고객 데이터와 같은 민감한 정보를 처리하기 위해 외부 LLM을 사용하는 데 주의하는 것이 중요합니다. 그러나 LLM은 검색 증강 생성(RAG) 기반 접근 방식을 미세 조정하거나 구현하는 데 중요한 역할을 합니다. 위험을 완화하려면 내부 서버에서 가능한 한 많은 데이터 통합 프로세스를 실행하는 것이 중요합니다. 한 가지 잠재적인 해결책은 다음과 같은 원격 런타임 옵션을 사용하는 것입니다.

IBM과 함께 데이터 수집 시작하기

IBM DataStage는 다양한 도구를 결합하여 데이터 통합을 간소화하므로 하이브리드 클라우드 환경에서 AI 훈련 모델에 필요한 데이터를 손쉽게 가져오고, 구성하고, 변환하고, 저장할 수 있습니다. 모든 기술 수준의 데이터 실무자는 노코드 GUI를 사용하여 도구에 참여하거나 안내된 사용자 지정 코드로 API에 액세스할 수 있습니다.

새 DataStage as a Service Anywhere 원격 런타임 옵션은 데이터 변환을 실행할 수 있는 유연성을 제공합니다. 이를 통해 어디서나 병렬 엔진을 사용할 수 있어 해당 위치를 전례 없이 제어할 수 있습니다. DataStage as a Service Anywhere는 경량 컨테이너로 매니페스트되어 모든 환경에서 모든 데이터 변환 기능을 실행할 수 있습니다. 이를 통해 가상 프라이빗 클라우드 내에서 데이터 통합, 정리 및 사전 처리를 실행할 때 데이터 수집 불량으로 인한 많은 함정을 피할 수 있습니다. DataStage를 사용하면 보안, 데이터 품질 및 효율성을 완벽하게 제어하여 생성형 AI 이니셔티브에 필요한 모든 데이터 요구 사항을 해결할 수 있습니다.

생성형 AI로 달성할 수 있는 것은 사실상 제한이 없지만 모델이 사용하는 데이터에는 한계가 있으며 그 데이터가 모든 차이를 만들 수 있습니다.

관련 솔루션
IBM StreamSets

직관적인 그래픽 인터페이스를 통해 스트리밍 데이터 파이프라인을 생성하여 하이브리드 및 멀티클라우드 환경 전반에서 완벽한 데이터 통합을 촉진합니다.

StreamSets 살펴보기
IBM watsonx.data™

watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.

watsonx.data 알아보기
데이터 및 분석 컨설팅 서비스

IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.

분석 서비스 알아보기
다음 단계 안내

탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선하는 데이터 전략을 구축하세요.

데이터 관리 솔루션 살펴보기 watsonx.data 알아보기