생성형 AI의 등장으로 몇몇 유명 기업들은 민감한 내부 데이터를 잘못 취급할 수 있다는 이유로 사용을 제한하고 있습니다. CNN에 따르면 일부 기업은 기술을 더 잘 이해하기 위해 생성형 AI 도구에 대한 내부 금지 조치를 취했으며, 많은 기업이 내부 ChatGPT의 사용을 차단하기도 했습니다.
기업은 여전히 대규모 언어 모델(LLM)을 탐색할 때 내부 데이터를 사용하는 위험을 감수하는 경우가 많은데, 이는 이러한 상황별 데이터를 통해 LLM이 범용 지식에서 도메인별 지식으로 전환될 수 있기 때문입니다. 생성형 AI 또는 전통적인 AI 개발 주기에서 데이터 수집이 진입점 역할을 합니다. 여기에서 회사의 요구 사항에 맞는 원시 데이터를 수집, 전처리, 마스킹 및 LLM 또는 기타 모델에 적합한 형식으로 변환할 수 있습니다. 현재 데이터 수집의 문제를 극복하기 위한 표준화된 프로세스는 없지만 모델의 정확도는 데이터 수집에 따라 달라집니다.
업계 뉴스레터
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
데이터 수집은 잘못 처리하면 많은 새로운 문제가 발생할 수 있으므로 처음부터 올바르게 수행해야 합니다. AI 모델에서 훈련 데이터의 기초 작업은 비행기를 조종하는 것과 유사합니다. 이륙 각도가 1도만 어긋나도 예상과 전혀 다른 새로운 대륙에 착륙할 수 있습니다.
전체 생성형 AI 파이프라인은 이를 강화하는 데이터 파이프라인에 달려 있으므로 올바른 예방 조치를 취하는 것이 필수적입니다.
IBM DataStage는 다양한 도구를 결합하여 데이터 통합을 간소화하므로 하이브리드 클라우드 환경에서 AI 훈련 모델에 필요한 데이터를 손쉽게 가져오고, 구성하고, 변환하고, 저장할 수 있습니다. 모든 기술 수준의 데이터 실무자는 노코드 GUI를 사용하여 도구에 참여하거나 안내된 사용자 지정 코드로 API에 액세스할 수 있습니다.
새 DataStage as a Service Anywhere 원격 런타임 옵션은 데이터 변환을 실행할 수 있는 유연성을 제공합니다. 이를 통해 어디서나 병렬 엔진을 사용할 수 있어 해당 위치를 전례 없이 제어할 수 있습니다. DataStage as a Service Anywhere는 경량 컨테이너로 매니페스트되어 모든 환경에서 모든 데이터 변환 기능을 실행할 수 있습니다. 이를 통해 가상 프라이빗 클라우드 내에서 데이터 통합, 정리 및 사전 처리를 실행할 때 데이터 수집 불량으로 인한 많은 함정을 피할 수 있습니다. DataStage를 사용하면 보안, 데이터 품질 및 효율성을 완벽하게 제어하여 생성형 AI 이니셔티브에 필요한 모든 데이터 요구 사항을 해결할 수 있습니다.
생성형 AI로 달성할 수 있는 것은 사실상 제한이 없지만 모델이 사용하는 데이터에는 한계가 있으며 그 데이터가 모든 차이를 만들 수 있습니다.
직관적인 그래픽 인터페이스를 통해 스트리밍 데이터 파이프라인을 생성하여 하이브리드 및 멀티클라우드 환경 전반에서 완벽한 데이터 통합을 촉진합니다.
watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.