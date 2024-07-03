조직은 AI의 신뢰할 수 있는 데이터에 액세스하기 위해 개방적이고 신뢰할 수 있는 데이터 기반을 구축하는 데 집중해야 합니다. Open은 하이브리드 클라우드, 데이터 스토리지, 데이터 형식, 쿼리 엔진, 거버넌스 및 메타데이터를 포괄하는 개방적이고 상호 운용 가능한 능력을 기반으로 데이터를 저장, 관리, 통합 및 액세스하기 위한 기반을 만들고 있습니다. 이를 통해 데이터 사일로를 제거하고 데이터 기반 혁신을 가속화하는 동시에 기존 기술 투자와 쉽게 통합할 수 있습니다.

신뢰할 수 있는 데이터 기반을 구축하면 고품질, 안정적이고 안전한 관리형 데이터 및 메타데이터 관리가 가능해져 분석 및 AI 애플리케이션에 제공될 수 있으며, 데이터 개인 정보 보호 및 규정 준수 요구 사항도 충족할 수 있습니다. 다음 네 가지 구성 요소는 개방적이고 신뢰할 수 있는 데이터 기반을 구축하는 데 도움을 줍니다.

1. 애플리케이션, 분석 및 생성형 AI를 위한 하이브리드 클라우드로 데이터 인프라 현대화

멀티클라우드 및 하이브리드 전략 도입은 필수가 되어, 하이브리드 클라우드 전반에 걸쳐 유연한 배포를 지원하는 데이터베이스가 필요합니다. Gartner는 새로운 디지털 이니셔티브의 95%(ibm.com 외부 링크)가 대규모 데이터 스토리지와 확장성을 필요로 하는 AI 기술에 필수적인 클라우드 네이티브 플랫폼에서 개발될 것으로 예측합니다.

2. 적절한 데이터베이스와 개방형 데이터 레이크하우스 전략으로 데이터 기반 애플리케이션, 분석 및 AI 강화

데이터를 저장하고 분석하려면 워크로드, 데이터 유형 및 가격 성능에 적합한 데이터베이스를 사용해야 합니다. 이를 통해 데이터가 어디에 있든 데이터 요구 사항에 따라 확장되는 데이터 기반을 확보할 수 있습니다. 데이터 전략에는 개방형 및 통합 구성 요소로 설계된 데이터베이스를 포함해야 하며, 이를 통해 데이터 플랫폼 내에서 고급 분석 및 AI 애플리케이션을 위한 데이터의 원활한 통합 및 접근이 가능합니다. 이를 통해 조직은 귀중한 통찰력을 추출하고 정보에 입각한 의사 결정을 내릴 수 있습니다.

예를 들어, 조직은 가장 중요한 운영 데이터를 관리하기 위해 고성능의 안전하고 회복력이 있는 트랜잭션 데이터베이스가 필요합니다. 하이브리드 클라우드를 활용하면 조직은 데이터베이스를 통해 레거시 애플리케이션을 현대화하고, 새로운 클라우드 네이티브 애플리케이션을 구축하며, AI 어시스턴트와 엔터프라이즈 애플리케이션을 구동할 수 있습니다.

데이터 유형과 애플리케이션이 발전함에 따라 다양한 데이터 구조와 특정 애플리케이션 요구 사항을 처리하기 위해 특화된 NoSQL 데이터베이스가 필요할 수 있습니다. 여기에는 IoT, 콘텐츠 관리, 지리공간 애플리케이션 등 다양한 요구 사항을 충족하는 시계열, 문서, 메시징, 키-값, 전체 텍스트 검색 및 메모리 내 데이터베이스가 포함됩니다.

거래 및 목적형 데이터베이스 전반에 걸쳐 AI 및 분석 워크로드를 구동하려면, 중복이나 추가적인 추출, 변환, 로드(ETL) 프로세스 없이 데이터 레이크하우스 아키텍처와 원활하게 통합될 수 있도록 해야 합니다. 오픈 데이터 레이크하우스를 사용하면 데이터가 어디에 있든 단일 데이터 사본에 액세스할 수 있습니다.

오픈 데이터 레이크하우스는 클라우드 오브젝트 스토리지를 통한 Apache Iceberg와 같은 여러 오픈 포맷을 처리하며, 하이브리드 클라우드 전반에 걸쳐 다양한 소스와 기존 저장소의 데이터를 결합합니다. 가장 가성비 높은 데이터 레이크하우스도 여러 오픈 소스 쿼리 엔진과 함께 스토리지와 컴퓨팅을 분리하고, 다른 분석 엔진과의 통합을 통해 워크로드를 최적화하여 우수한 가격 성능을 제공합니다.

여기에는 데이터 웨어하우스 엔진과의 통합이 포함되며, 이제는 실시간 데이터 처리 및 의사 결정과 비용 효율적인 오브젝트 저장, 오픈 소스 기술, 데이터 레이크하우스와 원활하게 데이터를 공유하는 공유 메타데이터 계층을 갖춘 통합을 통해 균형을 맞춰야 합니다. 오픈 데이터 레이크하우스 아키텍처를 통해 이제 데이터 웨어하우스 워크로드를 가격 경쟁력 최적화하고, 전통적인 데이터 레이크를 더 나은 성능과 AI용 거버넌스로 현대화할 수 있습니다.

기업에는 엑사바이트는 아니더라도 페타바이트급의 귀중한 독점 데이터 저장소가 메인프레임에 있을 수 있으며, 새로운 인사이트와 ML/AI 모델을 위해 잠금 해제해야 할 수도 있습니다. 조직은 메인프레임과 Iceberg와 같은 오픈 포맷 간의 데이터 동기화를 지원하는 오픈 데이터 레이크하우스를 통해 사기를 더 잘 식별하고, 구성원 행동을 이해하며, 예측 AI 모델을 구축하여 고급 비즈니스 결과를 이해, 예측, 영향을 미칠 수 있습니다.

비즈니스를 위한 신뢰할 수 있는 생성형 AI를 구축하려면 먼저 이질적인 데이터를 준비하고 양질의 데이터로 변환할 수 있는 올바른 데이터 아키텍처가 필요합니다. 생성형 AI의 경우 올바른 데이터 기반에는 대화를 위한 NoSQL 데이터베이스, 컨텍스트 데이터를 위한 트랜잭션 데이터베이스, AI 및 분석을 위해 데이터에 액세스하고 준비하기 위한 데이터 레이크하우스 아키텍처, 임베딩을 저장하고 검색하기 위한 벡터 임베딩 기능, 분석 및 검색 증강 생성(RAG)가 포함될 수 있습니다. 공유 메타데이터 계층, 데이터를 카탈로그화하는 거버넌스 및 데이터 리니지를 통해 신뢰할 수 있는 AI 아웃풋을 얻을 수 있습니다.

3. 신뢰의 기반 구축: 엔터프라이즈 AI를 위한 데이터 품질 및 거버넌스

중요한 의사 결정을 내리는 데 인공 지능(AI)에 점점 더 의존하는 조직이 늘어남에 따라 데이터 품질과 거버넌스의 중요성은 아무리 강조해도 지나치지 않습니다. Gartner에 따르면 2025년까지 데이터 품질 저하, 부적절한 리스크 관리, 비용 증가 또는 불분명한 비즈니스 가치로 인해 30%의 생성형 AI 프로젝트가 중단될 것으로 예상됩니다. 품질이 낮은 데이터를 사용하면 고객 신뢰 약화, 규정 미준수, 재정 및 평판 손상 등 그 결과는 광범위합니다.

이러한 위험을 완화하려면 효과적인 데이터 품질 관리가 중요합니다. 이 목표를 달성하려면 잘 설계된 데이터 아키텍처 전략이 필수적입니다. 데이터 패브릭은 데이터 리더가 데이터 프로파일링, 데이터 품질 규칙 설계 및 적용, 데이터 품질 위반 발견, 데이터 정리 및 데이터 보강을 수행할 수 있는 강력한 프레임워크를 제공합니다. 이러한 접근 방식은 데이터 품질 이니셔티브가 정확성, 접근성, 적시성 및 관련성을 보장합니다.

더불어, 데이터 패브릭은 데이터 관측 기능을 통해 데이터 품질 수준을 지속적으로 모니터링할 수 있게 하여, 조직이 데이터 문제를 더 큰 문제로 확대하기 전에 식별할 수 있게 합니다. 또한 데이터 흐름에 대한 이러한 투명성을 통해 데이터 및 AI 리더는 잠재적 문제를 식별하여 올바른 데이터가 의사 결정에 사용되도록 할 수 있습니다.

조직은 데이터 품질 및 거버넌스를 우선시함으로써 AI 시스템에 대한 신뢰를 구축하고 위험을 최소화하며 데이터의 가치를 극대화할 수 있습니다. 데이터 품질은 단순한 기술적인 문제가 아니라 관심과 투자가 필요한 중요한 비즈니스 필수 요소라는 점을 인식하는 것이 중요합니다. 올바른 데이터 아키텍처 전략을 채택함으로써 조직은 AI 이니셔티브의 잠재력을 최대한 활용하여 비즈니스 성공을 이룰 수 있습니다.

4. AI를 위한 데이터 관리 및 제공

올바른 데이터 세트로 AI 모델을 구축하는 것부터 산업별 엔터프라이즈 데이터로 AI 모델을 조정하는 것, 벡터화된 임베딩을 사용하여 RAG AI 애플리케이션(챗봇, 개인화된 추천 시스템 및 이미지 유사성 검색 애플리케이션 포함)을 구축하는 것까지 데이터는 AI의 기본이 됩니다.

신뢰할 수 있고 관리형 데이터는 AI의 정확성, 관련성, 정밀성을 보장하는 데 필수적입니다. AI에서 데이터의 완전한 가치를 실현하려면, 기업은 복잡한 IT 환경을 탐색하여 데이터 사일로를 허물고, 데이터를 통합하며, AI 모델과 애플리케이션에 신뢰할 수 있고 관리형 데이터를 준비하고 제공할 수 있어야 합니다.

데이터 웨어하우스, 데이터 레이크, 메인프레임 환경 등 기존 데이터 자산의 중요한 데이터에 연결하고 액세스할 수 있는 개방형 포맷 기반의 개방형 데이터 레이크하우스 아키텍처를 사용하면 엔터프라이즈 데이터의 단일 복사본을 사용하여 AI 모델과 애플리케이션을 구축하고 조정할 수 있습니다.

시맨틱 계층을 사용하면 고객이 시맨틱 검색을 통해 데이터 자산 전반에서 이전에 암호화된, 효과적으로 구조화된 데이터를 자연어로 찾고 이해할 수 있는 데이터 보강을 생성하여 SQL 없이도 데이터 디스커버리를 가속화하고 데이터 인사이트를 더 빠르게 확보할 수 있습니다.

레이크하우스에 직접 내장된 벡터 데이터베이스를 사용하면 RAG 사용 사례를 위해 데이터를 벡터화된 임베딩으로 원활하게 저장하고 쿼리하여 AI 아웃풋의 관련성과 정확도를 향상시킬 수 있습니다.