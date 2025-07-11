2025년 7월 11일
2025년 6월 11일, IBM은 데이터 통합에 대한 새로운 접근 방식인 watsonx.data integration을 출시했습니다. 이 솔루션은 기본 제공 관측 가능성을 기반으로 배치, 실시간 스트리밍 및 데이터 복제 파이프라인을 작성할 수 있는 단일 컨트롤 플레인을 제공합니다.
팀은 동일한 솔루션 내에서 정형 데이터 파이프라인과 함께 재사용 가능한 비정형 데이터 파이프라인을 구축하여 이전에는 접근할 수 없었던 데이터의 금광을 발굴하여 새로운 사용 사례를 구축하고 현대 데이터 환경의 변화하는 요구 사항을 충족할 수 있습니다. watsonx.data Integration의 비정형 데이터 통합(UDI) 기능을 통해 사용자는 문서, PDF, PPT 등을 비롯한 대량의 비정형 데이터를 단 몇 분 만에 수집, 변환 및 처리하는 파이프라인을 직관적으로 구축할 수 있습니다.
이 제품은 IBM Research의 획기적인 오픈 소스와 독점적 혁신을 결합한 제품입니다. 동급 최고의 제품 기능은 다음과 같습니다.
전통적으로 활용도가 낮았던 기업 데이터를 처리하도록 설계된 watsonx.data integration은 AI 및 분석을 위해 비정형 데이터를 활용하는 데 있어 큰 진전을 의미합니다.
대부분의 공공 데이터는 오늘날의 파운데이션 모델에 이미 잘 표현되어 있습니다. 따라서 진정한 경쟁 우위는 기업 데이터를 활용하는 데서 나옵니다. 그러나 기업 데이터의 90%는 비정형 데이터로, 문서, PDF부터 이메일, 이미지, 로그에 이르기까지 엄청난 양의 정보가 아직 활용되지 않고 있으며, 대부분이 기존 분석 및 AI 워크플로의 범위 밖에 있습니다. 접근성과 관리의 복잡성으로 인해 현재 생성형 AI에 사용되는 것은 1%에 불과합니다.
기존 비정형 데이터 접근 방식의 과제에 대해 자세히 알아보세요. IBM watsonx.data integration 및 에코시스템은 이러한 문제를 정면으로 해결하도록 설계되었습니다. 오늘날의 빠르게 변화하는 데이터 환경을 탐색하는 데 도움이 되는 UDI 기능의 주요 기능은 다음과 같습니다.
이 솔루션에는 사용자가 일반적으로 사용되는 광범위한 데이터 소스 및 형식을 관련 메타데이터 및 액세스 제어와 함께 대규모로 그리고 발전함에 따라 수집할 수 있도록 하는 사전 구축된 커넥터가 포함되어 있습니다. 시장에 일부 비정형 커넥터가 존재하지만 시간이 지남에 따라 문서나 권한이 변경됨에 따라 동적으로 적응할 수 있는 커넥터는 거의 없습니다.
IBM Research와의 협업을 통해 개발된 watsonx.data integration은 독점 혁신과 선도적인 오픈 소스 기술을 결합하여 비정형 데이터 처리를 최신 데이터 파이프라인에 도입합니다. 시각적 캔버스에는 개인 식별 정보(PII) 마스킹, 증오, 모욕 및 욕설(HAP) 탐지, 품질 필터링, 언어 감지 및 신뢰도 점수를 포함하는 텍스트 및 기타 양식에 맞게 특별히 설계된 연산자가 포함되어 있습니다. 개발자는 사용자 지정 코드를 작성하거나 유지 관리하지 않고도 다양한 파일 형식을 대규모로 처리하는 단일 파이프라인을 설계할 수 있습니다. 정형 데이터를 위한 드래그 앤 드롭 ELT와 마찬가지로 watsonx.data integration은 비정형 데이터에 대해서도 직관적인 로우/노코드 환경을 제공하며, 프로그래밍 방식으로 작업하는 것을 선호하는 사람들을 위해 모든 기능을 갖춘 Python SDK도 제공합니다.
또한 임베딩, 청킹 및 벡터화를 위해 사전 구축된 연산자를 통해 사용자는 원시 문서를 다운스트림 AI에 최적화된 구조화된 표현으로 변환할 수 있습니다. 이러한 운영자는 비정형 콘텐츠를 의미론적으로 의미 있는 벡터로 자동 변환하여 심층적인 머신 러닝(ML) 전문 지식 없이도 RAG, 문서 분류, 지능형 검색과 같은 사용 사례를 가능하게 합니다.
이러한 비정형 데이터 통합 지원은 페타바이트 규모의 복잡한 비정형 콘텐츠를 효율적으로 처리하도록 설계되었습니다. 수천 개의 파일에 걸쳐 10MB 이상의 문서가 통합된 성능 형식으로 압축되어 빠른 처리 및 재처리가 가능합니다. 이 아키텍처는 엔터프라이즈 규모의 비정형 데이터의 요구 사항을 충족하도록 특별히 구축되었습니다.
파이프라인은 자체 업데이트 데이터 구조를 지원합니다. 소스 문서(예: '문서 A')가 새 버전으로 업데이트되면 델타만 캡처되고 벡터 데이터베이스를 포함하여 다운스트림으로 원활하게 전파됩니다. 이를 통해 전체 재처리 없이도 수천 개의 파이프라인을 대규모로 최신 상태로 유지할 수 있습니다.
ACL에 대한 기본 지원으로 데이터 파이프라인 전체에서 문서 수준 권한이 유지되도록 합니다. 즉, 사용자는 볼 수 있는 권한이 있는 데이터에만 액세스하며, 이는 팀과 애플리케이션 간에 비정형 데이터가 흐르기 때문에 보안, 규정 준수 및 신뢰를 유지하는 데 중요합니다.
결국, 어떤 단일 조직도 진공 상태에서는 앞서 언급한 문제를 해결할 수 없습니다. UDI에 대한 watsonx.data integration의 지원은 최신 오픈 소스 도구를 기반으로 하는 유연한 인프라를 기반으로 합니다. 다음은 이러한 기반을 형성하는 핵심 기술 구성 요소입니다.
watsonx.data integration의 UDI 지원 기능은 IBM이 Granite 기반의 파운데이션 모델 제품군을 구축한 경험을 바탕으로 개발되었습니다. Granite를 학습하는 데 사용되는 12조 개의 토큰을 처리하고 준비하면서 기존 비정형 데이터 도구의 중요한 격차가 드러났습니다. 이에 따라 IBM Research는 텍스트, 코드, 언어, 이미지와 같은 양식에 걸쳐 강력한 정리 작업자를 제공하는 모듈식 프레임워크인 데이터 준비 키트(DPK) 와 데이터 및 모델 팩토리(DMF)를 개발했습니다. 실전 테스트를 거친 이러한 구성 요소는 이제 watsonx.data integration에 패키징되어 처리량이 많고 프로덕션 등급의 사용 사례에 맞게 설계되었습니다. 오늘날 DPK는 Linux Foundation을 통해 오픈 소스로 공개되었으며, 이를 통해 고급 비정형 데이터 도구에 대한 액세스를 대중화하려는 IBM의 사명이 계속 이어지고 있습니다.
UDI에 대한 watsonx.data 통합의 지원에는 30,000개 이상의 GitHub 스타를 보유한 오픈 소스 IBM 이니셔티브인 Watson Document Understanding 및 Docling도 통합되어 최첨단 문서 구문 분석 및 엔티티 추출을 제공합니다. 이러한 기술은 업계 최고의 속도와 정확성으로 표 추출을 비롯한 복잡한 추출 작업에 탁월한 성능을 발휘합니다.
Milvus와 같은 오픈 소스 옵션이나 벡터 데이터베이스를 선호하든 watsonx.data integration의 UDI는 지원 옵션을 제공합니다. 벡터화 파이프라인은 기본적으로 플랫폼에 내장되어 있어 RAG 및 시맨틱 검색 워크로드를 위해 선호하는 스토리지 솔루션에 빠르게 배포할 수 있습니다.
IBM watsonx.data integration은 Langchain 및 기타 인기 있는 오픈소스 오케스트레이션 프레임워크와의 통합을 적극적으로 시범적으로 추진하고 있으며, 이를 통해 플랫폼에 커뮤니티 중심의 혁신이 크게 확산되고 있습니다. 이러한 통합을 통해 기본 watsonx.data integration 파이프라인 내에서 Langchain을 통해 구축되거나 활용되는 함수의 풀 스택 오케스트레이션을 지원하는 동시에 프로덕션 사용에 필요한 엔터프라이즈급 거버넌스, 보안 및 확장성을 유지할 수 있습니다.
IBM watsonx.data integration을 통해 고객은 오픈 소스 혁신과 독점 엔터프라이즈 기술의 강력한 조합을 통해 비정형 데이터의 잠재력을 최대한 활용할 수 있습니다. 개인화된 콘텐츠 생성부터 송장 집계 및 에이전트에 의한 의사결정에 이르기까지, UDI는 원시 콘텐츠를 AI 지원 인사이트로 변환하며, 이제 IBM watsonx.data integration의 일부로 사용할 수 있습니다.
이 제품의 차별화 요소는 정형 데이터와 비정형 데이터를 하나의 플랫폼으로 통합하여 파이프라인 구축과 도구 확산을 간소화하여 결과를 가속화할 수 있다는 점입니다. 사용 사례에 관계없이 watsonx.data integration은 모든 데이터에서 비즈니스 가치를 창출하는 기반이 됩니다.