IBM watsonx.data plus 비정형: 비정형 데이터를 AI 지원 연료로 전환

검은색에서 보라색으로 희미한 배경의 디지털 일러스트레이션, 오른쪽에 창, 달력 및 아이콘이 있는 대시보드가 있습니다.

작성자

Edward Calvesbert

Vice President, Product Management - watsonx.data

IBM

Brian Raymond

Founder and CEO of Unstructured

IBM과 IBM Ventures 포트폴리오 회사 Unstructured의 새로운 파트너십 소식을 발표합니다. 두 회사는 함께 엔터프라이즈 AI를 확장하는 데 있어 가장 중요한 장벽 중 하나인 생성형 AI를 위한 비정형 데이터 준비를 하고 있습니다.

비정형 데이터 과제

엔터프라이즈 데이터의 약 80%는 PDF, 이메일, 협업 플랫폼 및 문서 저장소에 비정형 상태로 상주합니다. 그러나 이 중에서 소비에 직접 적합한 형식은 1% 미만입니다. 이 격차는 조직이 AI 이니셔티브를 확장하는 데 있어 엄청난 기회인 동시에 거대한 난관입니다.​​​​​​

​​​​종래의 비정형 데이터 준비 방식은 기업의 발목을 잡고 있습니다. 수동 파이프라인을 구축하는 데 6~12개월이 걸리고 새로운 문서 형식이나 소스 시스템 변경이 있을 때마다 중단되어 취약한 상태가 계속됩니다. 엔지니어링 팀은 AI 혁신보다는 데이터 배관에 귀중한 시간을 할애합니다. 적절한 구조와 일관성이 없으면 AI 모델은 신뢰할 수 없는 결과를 제공하여 신뢰를 훼손하고 가치 창출 시간을 지연시킵니다.​​​

​​​​IBM® watsonx.data는 업계에서 유일하게 AI와 분석 용도로 구축된 하이브리드 오픈 데이터 레이크하우스로서 이러한 과제를 해결합니다. 정형 데이터와 비정형 데이터에서 모두 액세스, 준비, 거버넌스를 간소화하여 조직이 대규모 생성형 AI를 위한 신뢰할 수 있는 데이터 기반을 구축할 수 있도록 지원합니다.​​​​​

watsonx.data의 '비정형' 이점

Unstructured는 이 파트너십을 통해 watsonx.data의 기능을 확장하여 비정형 데이터에 액세스하고 이를 AI 지원 형식으로 변환하여 안정적이고 확장 가능하며 신뢰할 수 있는 생성형 AI를 지원합니다.

포괄적인 연결 및 형식 지원​​​

Unstructured는 SharePoint, Google Drive, Salesforce, Confluence, Box, Dropbox를 비롯해 엔터프라이즈 데이터 소스에 대해 사전 구축된 커넥터를 30종 이상 제공합니다. PDF부터 스캔한 이미지, 이메일, Microsoft Office 문서에 이르기는 파일 유형을 70종 이상 지원해서 조직이 모든 데이터 자산에 액세스하고 이를 변환할 수 있습니다.​​​

​​​​Unstructured의 지능형 문서 이해는 기본 텍스트 추출 도구와 다르게 테이블, 계층 구조 및 의미 구조와 같은 중요한 요소를 보존하여 AI 모델이 상황에 따라 풍부한 데이터를 수신하도록 합니다.​​​​​

파이프라인 개발 가속화​​​

노코드 시각적 워크플로 빌더를 사용하면 비즈니스 팀과 데이터 팀이 전문 엔지니어링 리소스 없이도 데이터 파이프라인을 설계하고 관리할 수 있습니다. 개발 팀을 보유한 조직에서는 포괄적인 API를 사용해 프로그래밍 방식을 제어하고 맞춤 설정할 수 있습니다.​​​

​​​​자동 증분 동기화 프로세스는 새 문서와 변경된 문서만 수집하여 컴퓨팅 비용을 절감하면서도 AI 애플리케이션을 최신 상태로 유지합니다. 다중 소스 오케스트레이션은 여러 시스템에 걸쳐 데이터 흐름을 동시에 조정하여 수동 조정 오버헤드를 제거합니다.​​​

엔터프라이즈급 거버넌스 및 규정 준수

Unstructured는 SOC 2 Type II, HIPAA 및 GDPR을 준수하여 엔터프라이즈 IT 조직이 요구하는 엄격한 보안 및 개인 정보 보호 표준을 충족합니다. 이 솔루션은 watsonx.data와 함께 데이터 파이프라인 전반에 걸쳐 소스 시스템 권한을 존중하는 버전 제어, 데이터 리니지 추적 및 세분화된 액세스 제어를 제공합니다.​​​

AI 워크플로에 최적화​​​

Unstructured는 최신 AI 아키텍처에 최적화된 의미론적으로 풍부하고 적절하게 청크화된 데이터를 제공합니다.​​​

  • 검색 증강 생성(RAG): 상황에 맞는 지능형 청킹으로 검색 정확도와 응답 품질을 높입니다.​​​
  • 벡터 데이터베이스 통합: 자동 임베딩 생성을 통해 벡터 스토어로의 수집을 간소화합니다.​​​
  • 에이전틱 시스템: 자율 에이전트가 추론, 계획, 데이터와의 상호 작용을 더 효과적으로 수행할 수 있도록 구조화되고 실행 가능한 맥락을 제공합니다.​​​​​
  • 멀티모달 AI: 텍스트 및 이미지 콘텐츠를 조정해서 처리합니다.​​​

watsonx.data와 Unstructured가 있으면 속도, 유연성, AI 준비 상태를 하나의 통합 솔루션에 결합한 프로덕션 준비 파이프라인을 통해 팀이 신속하게 앞으로 나아갈 수 있습니다.

함께하는 시너지: watsonx 엔진에 연료 공급하기

watsonx.data가 생성형 AI 애플리케이션을 구동하는 데이터 엔진이라면 Unstructured는 연료를 제공합니다. watsonx.data와 Unstructured가 함께 작동하면서 AI를 지원하는 비정형 데이터를 제공하고, AI의 정확성과 신뢰성을 개선하는 고급 검색 증강 생성 패턴을 지원합니다. 

기업은 직접 진행하던 문서 준비를 지능형 처리로 자동화해서 가치 창출 시간을 단축할 수 있습니다. 거버넌스 정책은 문서 소스 시스템에서 AI 애플리케이션까지 이어지며 모든 단계에서 신뢰와 투명성을 향상시킵니다. 비정형 데이터 준비의 병목 현상을 제거하고 데이터 접근, 준비 및 거버넌스를 갖춘 데이터 기반을 제공하면 비정형 콘텐츠의 잠재력을 최대한 활용하여 신뢰할 수 있는 엔터프라이즈급 AI를 지원할 수 있습니다.

watsonx.data와 Unstructured가 실제로 어떻게 작동하는지 알아보려면 곧 있을 공동 웨비나에 참여하거나 미팅을 예약하세요. 복잡한 비정형 데이터를 준비하는 데 시간을 소비하는 대신 AI 지원 데이터를 기반으로 대규모의 엔터프라이즈급 AI 에이전트와 애플리케이션을 가속화할 수 있도록 IBM이 도와드리겠습니다.​​​

곧 있을 웨비나 참여하기

미팅 예약