데이터는 AI 엔진을 작동하게 하는 원동력입니다. 그리고 많은 기업들이 어떻게 데이터 탱크를 채울지 몰라 손쉽게 확보할 수 있는 비정형 데이터의 보물창고를 최대한 활용하지 못하고 있습니다.
이것이 바로 비정형 데이터를 처리할 수 있는 툴을 갖춘 기업이 투자자들의 관심을 끄는 이유입니다. 지난달, Salesforce는 최근 비정형 데이터 관리 공급업체에 대한 여러 투자 중 하나로, Agentforce 플랫폼을 강화하기 위한 대규모 인수를 단행했습니다.
“생성형 AI는 머신 러닝, 비즈니스 인텔리전스, 데이터 엔지니어링을 위한 LLM 미세 조정 및 기존 분석뿐만 아니라 RAG를 위한 비정형 데이터, 즉 문서의 중요성을 높였습니다”라고 IBM watsonx 제품 관리 부문 부사장이자 IBM의 상주 데이터 전문가 중 한 명인 Edward Calvesbert는 말합니다. “매일 생성되는 대부분의 데이터는 비정형 데이터이며, 이는 가장 큰 새로운 기회를 제공합니다.”
우리는 비정형 데이터의 AI 활용 가능성에 대해 자세히 알아보고 싶었습니다. 그래서 지난 3월 IBM, Nvidia, Databricks와 4천만 달러의 투자를 성사시킨 데이터 과학 회사 Unstructured의 전략 책임자인 Dave Donahue는 Calvesbert와 함께 비정형 데이터의 중요성과 앞으로 나아갈 방향에 대해 이야기를 나누었습니다.
IBM, Edward Calvesbert: 언어, 이미지 등의 비정형 데이터는 파운데이션 모델이 제공하고 해석하는 데 도움이 될 수 있는 '새로운' 데이터이므로, 현재 주목을 받고 있는 분야입니다. 그러나 정형 데이터와 마찬가지로 비정형 데이터도 관리(분류, 품질 평가, PII 및 유해한 콘텐츠 필터링, 중복 제거 등)를 거쳐야 하므로 성공적인 전략은 기존의 데이터 관리 기능을 비정형 데이터에 적용하는 것입니다.
Unstructured, Dave Donahue: 비정형 데이터는 본질적으로 정형 데이터보다 더 가치 있는 것은 아니지만, 일반적으로 대규모 조직은 정형 데이터보다 4배 더 많은 비정형 데이터를 생성합니다. 그렇다면 핵심은 AI를 구현할 때 더 많은 데이터, 특히 사람이 생성한 비정형 데이터를 활용하고 싶은가?라는 것입니다. 대답은 확실히 '예'일 것입니다.
Calvesbert: '충분히 좋다'는 것은 유동적인 목표이며 사용 사례에 따라 달라집니다. RAG가 시맨틱 검색, Q&A 및 고객 지원 에이전트를 위한 요약을 개선하기 위한 지식 기반은 문서 지식 기반이 완전하고 정확하며 최신이어야 합니다. 모델을 미세 조정하기 위한 데이터에는 사람이 선별한 프롬프트/응답 쌍의 예제 세트가 필요합니다. 분석 사용 사례를 구동하기 위해 문서를 테이블 또는 그래프 데이터베이스로 처리하려면 엔티티 또는 값을 효과적으로 추출해야 합니다. 거의 모든 경우에 데이터는 사용 사례의 라이프사이클의 맥락에서 분류, 필터링 및 관리되어야 합니다.
Donahue: 기업 또는 회사 수준에서 '좋은' 데이터는 깨끗하고 구조화되며 보강된 데이터입니다. 이 전처리 파이프라인은 원본 콘텐츠와 LLM 지원 버전 간의 정보 손실을 최소화해야 합니다. Unstructured를 통해 기업은 파일 유형에 관계없이 비정형 데이터를 표준화된 형식으로 변환하고 추가 메타데이터로 보강할 수 있습니다. 이를 통해 조직은 LLM을 사용할 때 해결해야 하는 세 가지 주요 문제, 즉 시간이 고정된 상태이고, 무언가 만들어내는 경향이 있으며, 특정 조직에 대한 정보를 바로 알 수 없다는 문제를 완화할 수 있습니다.
Calvesbert: 우리가 협력한 주요 통신사 고객은 고객 지원 에이전트를 위한 내부 지식 기반으로 시작하여 고객에게 답변을 제공하는 데 필요한 시간을 단축하고 답변의 정확성을 높였습니다. 이것은 콜센터 내에서 들불처럼 유기적으로 퍼져 나갔고, 이 시점에서 회사는 한 발 물러나서 거버넌스 및 성능에 대한 작업을 시작해야 했습니다. 내부적으로는 IBM의 브랜드 가이드라인과 사례를 수집하여 새로운 마케팅 콘텐츠를 생성하고 일관된 품질과 톤으로 큐레이션하는 마케팅 자동화 사용 사례를 구현했습니다.
Donahue: 우리는 글로벌 소비재 회사와 협력하여 새로운 제품 아이디어를 개발하는 데 도움을 주고 있습니다. "이것이 비정형 데이터와 무슨 관련이 있나요?"라고 물을 수 있습니다. 기존에는 방대한 양의 판매 데이터, 제품 피드백 정보, 인구 통계 정보를 분석하여 마케팅 및 제품 팀이 특정 시장의 최종 사용자를 대상으로 테스트할 수 있는 새로운 아이디어나 콘셉트를 도출하는 데 몇 달이나 걸렸습니다. 이 과정을 몇 달에서 몇 시간으로 단축할 수 있다면 어떨까요? 데이터를 기반으로 하여, 팀이 신속하게 테스트할 수 있는 새로운 제품 아이디어를 창출할 수 있다면 어떨까요?
이것이 바로 비정형 데이터를 활용하여 비즈니스 가치를 창출할 수 있는 힘입니다. 이제 이 CPG 회사는 여러 브랜드의 데이터를 활용하여 시장에 출시할 새로운 제품 아이디어를 개발하고 테스트하고 있습니다.
Calvesbert: 모든 회사에는 신입 사원에게 온보딩 시 제공하는 문서와 같이 다양한 문서가 있으며, 이는 RAG와 시맨틱 검색을 시작하기에 충분합니다.
Donahue 이메일, 메모, 내부 메시징 플랫폼(예: Slack 또는 Microsoft Teams), 비즈니스 프레젠테이션 등 기업 데이터의 80%가 비정형 데이터입니다. 문제는 이 데이터로 무엇을 하고 싶은가 하는 것입니다. 현재 유사한 데이터 정리 작업을 수행하는 엔지니어를 위해 효율성을 높이고 싶은지, 영업 및 마케팅 데이터를 기반으로 새로운 제품 아이디어를 개발하고 싶은지 등 AI에는 수많은 가능성과 기회가 있습니다. 목표를 파악하고, 필요한 데이터를 식별하는 등 작은 것부터 시작하세요.
Calvesbert: 레이크하우스 아키텍처와 오픈 테이블 형식, 즉 아이스버그(Iceberg)가 주류가 되며, 새로운 데이터/워크로드를 위한 주요 데이터 관리 아키텍처로 자리 잡았다고 생각합니다. 벡터 기능은 많은 운영/분석 데이터베이스에서 기본적으로 제공되므로 생성형 AI 워크로드를 애플리케이션에 주입할 수 있습니다. 업계에서는 명확하지 않은 관계(GraphRAG)와 트랜잭션 레코드의 정밀도 향상(SQL-RAG)을 기반으로 추가적인 컨텍스트화가 필요한 특정 엔터프라이즈 사용 사례에서는 RAG만으로는 충분하지 않다는 사실을 깨닫기 시작했습니다. 또한 고객들은 엔터프라이즈 콘텐츠 관리 시스템에서 시행 중인 액세스 제어를 준수하는 사용자 권한 부여 모델을 구현하는 것이 기업 전반의 생성형 AI를 확장하기 위해 극복해야 할 중요한 과제임을 깨닫고 있습니다.
Donahue: 데이터 과학 및 머신 러닝 엔지니어링 팀이 데이터 엔지니어링 팀과 더욱 긴밀하게 협력하는 모습을 보여주기 시작했습니다. 지난 10년 동안 데이터 웨어하우징 및 비즈니스 인텔리전스 애플리케이션이 부상함에 따라 데이터 엔지니어링 팀도 성장해 왔으며, 역사적으로 데이터 분석가 및 최고 경영진 소비자를 위해 설계된 SQL, 구조화된 데이터베이스 및 비즈니스 분석 프로세스의 세계에서 운영되어 왔습니다. 기업이 LLM을 도입함에 따라 대량의 사전 처리된 데이터에 대한 수요가 폭발적으로 증가했습니다. 그러나 이러한 소비자는 Python, 벡터 데이터베이스 및 빠른 일회용 사용자 인터페이스의 세계에서 활동하는 경향이 있습니다. 시간이 지남에 따라 성숙한 데이터 엔지니어링 팀이 생성형 AI 팀에 엔터프라이즈급 데이터를 제공하는 책임을 점점 더 많이 맡게 될 것으로 예상됩니다.
Calvesbert: 고객들이 데이터 자산과 관련 비용 및 위험을 간소화하고자 하는 것 같습니다. 이를 위해 다중 모델 데이터베이스와 다중 엔진 레이크하우스 아키텍처는 고객이 더 적은 수의 데이터 플랫폼에서 통합을 모색함에 따라, 사일로화된 데이터베이스와 워크로드 경쟁에서 계속 성공할 것입니다. Text-to-SQL 모델이 매우 발전하고 있어, 비즈니스 인텔리전스를 넘어서는 광범위한 사용 사례에서 데이터 작업에 대한 장벽이 크게 줄어들 것입니다.
마찬가지로 에이전트가 급증함에 따라, 데이터의 양이 폭발적으로 증가하고 다양한 자동화된 워크플로에 유입될 것입니다. 이러한 워크플로 중 일부는 많은 지식 근로자 활동에 혁신을 일으키고 흥미로운 새 기회를 창출할 것입니다. 고객과의 내부 또는 외부 대화를 처리하고 이를 진행 상태 및 성사 성향에 대한 자동 평가를 포함한 CRM 시스템의 기회 기록이나 카탈로그의 제품에 즉시 매핑하는 것을 상상해 보세요.
Donahue: Snowflake, BigQuery, Databricks가 데이터 웨어하우징 공간에서 '데이터 중력'을 확립한 최신 데이터 스택과 달리, 비정형 데이터에 대해서는 아직 이러한 작업을 수행하지 않습니다. 또한 비정형 데이터는 정형 데이터의 4배에 달하는 방대한 양을 자랑하며 매년 기하급수적으로 증가하는 추세로 볼 때, 차세대 LLM용 스토리지 솔루션의 중요성은 이보다 더 클 수 없습니다. 벡터, 그래프, 오브젝트 또는 기타 유형의 스토리지의 어떤 조합이 지배적일지, 각 카테고리에서 어떤 공급업체가 우세할지에 대해서는 아직 미지수지만, 향후 18~24개월 안에 승자가 분명해질 것입니다.