ChatGPT와 파운데이션 모델을 기반으로 구축된 수십 개의 다른 챗봇 덕분에 거의 모든 사람이 대규모 언어 모델(LLM)에 대해 잘 알고 있습니다. 그렇다면 대규모 데이터베이스 모델(LDM)은 어떨까요?
"LDM은 LLM과 챗봇의 영역인 언어와 텍스트가 아니라 대규모 데이터 세트와 트랜잭션 흐름에서 인사이트를 도출하도록 조정된 모델입니다."라고 IBM 인프라 부문 수석 부사장 Ric Lewis가 IBM 2025 Investor Day에서 말했습니다.
LLM은 책, 기사, Wikipedia, 기타 다양한 소스 등 공개적으로 사용 가능한 데이터로 학습되지만, 학습 자료에는 일반적으로 기업 내 방대한 양의 데이터가 포함되지 않습니다. 실제로 현재 대규모 언어 모델에서 사용되는 기업 데이터는1%에 불과합니다.
반면 LDM은 트랜잭션 기록, 제품 정보, 고객 관계 데이터, 교육 로그, 직원 기록 등 다양한 기업 데이터 소스에 대해 학습합니다. 결과적으로, 기업은 LDM을 사용하여 시맨틱 검색이라고 하는 프로세스에서 대화형 질문을 통해 데이터베이스에서 발견된 미활용 데이터의 99%에서 의미를 발견할 수 있습니다. 시맨틱 검색은 단순히 키워드를 매칭하는 것을 넘어 사용자의 검색 쿼리 뒤에 숨겨진 의미와 맥락을 이해합니다.
Lewis는 IBM Think와의 인터뷰에서 "LDM은 비즈니스 애플리케이션 및 트랜잭션 흐름에 내장된 데이터를 활용하여 기업에 새로운 인사이트와 새로운 가치를 창출하는 흥미롭고 새로운 방법을 제시합니다."라고 말합니다. "LDM이 이제 막 등장하고 있지만, 저희는 LDM이 에이전틱 애플리케이션에 정보를 제공하고 기업이 개선된 결과를 도출하는 데 도움이 될 것으로 기대하고 있습니다."라고 그는 설명하며, 이러한 모델은 트랜잭션 프로세스에 AI를 도입하기 위해 이미 도입되고 있다고 덧붙였습니다.
예를 들어, 평균 구매력과 구매 이력이 최근에 매장을 방문하여 새로운 뷰티 제품에 강한 관심을 보인 Claire라는 고객과 유사한 고객을 식별하려는 소매업체를 생각해 보세요. 일반적으로 소매업체의 데이터 과학자는 파이프라인, 즉 원시 데이터를 고려 중인 특정 비즈니스 질문에 대한 유용한 답변으로 변환하는 프로세스를 정의하는 것부터 시작합니다. 다음으로, "뉴욕에 거주하고 작년에 뷰티 제품에 1,000달러 이상을 지출한 20~40세의 모든 고객을 찾아줘."와 같은 매우 구체적인 용어로 데이터베이스 쿼리를 공식화합니다.
그런 다음, 데이터 과학자는 필요한 데이터를 추출하여 다른 플랫폼에 로드하고 몇 주 또는 몇 달에 걸쳐 데이터베이스에서 어느 고객이 Claire와 닮았는지 파악합니다.
IBM Silicon Valley Lab의 Db2 프로그램 디렉터인 Catherine Wu는 기존 데이터베이스 쿼리를 완료하는 데 필요한 광범위한 프로세스를 감안할 때 "일반적으로 생성형 AI의 대상이 아닌 데이터와 기업이 인사이트를 얻지 못하는 데이터가 회사 메인프레임에 많이 있습니다."라고 IBM Think와의 인터뷰에서 말했습니다.
이 중 일부는 데이터를 외부 환경으로 이동하는 것과 관련된 비용 및 보안 문제로 귀결됩니다. "고객들은 데이터 이동만으로도 IT 비용의 30~40%가 든다고 말합니다."라고 Wu는 말합니다. "또한 데이터가 메인프레임 외부로 이동한 후에는 데이터 이동 경로를 추적할 수 없기 때문에 고객의 큰 우려 사항입니다."
반면 LDM을 사용하면 데이터베이스가 온프레미스, 클라우드 또는 이 둘의 하이브리드에 있든 관계없이 훨씬 더 빠르고 쉽게 데이터베이스를 검색하고 답변을 얻을 수 있습니다. 따라서 위의 예에서 소매업체는 데이터베이스를 쿼리하여 "Claire와 같은 상위 100명의 고객을 나열해 줘"라고 요청할 수 있습니다. 그리고 얼마 지나지 않아 기본적인 SQL 교육을 받은 사람이라면 누구나 데이터를 다른 곳으로 이동할 필요 없이 해당 정보를 가져올 수 있다고 Wu는 말합니다. IBM은 2022년에 대형 데이터베이스 모델을 사용하는 첫 번째 데이터베이스 제품인 SQL DI(SQL Data Insights)를 출시했는데, 이는 전 세계 금융 거래의 70% 이상을 처리하는 IBM Z 메인프레임에 있는 z/OS용 Db2 데이터베이스의 일부로, 가치 기준으로 전 세계 금융 거래의 70% 이상을 처리합니다.
Granite의 기술 제품 관리 디렉터인 Kate Soule은 최근 Mixture of Experts 팟캐스트 에피소드에서 LLM은 “종종 과잉일 수 있다”고 말했습니다.
IBM의 Lewis는 "LDM의 학습 및 조정 요구 사항은 LLM과 다른 인프라를 사용하여 달성할 수 있습니다."라고 말합니다. "대부분의 기업이 해결하고자 하는 문제를 해결하기 위해 대규모 GPU 팜이 필요하지 않습니다. LLM을 학습시키는 데 사용할 수 있는 모든 데이터와 비교할 때 엔터프라이즈 트랜잭션 데이터베이스는 상대적으로 작습니다." 하지만 Lewis는 회사별 데이터를 통해 '특정 결과를 보다 비용 효율적으로, 더 효과적으로 제공하는 특정 모델'을 만들 수 있다고 말합니다.
IBM의 SQL DI를 사용하면 데이터 유형에 관계없이 데이터베이스 열 내의 각 값이 텍스트 토큰으로 변환됩니다. "따라서 이 모델은 각 데이터베이스 레코드를 영어와 같은 문장에서 정렬되지 않은 단어 모음(bag of words)으로 인식하며, 각 토큰은 레코드 내 위치에 관계없이 다른 토큰과 동등한 관계를 유지합니다."라고 IBM 수석 엔지니어인 Akiko Hoshikawa는 말합니다. 다음으로, SQL DI는 테이블 행 내부와 테이블 행 전체에서 주변 열 값을 기반으로 중요한 데이터베이스 값을 추론합니다. 이러한 방식으로 학습된 모델을 사용하면 거의 모든 사람이 관계형 데이터에 대해 AI 쿼리를 실행하여 데이터베이스 내에서 의미론적으로 유사한 데이터를 직접 감지하고 일치시킬 수 있습니다.
많은 기업에서 LDM을 개념 증명으로 고려하고 있지만, 보험 및 소매 분야의 일부 기업은 이미 이러한 도구를 사용하여 데이터베이스에서 가치를 추출하는 프로세스를 가속화하고 있습니다.
스위스에서 가장 오래된 보험 회사인 Swiss Mobiliar의 데이터 에반젤리스트인 Thomas Baumann은 회사의 여러 영역에서 IBM의 SQL DI를 사용하고 있습니다. Baumann은 SQL DI를 사용하여 자동차 보험 견적을 더 잘 조정하여 판매를 늘리기 시작했습니다. 영업 사원이 잠재적 신규 보험 계약자와 상담할 때 견적을 입력하면 LDM이 가장 유사한 과거 사례를 추출하여 고객이 이를 수락할 확률을 판단합니다.
Baumann은 IBM Think와의 인터뷰에서 "사용자는 자기 부담금을 줄이거나 보다 공격적인 할인을 제공하는 등 일부 매개변수를 변경한 후 성공 가능성에 대한 새로운 확률을 다시 계산할 수 있습니다."라고 말합니다. "견적은 이전보다 훨씬 더 정교해지고 개별 고객에 맞춰 조정됩니다."
IBM의 SQL DI를 Swiss Mobiliar의 자동차 보험 상품에 사용할 때 이 기업은 약 1,500만 개의 자동차 보험 견적 데이터 레코드로 모델을 학습시켰으며, 각 레코드에는 인구 통계, 차량 데이터, 가격 등 각 레코드에 대한 수십 개의 속성이 포함되어 있습니다. Baumann은 영업 담당자가 다양한 후보 견적을 선택하기 전에 그 가능성을 확인함으로써 더 과학적인 견적을 생성할 수 있게 되었다고 말합니다.
그 결과, 6개월 동안 보험 판매 마감률이 7% 개선되었는데, LDM을 사용하지 않았다면 이러한 개선을 이루는 데 약 2년이 걸렸을 것이라고 Baumann은 말합니다. 이 파일럿 프로그램의 성공을 바탕으로 Swiss Mobiliar는 현재 건물 보험부터 가구 보험에 이르기까지 모든 보험 상품(생명 보험 제외)에 LDM을 사용하고 있습니다.
Baumann은 "SQL DI의 두 가지 주요 이점은 아이디어 단계에서 사전 프로덕션 단계로 전환하는 것이 매우 빠르다는 점입니다."라고 말합니다. "또한 한 플랫폼에서 다른 플랫폼으로 데이터를 이동할 필요가 없습니다."
IBM의 SQL DI 팀은 보험 외에도 LDM을 사용하여 고객에게 보다 맞춤화된 쇼핑 경험을 제공하는 데 관심이 있는 미국 및 유럽의 여러 식품 소매업체와도 협력하고 있습니다. 예를 들어, 고객이 한 종류의 시리얼을 손에 들고 데이터베이스에서 시맨틱 쿼리를 실행하여 맛은 비슷하지만 더 건강한 영양 프로필을 제공하는 대체 시리얼을 검색해서 가져올 수 있습니다. 제안에 사용되는 LDM은 '더 정교하고 개인화된 Amazon 또는 Netflix 추천'과 같다고 Hoshikawa는 말합니다.
고객용 애플리케이션 외에도 기업들은 이미 이상 탐지 및 실시간 사기 탐지와 같은 많은 B2B 영역에 LDM을 배포하고 있습니다. 예를 들어, 계약을 발행하는 모든 회사는 LDM을 사용하여 평범하지 않은 계약을 신속하게 식별할 수 있다고 IBM의 Hoshikawa는 말합니다.
한편, LDM은 보다 정교한 실시간 사기 탐지도 지원할 수 있습니다. LDM은 일반적인 패턴을 따르지 않는 트랜잭션 식별하는 것 외에도 데이터베이스를 쿼리하여 기업의 Better Business Bureau 보고서가 누락되었거나 실제 주소가 없는 등 의심스러운 행동과 관련된 다양한 속성이 포함된 기록을 식별할 수 있습니다.
Lewis는 LLM과 LDM에 이어 다른 많은 전문 모델이 뒤따를 것이라고 믿습니다. "우리는 LLM과 마찬가지로 LDM이 다양한 에이전트 애플리케이션을 가능하게 하고 더 나은 결과를 도출하는 데 도움이 되는 귀중한 도구라고 믿습니다."라고 그는 말합니다. "하지만 항상 고립된 채로 사용되지는 않을 것입니다. 실제로 이상적인 시나리오는 LDM을 엔터프라이즈 데이터 모델에 통합하고 이를 LLM 및 기타 목적에 맞는 모델과 결합하여 기업과 사회를 위해 대규모로 새로운 가치를 창출하는 것이라고 생각합니다."
마찬가지로, Lewis는 하나의 기업이나 조직이 꼭 지배적일 것으로 기대하지 않습니다. Lewis는 "단일 기업 또는 가장 많은 서버와 GPU를 보유한 기업이 '맥가이버 칼'과 같은 만능 모델을 개발할 것이라고 가정하지 마세요." 라고 말합니다. "저는 그렇게 생각하지 않습니다. 다양한 분야의 주제 전문가들의 전문 지식을 활용하여 가장 많은 인사이트를 얻을 수 있는 것처럼, LLM, LDM 및 향후 등장할 목적별 맞춤형 모델들을 결합하는 능력이 진정으로 새로운 인사이트와 최적화된 결과를 이끌어낼 것입니다."
IBM 데이터베이스 솔루션을 사용하면 하이브리드 클라우드 전반에서 다양한 워크로드 요구 사항을 충족할 수 있습니다.
IBM Db2에 대해 알아보세요. 고성능과 확장성, 안정성을 제공하여 구조화된 데이터를 저장하고 관리하는 관계형 데이터베이스 IBM Db2는 IBM Cloud에서 SaaS 형태로, 또는 자체 호스팅을 통해 사용할 수 있습니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.