비정형 데이터의 3대 핵심 과제 정복하기

2025년 5월 1일

작성자

Dinesh Nirmal

SVP

IBM Software

Alice Gomstyn

IBM Content Contributor

신뢰할 수 있는 데이터는 기업이 생성형 AI 이니셔티브를 성공적으로 추진하는 데 필수적입니다. 기업들은 인사이트의 강력한 원천이 될 수 있는 비정형 데이터를 효과적으로 활용하는 데 어려움을 겪고 있습니다. 기업이 생성하는 데이터의 약 90%가 비정형 데이터이며, 이메일, PDF 문서, 동영상 파일 및 기타 형식에 귀중한 정보가 저장되어 있습니다.1

다행히 진화하는 솔루션과 접근 방식을 통해 기업은 비정형 데이터를 체계화하고 이에 액세스하며 인텔리전스를 도출할 수 있습니다. Think 기고자인 Alice Gomstyn은 IBM 소프트웨어 부문 수석 부사장인 Dinesh Nirmal과 만나 기업들이 한때 접근이 불가능하다고 여겼던 방대한 데이터의 잠재력을 어떻게 활용할 수 있는지에 대해 논의했습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트

주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

Gomstyn: 조직이 비정형 데이터를 활용할 때 어떤 과제에 직면하나요?

Nirmal: 비정형 데이터에는 세 가지 핵심 과제가 있습니다. 첫 번째는 확장성입니다. 이를 어떻게 확장하고 어떻게 거버넌스를 유지할 것인가 하는 문제입니다. 두 번째는 생성형 AI의 성능과 정확도를 어떻게 보장할 것인가 하는 문제입니다. 세 번째는 비정형 데이터와 정형 데이터를 어떻게 연계하여 가치를 도출할 것인가 하는 문제입니다.

Gomstyn: 확장성 과제에 대해 좀 더 자세히 설명해주시겠어요? 이를 해결하기 위해 무엇이 필요한가요?

Nirmal: 비정형 데이터는 수백 개의 필드를 가질 수 있고, 그 중 일부는 대량 필드이거나 보안 필드일 수 있기 때문에 더 복잡합니다. 이러한 문서를 수집할 때는 거버넌스가 적용된 방식으로 수집하고 데이터 레이크하우스와 같은 거버넌스가 적용된 저장소에 저장하는 것이 매우 중요합니다.

데이터 파이프라인에도 거버넌스가 필요합니다. 관측 가능성과 모니터링을 어떻게 도입할까요? 파이프라인에 변화나 이상이 발생했을 때 이를 신속하게 식별하고 해결하려면 어떻게 해야 할까요? 이러한 파이프라인은 복잡하고 길어질 수 있으며, 전반적인 결과, 실행 시간, 성능 및 정확성이 올바르게 유지되도록 해야 합니다. 파이프라인을 구축하고, 관리하고, 관찰할 수 있는 툴이 필요합니다.

기업 입장에서는 보안도 중요한 요소입니다. 데이터를 분실하지 않도록 데이터 보안은 매우 중요한 요소가 됩니다. 우리는 데이터를 암호화할 수 있는 데이터 보안 툴을 보유하고 있습니다. 따라서 확장 시 정형 데이터에 적용했던 거버넌스와 보안이 비정형 데이터에도 동일하게 적용되도록 해야 합니다.

Gomstyn: 두 번째 핵심 과제인 생성형 AI 모델 성능 확보는 어떤가요?

Nirmal: 이 부분에는 엄청난 기회가 있습니다. 생성형 AI는 거버넌스가 적용된 신뢰할 수 있는 데이터를 학습과 프롬프트에 제공해야만 성공할 수 있기 때문입니다.

거버넌스 툴은 데이터 접근도 가능하게 합니다. 데이터 카탈로그 같은 거버넌스 툴을 사용하면 비정형 데이터를 데이터 과학자와 프롬프트 엔지니어가 사용할 수 있도록 제공하여, 그들이 해당 데이터를 활용해 모델을 프롬프트 튜닝할 수 있습니다.

거버넌스와 혁신은 밀접한 관련이 있습니다. 데이터 셀프 서비스를 진정으로 혁신적으로 제공하려면 반드시 거버넌스가 먼저 구축되어야 합니다. 데이터 제품 관점에서 보면, 데이터를 셀프 서비스로 제공하는 것이 가장 먼저 우선순위를 두어야 하는 요소입니다.

Mixture of Experts | 4월 25일, 에피소드 52

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Gomstyn: 세 번째 과제인 정형 데이터와 비정형 데이터의 연계는 어떻게 해결하나요?

Nirmal: 현재는 비정형 데이터가 문서 형식으로 존재할 경우, 이를 여러 조각으로 나누어 임베딩 형태로 벡터 데이터베이스에 저장해야 합니다.

문제는 데이터를 어디서 잘라냈는지 모르기 때문에 정확도가 떨어진다는 것입니다. 예를 들어 테이블 중간에서 데이터를 잘랐다고 가정해보겠습니다. 테이블을 다시 불러올 때 절반만 가져오게 되어 정확도가 손실됩니다.

이럴 때 우리는 무엇을 할 수 있을까요? 우리는 데이터를 벡터 DB에 저장하는 것뿐만 아니라, 해당 문서의 트랜잭션 측면도 트랜잭션 데이터베이스에 저장합니다. 그리고 자연어 쿼리를 수행할 때 두 쪽 데이터를 비교하여 더 나은 정확도와 성능을 얻기 위해 데이터를 어떻게 통합할지 결정합니다. 여기서 RAG SQL이나 Graph RAG를 활용하면 더 높은 수준의 정확도를 얻을 수 있습니다. 이는 트랜잭션 데이터베이스와 벡터 DB 간 데이터를 정확하게 연계하는 것의 핵심입니다.

Gomstyn: 비정형 데이터를 효과적으로 관리하기 위해 IT 리더들이 반드시 개발해야 할 핵심 기술과 역량은 무엇인가요?

Nirmal: 비정형 데이터 측면에서는 데이터 엔지니어링이 가장 중요한 요소입니다. 정형 데이터 쪽에서는 데이터 엔지니어링이 잘 정립된 분야이지만, 비정형 데이터 쪽은 엄청난 양의 데이터가 존재하는데도 아직 본격적으로 활성화되지 못했습니다.

하지만 이제 거버넌스, 보안 등 여러 요소가 비정형 데이터 쪽으로도 적용되고 있습니다. 우리는 데이터 엔지니어들이 데이터를 실제로 엔지니어링하여 데이터 파이프라인으로 제공할 수 있도록 해야 합니다. 비정형 데이터를 위한 데이터 제품을 만들어 모든 데이터 과학자와 엔지니어가 셀프 서비스로 활용할 수 있도록 해야 합니다. 정형 데이터 측면에서 데이터 엔지니어들이 사용하는 기술은 비정형 데이터 측면에서도 동일하게 적용할 수 있습니다. 다만 훨씬 더 큰 규모로 적용될 뿐입니다.

Gomstyn: 비정형 데이터 파일럿 프로젝트의 성공은 어떻게 측정하나요?

니르말: 진정한 투자 수익은 최종 사용자에게 가시적인 가치가 제공될 때 발생합니다. 예를 들어, 제가 통신사에 전화를 걸면 상담원이 전화를 받습니다. 제가 질문하면 상담원은 답변을 제공하기 전에 답을 찾아야 합니다.

이제는 생성형 AI를 통해 온라인으로 해결할 수 있습니다. 청구서 문서와 같은 비정형 데이터 형식에 액세스할 수 있는 어시스턴트나 챗봇에게 간단한 질문을 하면 됩니다. 15초 이내에 청구서 요약이나 계정 정보에 대한 답변을 받을 수 있습니다. 절약한 시간을 보세요. 누군가에게 전화를 걸고 15분 동안 기다릴 필요가 없습니다. 이제는 손쉽게 바로 확인할 수 있습니다. 생성형 AI 덕분에 최종 사용자로서 이러한 경험이 가능해졌습니다.

생성형 AI가 특히 비정형 데이터 측면에서 생산성 향상, 시간 절약, 최적화를 주도하고 있는 것입니다.

본 인터뷰는 명확성과 분량 조정을 위해 편집 및 축약되었습니다.

관련 솔루션
데이터베이스 소프트웨어 및 솔루션

IBM 데이터베이스 솔루션을 사용하면 하이브리드 클라우드 전반에서 다양한 워크로드 요구 사항을 충족할 수 있습니다.

데이터베이스 솔루션 살펴보기
IBM Db2를 사용한 클라우드 네이티브 데이터베이스

IBM Db2에 대해 알아보세요. 고성능과 확장성, 안정성을 제공하여 구조화된 데이터를 저장하고 관리하는 관계형 데이터베이스 IBM Db2는 IBM Cloud에서 SaaS 형태로, 또는 자체 호스팅을 통해 사용할 수 있습니다.

Db2 살펴보기
데이터 및 분석 컨설팅 서비스

IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.

분석 서비스 알아보기
다음 단계

IBM 데이터베이스 솔루션을 사용하면 하이브리드 클라우드 전반에서 다양한 워크로드 요구 사항을 충족할 수 있습니다.

데이터베이스 솔루션 살펴보기 IBM Db2 살펴보기