비정형 데이터는 사전 정의된 형식이 없는 정보입니다. 비정형 데이터 세트는 대규모(종종 테라바이트 또는 페타바이트)이며 기업에서 생성되는 전체 데이터의 90%를 차지합니다.1
비정형 데이터의 급증은 텍스트 문서, 소셜 미디어, 이미지 및 오디오 파일, 인스턴트 메시지 및 스마트 디바이스 등 다양하고 광범위한 데이터 소스에서 비롯됩니다. 오늘날 생성되는 거의 모든 새로운 데이터는 비정형 데이터입니다. 전송된 모든 메시지, 업로드된 사진 또는 센서에서 트리거된 모든 데이터가 볼륨을 증가시킵니다.
정형 데이터(사전 정의된 데이터 모델이 있음)와 달리, 비정형 데이터는 기존 데이터베이스의 고정된 스키마를 쉽게 따르지 않습니다. 대신 비정형 데이터는 파일 시스템, 비관계형(또는 NoSQL 데이터베이스) 또는 데이터 레이크에 저장되는 경우가 많습니다.
비정형 데이터의 복잡성과 비일관적인 데이터 구조로 인해 더욱 정교한 데이터 분석 방법이 필요합니다. 머신 러닝(ML) 및 자연어 처리(NLP)와 같은 기술은 일반적으로 비정형 데이터 세트에서 인사이트를 추출하는 데 활용됩니다.
최근까지 비정형 데이터는 다크 데이터로 간주했습니다. 비정형 데이터의 문제점(즉, 방대한 양과 일관성 부족)으로 인해 많은 비즈니스 활용 사례에서 비정형 데이터를 활용할 수 없었습니다.
하지만 오늘날 풍부한 비정형 데이터를 보유한 기업은 상당한 전략적 자산을 보유하고 있습니다. 정형 데이터와 비정형 데이터를 결합하면 기업 전체의 데이터에 대한 완전한 보기를 제공합니다. 특히 지금과 같은 시기에 비정형 데이터는 기업이 생성형 AI(Gen AI)의 잠재력을 최대한 발휘하는 데 도움을 줄 수 있습니다.
대부분의 비정형 데이터는 텍스트 형태입니다. 이메일 메시지, Word 문서, PDF, 블로그 및 소셜 미디어 게시물 등이 여기에 해당합니다. 텍스트 형태의 비정형 데이터에는 Microsoft Teams나 Slack에서 생성된 통화 기록이나 메시지 텍스트 파일도 포함됩니다.
하지만 비정형 데이터는 텍스트 형태가 아닐 수도 있습니다. 텍스트가 아닌 비정형 데이터의 일반적인 예로는 이미지 파일(예: JPEG, GIF, PNG), 멀티미디어 파일, 비디오 파일, 모바일 활동, 그리고 사물 인터넷(IoT) 디바이스의 센서 데이터 등이 있습니다.
데이터는 형식과 스키마 규칙에 따라 정형, 비정형 또는 반정형으로 분류되는 경우가 많습니다. 이름에서 알 수 있듯이 반정형 데이터는 정형 데이터와 비정형 데이터의 속성을 모두 갖추고 있습니다. 각 데이터 유형에 대한 간략한 개요는 다음과 같습니다.
정형 데이터
비정형 데이터
반정형 데이터
비정형 데이터는 기업에서 생성되는 모든 데이터의 대부분을 차지합니다. 비정형 데이터는 다양하고 유연하며 풍부한 인사이트를 제공하는데, 그중 일부는 정형 데이터 세트에는 존재하지 않을 수도 있습니다. 정형 데이터도 여전히 매우 가치 있지만, 오늘날 대부분의 기업은 방대한 비정형 데이터를 보유하고 있으며, 이러한 데이터는 거의 활용되지 않고 있습니다.
비정형 데이터는 최신 AI에도 중요한 역할을 합니다. 비정형 데이터(공개 및 내부 독점 데이터 형태)를 사용하여 AI 모델을 학습시키고 모델 성능을 개선할 수 있습니다.
생성형 AI는 방대한 양의 데이터에서 패턴과 관계를 식별하고 인코딩하는 딥 러닝 모델을 사용합니다. 일반적으로 인터넷에서 가져온 비정형 데이터는 학습에 필요한 방대한 양의 레이블이 지정되지 않은 풍부한 데이터를 제공하는 데 적합합니다.
RAG는 조직의 내부 비정형 데이터와 같은 추가 외부 지식 기반에 대한 액세스를 제공하여 생성형 AI 모델의 성능을 최적화하기 위한 아키텍처입니다. 이 프로세스는 모델을 도메인별 사용 사례에 맞게 조정하여 더 나은 답변을 제공할 수 있도록 도와줍니다.
감정 분석은 대량의 텍스트를 분석하여 긍정적/부정적/중립적 감정을 표현하는지 확인합니다. 고객 행동을 이해하기 위한 툴로써 디지털 채널에서 고객이 생성한 방대한 양의 비정형 텍스트 데이터를 사용합니다.
기업은 과거 데이터를 활용하여 미래 결과를 예측하고 위험과 기회를 파악하기 위해 예측 분석을 활용합니다. 예를 들어 의료 기관은 의료 기록(비정형 텍스트 데이터)을 분석하여 특정 질병의 진단 및 치료 방식을 파악하고, 그 결과를 기반으로 예측 모델을 구축할 수 있습니다.
인공 지능과 관련된 비정형 데이터의 사용 사례는 AI 혁신을 도입하는 기업에서 점점 더 중요한 주제로 부상하고 있습니다. ChatGPT와 다른 인기 AI 앱의 기반 기술인 생성형 AI를 생각해 보세요. 이는 일반적으로 대규모 언어 모델(LLM)인 파운데이션 모델로 시작됩니다.
파운데이션 모델을 생성하려면 일반적으로 인터넷에서 가져온 방대한 양의 비정형 데이터로 딥 러닝 알고리즘을 학습시켜야 합니다. 이 비정형 데이터는 풍부하고 다양하여 AI 모델에 컨텍스트와 뉘앙스를 가르칩니다.
그러나 비정형 학습 데이터는 도메인이나 조직에 국한되지 않고 매우 일반적이며 잠재적으로 오래된 정보일 수 있습니다. 최종 모델은 도메인별 답변을 요청하는 프롬프트에 응답하는 데 어려움을 겪을 수 있습니다.
이러한 과제를 해결하기 위해 조직은 사전 학습된 모델을 특정 사용 사례나 작업에 맞게 조정하는 여러 방법을 사용할 수 있습니다. 한 가지 방법인 미세 조정은 기본 모델을 작업에 특화된 작은 데이터 세트로 학습시켜 조정하는 것입니다. 이 방법은 고품질의 정형 데이터, 즉 독점 데이터 또는 도메인별 전문 지식이 필요합니다.
그러나 검색 증강 생성(RAG)이라는 다른 방법을 사용하면 비정형 데이터를 통합할 수 있습니다. LLM은 일반적으로 학습 데이터에서 정보를 소싱하지만, RAG는 AI 워크플로에 정보 검색 구성 요소를 추가하여 관련 데이터를 수집하고 모델에 공급하여 응답 품질을 개선합니다. 이 데이터 세트에는 비정형 내부 데이터가 포함될 수 있습니다.
미세 조정에 비해 RAG는 응답 생성 중에 최신 정보를 지속적으로 검색하므로 보다 시기적절하고 정확한 결과를 보장합니다. 이는 AI 이니셔티브를 시간에 갇힌 일반적인 것에서 맞춤화되고 관련성이 높으며 영향력 있는 것으로 전환하는 데 도움이 될 수 있습니다.
정형 데이터와 마찬가지로 비정형 데이터도 AI에 사용되기 전에 적절한 데이터 거버넌스 및 데이터 관리가 필요합니다. 비정형 데이터는 분류, 데이터 품질 평가, PII 필터링, 그리고 중복 제거 과정을 거쳐야 합니다.
적합한 툴과 AI의 도움을 통해 기업은 비정형 데이터를 유용한 정보로 변환할 수 있습니다. 데이터 혼란에서 효과적으로 질서를 수립하는 능력은 이제 경쟁 우위의 핵심 요소이자 엔터프라이즈 생성형 AI의 촉매제가 되었습니다.
비정형 데이터는 일반적으로 원본 형식으로 저장되며, 이는 스토리지 옵션의 범위를 넓혀줍니다. 비정형 데이터의 일반적인 데이터 스토리지 환경은 다음과 같습니다.
Object storage (또는 오브젝트 기반 스토리지)는 데이터, 메타데이타 및 고유 식별 번호를 포함하는 단순하고 독립적인 저장소인 오브젝트로 데이터를 저장합니다. 이 아키텍처는 대량의 정적 비정형 데이터를 저장, 보관, 백업 및 관리하는 데 이상적입니다. 클라우드 기반 Object Storage는 AI 워크로드의 스토리지 비용과 데이터 사용량을 최적화하는 데 자주 사용됩니다.
구조화된 쿼리 언어(SQL)는 데이터의 저장, 조작 및 검색을 위해 사용되는 표준화된 도메인별 프로그래밍 언어입니다. NoSQL 또는 비SQL 데이터베이스는 스키마 없이 기존 SQL 데이터베이스 구조 외부에서 데이터를 저장하도록 설계되었습니다. NoSQL 데이터베이스는 대규모 비정형 데이터 세트를 관리하는 데 필요한 속도와 확장성을 제공합니다. 예: MongoDB, Redis, HBase
비정형 데이터가 저장되면 비즈니스 인텔리전스 또는 비정형 데이터 분석과 같이 다운스트림 사용 사례에 효과적으로 사용하기 위해 처리가 필요한 경우가 많습니다.
일부 조직은 오픈소스 프레임워크를 사용하여 대규모 비정형 데이터 세트를 처리합니다. 예를 들어 Apache Hadoop는 종종 데이터 레이크 아키텍처에 통합되어 비정형 및 반정형 데이터(예: 스트리밍 오디오 및 소셜 미디어 감정)를 일괄 처리할 수 있습니다. Apache Spark는 빅데이터 처리를 위한 또 다른 오픈소스 프레임워크입니다. 그러나 Spark는 인메모리 처리를 사용하며 매우 빠르기 때문에 머신 러닝 및 AI 애플리케이션에 더 적합합니다.
정형 데이터와 비정형 데이터를 모두 처리하도록 특별히 설계된 최신 데이터 통합 플랫폼도 있습니다. 이러한 다목적 통합 툴은 원시 데이터를 자동으로 수집하고 정리한 다음 처리된 데이터를 대상 데이터베이스로 이동합니다. 이러한 기능은 AI를 위한 원시 및 비정형 데이터를 준비하는 데이터 과학 팀의 시간 소모적인 수동 작업을 크게 줄여줍니다.
조직이 비정형 데이터에서 인사이트를 발견하는 데 사용할 수 있는 다양한 툴과 기술이 있습니다.
텍스트 마이닝은 Naïve Bayes, 지원 벡터 머신(SVM) 및 기타 딥 러닝 알고리즘을 활용하여 조직이 비정형 데이터 내의 숨겨진 관계를 탐색하고 발견하는 데 도움을 줍니다. 텍스트 마이닝에는 정보 검색, 정보 추출, 데이터 마이닝 및 자연어 처리와 같은 다양한 기술이 적용됩니다.
IBM 데이터베이스 솔루션을 사용하면 하이브리드 클라우드 전반에서 다양한 워크로드 요구 사항을 충족할 수 있습니다.
IBM Db2에 대해 알아보세요. 고성능과 확장성, 안정성을 제공하여 구조화된 데이터를 저장하고 관리하는 관계형 데이터베이스 IBM Db2는 IBM Cloud에서 SaaS 형태로, 또는 자체 호스팅을 통해 사용할 수 있습니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.
1 'Untapped value: What every executive needs to know about unstructured data', IDC, 2023년 8월.