비정형 데이터는 사전 정의된 형식이 없는 정보입니다. 비정형 데이터 세트는 대규모(종종 테라바이트 또는 페타바이트)이며 기업에서 생성되는 전체 데이터의 90%를 차지합니다.1

비정형 데이터의 급증은 텍스트 문서, 소셜 미디어, 이미지 및 오디오 파일, 인스턴트 메시지 및 스마트 디바이스 등 다양하고 광범위한 데이터 소스에서 비롯됩니다. 오늘날 생성되는 거의 모든 새로운 데이터는 비정형 데이터입니다. 전송된 모든 메시지, 업로드된 사진 또는 센서에서 트리거된 모든 데이터가 볼륨을 증가시킵니다.

정형 데이터(사전 정의된 데이터 모델이 있음)와 달리, 비정형 데이터는 기존 데이터베이스의 고정된 스키마를 쉽게 따르지 않습니다. 대신 비정형 데이터는 파일 시스템, 비관계형(또는 NoSQL 데이터베이스) 또는 데이터 레이크에 저장되는 경우가 많습니다.

비정형 데이터의 복잡성과 비일관적인 데이터 구조로 인해 더욱 정교한 데이터 분석 방법이 필요합니다. 머신 러닝(ML) 및 자연어 처리(NLP)와 같은 기술은 일반적으로 비정형 데이터 세트에서 인사이트를 추출하는 데 활용됩니다.

최근까지 비정형 데이터는 다크 데이터로 간주했습니다. 비정형 데이터의 문제점(즉, 방대한 양과 일관성 부족)으로 인해 많은 비즈니스 활용 사례에서 비정형 데이터를 활용할 수 없었습니다.

하지만 오늘날 풍부한 비정형 데이터를 보유한 기업은 상당한 전략적 자산을 보유하고 있습니다. 정형 데이터와 비정형 데이터를 결합하면 기업 전체의 데이터에 대한 완전한 보기를 제공합니다. 특히 지금과 같은 시기에 비정형 데이터는 기업이 생성형 AI(Gen AI)의 잠재력을 최대한 발휘하는 데 도움을 줄 수 있습니다.