'정형'과 '비정형'은 데이터의 형식과 스키마 규칙 또는 그 부족 여부에 따라 데이터를 분류하는 데 사용되는 용어입니다.
정형 데이터는 고정된 스키마를 가지고 있으며 이름 및 전화번호와 같은 행과 열에 깔끔하게 들어 맞습니다. 비정형 데이터에는 고정된 스키마가 없으며 오디오 파일 및 웹 페이지와 같은 더 복잡한 형식을 가질 수 있습니다.
정형 데이터와 비정형 데이터는 다름 주요 영역에서 차이를 보입니다.
정형 데이터와 비정형 데이터의 정의, 사용 사례 및 이점에 대해 자세히 알아보려면 계속 읽어보세요.
업계 뉴스레터
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
정형 데이터는 명확하고 미리 정의된 형식으로 구성됩니다. 정형 데이터는 표준화된 특성을 가지고 있어 데이터 분석 툴, 머신 러닝 알고리즘 및 인간 사용자가 쉽게 해석할 수 있습니다.
정형 데이터에는 정량적 데이터(예: 가격 또는 매출 수치)와 정성적 데이터(예: 날짜, 이름, 주소, 신용 카드 번호)가 모두 포함될 수 있습니다. 예를 들어, 회사 이름, 비용 값 및 보고 기간이 행과 열로 구성된 재무 보고서는 정형 데이터로 간주됩니다.
정형 데이터는 일반적으로 Excel 스프레드시트와 관계형 데이터베이스 (또는 SQL Database)와 같은 표 형식으로 저장됩니다. 사용자는 구조화된 쿼리 언어(SQL)를 사용하여 관계형 데이터베이스 관리 시스템(RDBMS) 내에서 정형 데이터를 효율적으로 입력, 검색 및 조작할 수 있습니다. 1974년 IBM®에서 개발한 구조화된 쿼리 언어는 정형 데이터를 관리하는 데 사용되는 프로그래밍 언어입니다.
정형 데이터의 사용 사례는 다음과 같습니다.
정형 데이터의 이점은 사용 및 액세스의 용이성과 관련이 있습니다.
정형 데이터의 문제는 데이터의 유연성과 관련이 있습니다.
비정형 데이터에는 미리 정의된 형식이 없습니다. 비정형 데이터 세트는 일반적으로 규모가 크며(테라바이트 또는 페타바이트 규모의 데이터) 기업에서 생성한 모든 데이터의 90%를 차지합니다. 이렇게 많은 양의 데이터는 인터넷과 기타 연결된 기술에서 생성되는 방대하고 복잡한 데이터 세트인 빅데이터의 등장으로 인해 발생했습니다.1
비정형 데이터에는 텍스트 및 비텍스트 데이터와 정성적 데이터(소셜 미디어 댓글) 및 정량적 데이터(텍스트에 포함된 수치)가 모두 포함될 수 있습니다.
텍스트 데이터 소스의 비정형 데이터의 예는 다음과 같습니다.
비텍스트적 비정형 데이터의 예는 다음과 같습니다.
비정형 데이터는 데이터 형식, 속도 및 스토리지 측면에서 다음과 같은 이점이 있습니다.
전문 지식과 가용 리소스에 대한 비정형 데이터 센터의 과제:
AI는 많은 양의 데이터를 빠르게 처리할 수 있습니다. 이는 방대한 양의 비정형 데이터를 실행 가능한 인사이트로 전환하려는 조직에 필수적인 역량입니다.
AI 알고리즘은 머신 러닝 및 자연어 처리(NLP)를 통해 비정형 데이터를 선별하여 패턴을 찾고 실시간 예측 또는 권장 사항을 제공할 수 있습니다. 그런 다음 조직은 이러한 분석 모델을 기존 대시보드 또는 애플리케이션 프로그래밍 인터페이스(API) 에 통합하여 의사 결정 프로세스를 자동화할 수 있습니다.
반정형 데이터는 정형 데이터와 비정형 데이터를 연결하는 '다리' 역할을 합니다. 웹 스크래핑과 데이터 통합에 유용합니다.
반정형 데이터에는 사전 정의된 데이터 모델이 없습니다. 하지만 이는 메타데이터(예: 태그 및 시맨틱 마커)를 사용하여 특정 데이터 특성을 식별하고 데이터를 레코드 및 사전 설정 필드로 확장합니다. 메타데이터는 궁극적으로 반정형 데이터를 비정형 데이터보다 더 잘 분류, 검색, 분석할 수 있게 해줍니다.
반정형 데이터의 예로는 JavaScript 객체 표기법(JSON), 콤마로 구분된 값(CSV) 및 확장 마크업 언어(XML) 파일이 있습니다. 더 흔히 언급되는 예로는 이메일이 있는데, 일부 데이터 구역은 헤더나 제목줄과 같이 표준화된 형식을 갖지만, 그 구역 안에는 비정형 데이터 내용이 포함되어 있습니다.
기업이 성공하려면 데이터를 활용하여 고객 충성도를 높이고 비즈니스 프로세스를 자동화하며 AI 기반 솔루션으로 혁신을 이루어야 합니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.
더 나은 의사 결정을 위한 AI 기반 인사이트인 Cognos Analytics 12.0을 소개합니다.