데이터 세트는 일반적으로 쉽게 검색하고 분석할 수 있도록 테이블, 배열 또는 특정 형식(예: CSV 또는 JSON)으로 구성된 데이터의 모음입니다. 데이터 세트는 데이터 분석, 머신 러닝(ML), 인공 지능(AI) 및 기타 신뢰할 수 있고 액세스 가능한 데이터를 필요로 하는 애플리케이션에 필수적입니다.
오늘날 조직은 고객 상호 작용, 금융 거래, IoT 디바이스, 소셜 미디어 플랫폼 등 다양한 소스에서 대량의 데이터를 수집합니다.
이 모든 데이터의 비즈니스 가치를 실현하려면 데이터를 분석 및 적용을 위해 정보에 액세스할 수 있는 체계적인 컬렉션인 데이터 세트로 구성해야 하는 경우가 많습니다.
다양한 유형의 데이터 세트는 다양한 방식으로 데이터를 저장합니다. 예를 들어, 구조화된 데이터 세트는 정의된 행과 열이 있는 테이블에 데이터 요소를 배열하는 경우가 많습니다. 비정형 데이터 세트에는 텍스트 파일, 이미지 및 오디오와 같은 다양한 형식이 포함될 수 있습니다.
모든 데이터 세트가 정형 데이터를 포함하는 것은 아니지만 정의된 스키마든 JSON이나 XML과 같은 반정형 데이터 형식의 느슨하게 구성된 구문이든 관계없이 항상 일반적인 구조를 가지고 있습니다.
데이터 세트의 예는 다음과 같습니다.
조직은 데이터 분석 및 비즈니스 인텔리전스(BI)를 포함한 다양한 비즈니스 이니셔티브를 지원하기 위해 여러 데이터 세트를 사용하고 유지 관리하는 경우가 많습니다.
특히 빅데이터는 가치를 제공하기 위해 방대하고 복잡한 데이터 세트를 활용합니다. 빅데이터 분석을 사용하여 적절하게 수집, 관리 및 분석하면 이러한 데이터 세트를 통해 새로운 인사이트를 발견하고 데이터 기반 의사 결정을 내릴 수 있습니다.
최근 몇 년 동안 인공 지능(AI)과 머신 러닝의 등장으로 데이터 세트에 대한 관심이 더욱 높아졌습니다. 조직은 정확한 머신 러닝 모델을 개발하고 예측 알고리즘을 개선하기 위해 광범위하고 잘 정리된 학습 데이터가 필요합니다.
Gartner에 따르면, 조직의 61%가 AI 기술의 영향으로 인해 데이터 및 분석 운영 모델을 발전시키거나 재고해야 한다고 답했습니다.1
'데이터 세트'라는 용어는 종종 광범위하게 사용되지만 데이터 모음이 데이터 세트를 구성하는지 여부는 특정 특성에 따라 결정됩니다. 일반적으로 데이터 세트에는 변수, 스키마, 메타데이터라는 세 가지 기본 특성이 있습니다.
모든 데이터 컬렉션이 데이터 세트에 해당하는 것은 아닙니다. 관련 없는 데이터 포인트의 무작위 누적은 일반적으로 의미 있는 분석을 가능하게 하는 적절한 조직과 구조가 없으면 데이터 세트를 구성할 수 없습니다.
마찬가지로 애플리케이션 프로그래밍 인터페이스(API), 데이터베이스 및 스프레드시트는 데이터 세트와 상호 작용하거나 데이터 세트를 포함할 수 있지만 반드시 데이터 세트 자체인 것은 아닙니다.
API를 사용하면 애플리케이션이 서로 통신할 수 있으며, 여기에는 데이터 세트에 액세스하고 교환하는 작업이 포함되기도 합니다. 데이터베이스와 스프레드시트는 데이터 세트를 포함할 수 있는 정보를 담는 컨테이너입니다.
조직은 일반적으로 처리하는 데이터 유형에 따라 분류되는 3가지 주요 유형의 데이터 세트로 작업합니다.
조직은 포괄적인 데이터 분석 전략을 지원하기 위해 여러 유형의 데이터 세트를 조합하여 사용하는 경우가 많습니다. 예를 들어, 소매업은 정형 판매 데이터를 비정형 고객 후기 및 반정형 웹 분석과 함께 분석하여 고객 행동 및 선호도에 대한 더 나은 인사이트를 얻을 수 있습니다.
구정형 데이터 세트는 미리 정의된 형식으로, 일반적으로 명확하게 정의된 행과 열이 있는 테이블로 정보를 구성합니다. 이러한 데이터 세트는 고객 관계 관리(CRM)와 재고 관리 등의 여러 중요한 비즈니스 프로세스의 기반이 됩니다.
정형 데이터 세트는 일관된 스키마를 따르기 때문에 빠른 쿼리와 신뢰할 수 있는 분석이 가능합니다. 따라서 정확하고 정량화 가능한 데이터가 필요한 비즈니스 인텔리전스 툴과 보고 시스템에 적합합니다.
정형 데이터 세트의 일반적인 예는 다음과 같습니다.
비정형 데이터 세트에는 기존 데이터 모델이나 경직된 스키마를 준수하지 않는 정보가 포함되어 있습니다. 이러한 데이터 세트에는 보다 정교한 처리 툴이 필요하지만 정형 데이터 형식으로는 캡처할 수 없는 풍부한 인사이트가 포함되어 있는 경우가 많습니다.
조직은 비정형 데이터 세트를 사용하여 인공 지능 및 기계 학습 모델을 Power합니다. 이러한 데이터 세트는 AI 모델을 훈련하고 보다 고급 분석 기능을 개발하는 데 필요한 다양한 실제 데이터를 제공합니다.
비정형 데이터 세트의 일반적인 예는 다음과 같습니다.
반정형 데이터 세트는 정형 데이터와 비정형 데이터 간의 격차를 해소합니다. 엄격한 스키마를 따르지는 않지만, 정의된 구문이나 마커를 통합하여 유연하면서도 구문 분석 가능한 형식으로 정보를 구성할 수 있습니다.
이러한 하이브리드 접근 방식은 다양한 데이터 유형을 처리하면서도 어느 정도 조직적 구조를 유지해야 하는 현대적 데이터 통합 프로젝트와 애플리케이션에 반정형 데이터 세트를 유용하게 만들어줍니다.
반정형 데이터 세트의 일반적인 예는 다음과 같습니다.
조직은 다양한 소스에서 데이터를 수집하여 다양한 비즈니스 이니셔티브를 지원하는 데이터 세트를 구축합니다. 데이터 소스는 데이터 세트의 품질과 유용성을 직접적으로 결정할 수 있습니다.
몇 가지 일반적인 데이터 소스는 다음과 같습니다.
데이터 저장소는 중앙 집중식 데이터 저장소입니다. 독점 데이터 저장소에는 경쟁 우위를 제공하는 고객 기록, 금융 거래 또는 운영 메트릭과 같은 민감하거나 비즈니스 크리티컬 데이터가 보관되는 경우가 많습니다.
다른 데이터 저장소는 공개적으로 사용할 수 있습니다. 예를 들어 GitHub와 같은 플랫폼은 코드와 함께 오픈 소스 데이터 세트를 호스팅합니다. 연구자와 조직은 이러한 공공 데이터 세트를 사용하여 머신 러닝 모델과 데이터 과학 프로젝트에 공개적으로 협업할 수 있습니다.
데이터베이스는 필요에 따라 데이터를 안전하게 저장하고 쉽게 검색할 수 있도록 최적화된 디지털 데이터 저장소입니다.
데이터베이스에는 단일 데이터 세트 또는 여러 데이터 세트가 포함될 수 있습니다. 사용자는 구조화된 쿼리 언어(SQL)와 같은 특수 언어를 사용하는 데이터베이스 쿼리를 실행하여 관련 데이터 포인트를 빠르게 추출할 수 있습니다.
API는 소프트웨어 애플리케이션을 연결하여 통신할 수 있도록 합니다. 데이터 소비자는 API를 사용하여 웹 서비스 및 디지털 플랫폼과 같은 연결된 소스에서 실시간으로 데이터를 캡처하고 다른 앱 및 리포지토리로 전달하여 사용할 수 있습니다.
데이터 과학자는 API 통합 및 데이터 처리를 위한 강력한 라이브러리를 제공하는 Python과 같은 언어를 사용하여 자동화된 데이터 수집 파이프라인을 구축하는 경우가 많습니다. 예를 들어, 소매 분석 시스템은 이러한 자동화된 파이프라인을 사용하여 전자 상거래 매장과 재고 관리 시스템에서 고객 구매 데이터와 재고 수준을 지속적으로 수집할 수 있습니다.
Data.gov와 같은 사이트 및 New York City Open Data와 같은 시 수준의 오픈 데이터 이니셔티브는 의료, 교통 및 환경 메트릭이 포함된 데이터 세트에 대한 무료 액세스를 제공합니다. 연구자들은 이러한 데이터 세트를 사용하여 교통 패턴부터 공공 상황 동향에 이르기까지 모든 것을 연구할 수 있습니다.
인공 지능 강화부터 데이터 기반 인사이트 구현에 이르기까지 데이터 세트는 여러 주요 비즈니스 및 기술 이니셔티브의 기반이 됩니다.
데이터 세트의 가장 일반적인 응용 분야는 다음과 같습니다.
인공 지능(AI)은 많은 조직에서 중요한 차별화 요소가 될 수 있습니다.
IBM 기업가치연구소(IBV)에 따르면, 최고 성과를 내는 CEO의 72%는 경쟁 우위는 누가 가장 진보된 생성형 AI를 보유하고 있는지에 달려 있다고 생각합니다. 이러한 최첨단 AI 시스템은 레이블이 지정되거나 지정되지 않은 방대한 데이터 세트를 사용하여 모델을 효과적으로 학습시킵니다.
조직은 포괄적인 훈련 데이터를 통해 다음과 같은 복잡한 작업을 수행하는 AI 시스템을 개발할 수 있습니다.
데이터 과학자와 분석가는 데이터 세트를 사용하여 귀중한 인사이트를 추출하고 여러 분야에 걸쳐 발견을 촉진합니다. 조직이 그 어느 때보다 더 많은 데이터를 수집함에 따라 데이터 분석은 가설을 테스트하고, 추세를 식별하고, 전략적 의사 결정에 영향을 미치는 관계를 파악하는 데 매우 중요해졌습니다.
데이터 세트가 데이터 분석을 지원하는 몇 가지 일반적인 방법은 다음과 같습니다.
조직은 비즈니스 인텔리전스(BI)를 사용하여 데이터 세트에서 인사이트를 발견하고 실시간 의사 결정을 내립니다.
BI 도구는 다양한 유형의 데이터를 분석하여 추세를 파악하고 성능을 모니터링하며 새로운 기회를 발견하는 데 도움이 될 수 있습니다. 일부 응용 분야에는 다음이 포함됩니다.
모든 이니셔티브에서 크고 복잡한 데이터 세트를 처리하는 데는 몇 가지 도전 과제와 고려 사항이 발생할 수 있습니다. 가장 대표적인 것은 다음과 같습니다.
모든 링크는 ibm.com 외부에 있습니다.
1 AI 기술로 D&A 운영 모델을 발전시키고 있는 조직, Gartner, 2024년 4월 29일.
진화하는 ABI 솔루션 환경에 대한 고유한 인사이트를 제공하고 데이터 및 분석 리더를 위한 주요 결과, 가정 및 권장 사항을 강조합니다.
데이터 접근을 간소화하고 데이터 거버넌스를 자동화하세요. 어디서나 모든 데이터를 사용하여 워크로드 비용 최적화, AI 및 분석 확장을 포함하여 데이터 레이크하우스 전략을 데이터 아키텍처에 통합하는 방법을 알아보세요.
데이터 리더가 데이터 기반 조직을 구축하고 비즈니스 우위를 확보하는 방법을 살펴보세요.
오픈 데이터 레이크하우스 접근 방식을 통해 신뢰할 수 있는 데이터를 제공하고 분석 및 AI 프로젝트를 더 빠르게 실행하는 방법을 알아보세요.
다음 4가지 주요 단계를 통해 데이터 및 분석 전략을 비즈니스 목표에 연결하세요.
비즈니스 인텔리전스 문제가 지속되는 이유와 이러한 문제가 조직 전체 사용자에게 어떤 의미가 있는지 자세히 알아보세요.
기업이 성공하려면 데이터를 활용하여 고객 충성도를 높이고 비즈니스 프로세스를 자동화하며 AI 기반 솔루션으로 혁신을 이루어야 합니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.
더 나은 의사 결정을 위한 AI 기반 인사이트인 Cognos Analytics 12.0을 소개합니다.