데이터 세트란 무엇인가요?

작성자

Staff Writer

IBM Think

Staff Editor

IBM Think

데이터 세트란 무엇인가요?

데이터 세트는 일반적으로 표, 배열 또는 CSV, JSON과 같은 특정 형식으로 구성된 데이터의 집합으로, 손쉽게 검색하고 분석할 수 있도록 정리되어 있습니다. 데이터 세트는 데이터 분석, 머신 러닝(ML), 인공지능(AI) 및 신뢰할 수 있고 접근 가능한 데이터가 필요한 기타 애플리케이션에 필수적입니다.

오늘날 조직은 고객 상호 작용, 금융 거래, IoT 디바이스, 소셜 미디어 플랫폼 등 다양한 소스에서 대량의 데이터를 수집합니다.

이 모든 데이터의 비즈니스 가치를 실현하려면 데이터를 분석 및 적용을 위해 정보에 액세스할 수 있는 체계적인 컬렉션인 데이터 세트로 구성해야 하는 경우가 많습니다.

다양한 유형의 데이터 세트는 다양한 방식으로 데이터를 저장합니다. 예를 들어, 구조화된 데이터 세트는 정의된 행과 열이 있는 테이블에 데이터 요소를 배열하는 경우가 많습니다. 비정형 데이터 세트에는 텍스트 파일, 이미지 및 오디오와 같은 다양한 형식이 포함될 수 있습니다.

모든 데이터 세트가 정형 데이터를 포함하는 것은 아니지만 정의된 스키마든 JSON이나 XML과 같은 반정형 데이터 형식의 느슨하게 구성된 구문이든 관계없이 항상 일반적인 구조를 가지고 있습니다.

데이터 세트의 예는 다음과 같습니다.

고객 서비스 데이터 세트 추적은 상호 작용 및 해결을 지원합니다.
장비 성능 메트릭을 모니터링하는 제조 데이터 세트입니다.
거래 패턴과 소비자 행동을 분석하는 판매 데이터 세트입니다.
캠페인 효과와 참여도를 측정하는 마케팅 데이터 세트입니다.

조직은 데이터 분석 및 비즈니스 인텔리전스(BI)를 포함한 다양한 비즈니스 이니셔티브를 지원하기 위해 여러 데이터 세트를 사용하고 유지 관리하는 경우가 많습니다.

특히 빅데이터는 가치를 제공하기 위해 방대하고 복잡한 데이터 세트를 활용합니다. 빅데이터 분석을 사용하여 적절하게 수집, 관리 및 분석하면 이러한 데이터 세트를 통해 새로운 인사이트를 발견하고 데이터 기반 의사 결정을 내릴 수 있습니다.

최근 몇 년 동안 인공 지능(AI)과 머신 러닝의 등장으로 데이터 세트에 대한 관심이 더욱 높아졌습니다. 조직은 정확한 머신 러닝 모델을 개발하고 예측 알고리즘을 개선하기 위해 광범위하고 잘 정리된 학습 데이터가 필요합니다.

Gartner에 따르면, 조직의 61%가 AI 기술의 영향으로 인해 데이터 및 분석 운영 모델을 발전시키거나 재고해야 한다고 답했습니다.¹

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

데이터 세트의 정의와 데이터 세트가 아닌 것

'데이터 세트'라는 용어는 종종 광범위하게 사용되지만 데이터 모음이 데이터 세트를 구성하는지 여부는 특정 특성에 따라 결정됩니다. 일반적으로 데이터 세트에는 변수, 스키마, 메타데이터라는 세 가지 기본 특성이 있습니다.

변수는 데이터 세트 내에서 연구되는 특정 속성이나 특성을 나타냅니다. 예를 들어 판매 데이터 세트에서 변수는 제품 ID, 가격 및 구매 날짜를 포함할 수 있습니다. 변수는 종종 머신 러닝 알고리즘과 통계 분석의 입력으로 사용됩니다.

스키마는 변수 간의 관계와 구문을 포함하여 데이터 세트의 구조를 정의합니다. 예를 들어 표 형식 데이터 세트의 스키마는 "날짜", "금액", "카테고리"와 같은 데이터 세트의 형식과 열 머리글을 간략하게 설명할 수 있습니다. JSON 스키마는 "이름," " 이메일", "주문 내역" 개체 배열과 같은 속성을 가진 고객 프로필과 같은 중첩된 데이터 구조를 설명할 수 있습니다.

데이터에 대한 메타데이터 또는 데이터는 출처, 목적 및 사용 가이드라인에 대한 세부 정보를 포함하여 데이터 세트에 대한 필수 컨텍스트를 제공합니다. 이 정보는 데이터 세트가 해석 가능한 상태로 유지되고 다른 시스템과 효과적으로 통합되도록 하는 데 도움이 됩니다.

모든 데이터 컬렉션이 데이터 세트에 해당하는 것은 아닙니다. 관련 없는 데이터 포인트의 무작위 누적은 일반적으로 의미 있는 분석을 가능하게 하는 적절한 조직과 구조가 없으면 데이터 세트를 구성할 수 없습니다.

마찬가지로 애플리케이션 프로그래밍 인터페이스(API), 데이터베이스 및 스프레드시트는 데이터 세트와 상호 작용하거나 데이터 세트를 포함할 수 있지만 반드시 데이터 세트 자체인 것은 아닙니다.

API를 사용하면 애플리케이션이 서로 통신할 수 있으며, 여기에는 데이터 세트에 액세스하고 교환하는 작업이 포함되기도 합니다. 데이터베이스와 스프레드시트는 데이터 세트를 포함할 수 있는 정보를 담는 컨테이너입니다.

데이터 세트 유형

조직은 일반적으로 처리하는 데이터 유형에 따라 분류되는 3가지 주요 유형의 데이터 세트로 작업합니다.

정형 데이터 세트
비정형 데이터 세트
반정형 데이터 세트

조직은 포괄적인 데이터 분석 전략을 지원하기 위해 여러 유형의 데이터 세트를 조합하여 사용하는 경우가 많습니다. 예를 들어, 소매업은 정형 판매 데이터를 비정형 고객 후기 및 반정형 웹 분석과 함께 분석하여 고객 행동 및 선호도에 대한 더 나은 인사이트를 얻을 수 있습니다.

정형 데이터 세트

구정형 데이터 세트는 미리 정의된 형식으로, 일반적으로 명확하게 정의된 행과 열이 있는 테이블로 정보를 구성합니다. 이러한 데이터 세트는 고객 관계 관리(CRM)와 재고 관리 등의 여러 중요한 비즈니스 프로세스의 기반이 됩니다.

정형 데이터 세트는 일관된 스키마를 따르기 때문에 빠른 쿼리와 신뢰할 수 있는 분석이 가능합니다. 따라서 정확하고 정량화 가능한 데이터가 필요한 비즈니스 인텔리전스 툴과 보고 시스템에 적합합니다.

정형 데이터 세트의 일반적인 예는 다음과 같습니다.

날짜, 금액, 카테고리에 대한 정의된 필드가 있는 Excel 스프레드시트로 정리된 재무 기록입니다.
연락처 정보 및 구매 내역에 대해 표준화된 형식의 고객 데이터베이스입니다.
제품 수량, 위치 및 이동을 추적하는 재고 시스템입니다.
장비 모니터링과 예측 유지 관리를 위한 균일한 메트릭스를 제공하는 센서 데이터 스트림입니다.

비정형 데이터 세트

비정형 데이터 세트에는 기존 데이터 모델이나 경직된 스키마를 준수하지 않는 정보가 포함되어 있습니다. 이러한 데이터 세트에는 보다 정교한 처리 툴이 필요하지만 정형 데이터 형식으로는 캡처할 수 없는 풍부한 인사이트가 포함되어 있는 경우가 많습니다.

조직은 비정형 데이터 세트를 사용하여 인공 지능 및 기계 학습 모델을 Power합니다. 이러한 데이터 세트는 AI 모델을 훈련하고 보다 고급 분석 기능을 개발하는 데 필요한 다양한 실제 데이터를 제공합니다.

비정형 데이터 세트의 일반적인 예는 다음과 같습니다.

이메일, 보고서 및 웹 페이지와 같은 텍스트 문서입니다.
머신 러닝 모델을 훈련하는 데 사용되는 이미지와 동영상입니다.
실제 애플리케이션의 오디오 녹음본입니다.
채팅 기록 및 고객 서비스 기록입니다.

반정형 데이터 세트

반정형 데이터 세트는 정형 데이터와 비정형 데이터 간의 격차를 해소합니다. 엄격한 스키마를 따르지는 않지만, 정의된 구문이나 마커를 통합하여 유연하면서도 구문 분석 가능한 형식으로 정보를 구성할 수 있습니다.

이러한 하이브리드 접근 방식은 다양한 데이터 유형을 처리하면서도 어느 정도 조직적 구조를 유지해야 하는 현대적 데이터 통합 프로젝트와 애플리케이션에 반정형 데이터 세트를 유용하게 만들어줍니다.

반정형 데이터 세트의 일반적인 예는 다음과 같습니다.

웹 애플리케이션 및 API에 사용되는 JSON, HTML 및 XML 파일입니다.
형식이 지정된 필드와 자유 형식 텍스트가 모두 포함된 로그 파일입니다.
광범위한 접근성을 위해 여러 데이터 형식을 결합한 공개 데이터 세트입니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

데이터 세트의 출처

조직은 다양한 소스에서 데이터를 수집하여 다양한 비즈니스 이니셔티브를 지원하는 데이터 세트를 구축합니다. 데이터 소스는 데이터 세트의 품질과 유용성을 직접적으로 결정할 수 있습니다.

몇 가지 일반적인 데이터 소스는 다음과 같습니다.

데이터 저장소
데이터베이스
애플리케이션 프로그래밍 인터페이스(API)
공공 데이터 플랫폼

데이터 저장소

데이터 저장소는 중앙 집중식 데이터 저장소입니다. 독점 데이터 저장소에는 경쟁 우위를 제공하는 고객 기록, 금융 거래 또는 운영 메트릭과 같은 민감하거나 비즈니스 크리티컬 데이터가 보관되는 경우가 많습니다.

다른 데이터 저장소는 공개적으로 사용할 수 있습니다. 예를 들어 GitHub와 같은 플랫폼은 코드와 함께 오픈 소스 데이터 세트를 호스팅합니다. 연구자와 조직은 이러한 공공 데이터 세트를 사용하여 머신 러닝 모델과 데이터 과학 프로젝트에 공개적으로 협업할 수 있습니다.

데이터베이스

데이터베이스는 필요에 따라 데이터를 안전하게 저장하고 쉽게 검색할 수 있도록 최적화된 디지털 데이터 저장소입니다.

데이터베이스에는 단일 데이터 세트 또는 여러 데이터 세트가 포함될 수 있습니다. 사용자는 구조화된 쿼리 언어(SQL)와 같은 특수 언어를 사용하는 데이터베이스 쿼리를 실행하여 관련 데이터 포인트를 빠르게 추출할 수 있습니다.

애플리케이션 프로그래밍 인터페이스(API)

API는 소프트웨어 애플리케이션을 연결하여 통신할 수 있도록 합니다. 데이터 소비자는 API를 사용하여 웹 서비스 및 디지털 플랫폼과 같은 연결된 소스에서 실시간으로 데이터를 캡처하고 다른 앱 및 리포지토리로 전달하여 사용할 수 있습니다.

데이터 과학자는 API 통합 및 데이터 처리를 위한 강력한 라이브러리를 제공하는 Python과 같은 언어를 사용하여 자동화된 데이터 수집 파이프라인을 구축하는 경우가 많습니다. 예를 들어, 소매 분석 시스템은 이러한 자동화된 파이프라인을 사용하여 전자 상거래 매장과 재고 관리 시스템에서 고객 구매 데이터와 재고 수준을 지속적으로 수집할 수 있습니다.

공공 데이터 플랫폼

Data.gov와 같은 사이트 및 New York City Open Data와 같은 시 수준의 오픈 데이터 이니셔티브는 의료, 교통 및 환경 메트릭이 포함된 데이터 세트에 대한 무료 액세스를 제공합니다. 연구자들은 이러한 데이터 세트를 사용하여 교통 패턴부터 공공 상황 동향에 이르기까지 모든 것을 연구할 수 있습니다.

데이터 세트 활용 사례

인공 지능 강화부터 데이터 기반 인사이트 구현에 이르기까지 데이터 세트는 여러 주요 비즈니스 및 기술 이니셔티브의 기반이 됩니다.

데이터 세트의 가장 일반적인 응용 분야는 다음과 같습니다.

인공 지능(AI) 및 머신 러닝(ML)
데이터 분석 및 인사이트
비즈니스 인텔리전스(BI)

인공 지능(AI) 및 머신 러닝(ML)

인공 지능(AI)은 많은 조직에서 중요한 차별화 요소가 될 수 있습니다.

IBM 기업가치연구소(IBV)에 따르면, 최고 실적을 내는 CEO의 72%는 자사의 경쟁 우위가 가장 진보된 생성형 AI(gen AI)를 보유하는 데 달려 있다고 믿고 있습니다. 이러한 최첨단 AI 시스템은 모델을 효과적으로 학습시키기 위해 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 포함한 방대한 데이터 세트에 의존합니다.

조직은 포괄적인 훈련 데이터를 통해 다음과 같은 복잡한 작업을 수행하는 AI 시스템을 개발할 수 있습니다.

자연어 처리(NLP): NLP 모델은 영어 및 다국어 데이터 세트를 사용하여 인간의 언어를 파악하고 대규모 언어 모델(LLM), 챗봇, 번역 서비스 및 텍스트 분석 툴과 같은 애플리케이션을 강화합니다. 예를 들어, 고객 서비스 챗봇은 NLP를 사용하여 과거 지원 대화의 데이터 세트를 분석하여 일반적인 질문에 응답하는 방법을 배울 수 있습니다.

컴퓨팅 비전: AI는 레이블이 지정된 이미지 데이터 세트를 사용하여 물체, 얼굴, 시각적 패턴을 인식하는 법을 학습할 수 있습니다. 컴퓨팅 비전은 자율 주행 차량, 의료 영상 분석 등의 혁신을 주도하는 데 도움이 됩니다. 예를 들어, 의료 분야의 AI 시스템은 의료 스캔 데이터 세트를 분석하여 질병의 조기 징후를 높은 정확도로 감지할 수 있습니다.

예측 분석: 예측 분석은 정형 데이터 세트를 사용하여 주택 가격 및 소비자 수요와 같은 실제 결과를 예측하는 모델을 학습시킵니다. 이러한 회귀 모델은 과거 데이터 패턴을 분석하여 수년간의 판매 데이터를 분석하여 계절적 수요를 예측하고 재고 수준을 최적화하는 등 정확한 예측을 수행합니다.

연구: AI 시스템은 방대한 연구 데이터 세트를 처리하여 새로운 인사이트를 발견하고 혁신을 가속화할 수 있습니다. 예를 들어, 제약 회사는 AI를 사용하여 분자 데이터 세트를 분석하고 기존 방법보다 더 빠르게 유망한 신약 후보를 식별할 수 있습니다.

데이터 분석 및 분석 정보

데이터 과학자와 분석가는 데이터 세트를 사용하여 귀중한 인사이트를 추출하고 여러 분야에 걸쳐 발견을 촉진합니다. 조직이 그 어느 때보다 더 많은 데이터를 수집함에 따라 데이터 분석은 가설을 테스트하고, 추세를 식별하고, 전략적 의사 결정에 영향을 미치는 관계를 파악하는 데 매우 중요해졌습니다.

데이터 세트가 데이터 분석을 지원하는 몇 가지 일반적인 방법은 다음과 같습니다.

패턴 인식: 대규모 데이터 세트에 대한 고급 분석을 통해 조직이 기회를 파악하고 위험을 완화하는 데 사용할 수 있는 숨겨진 추세, 상관 관계 및 이상 징후를 파악할 수 있습니다. 예를 들어, 소매 업체는 거래 데이터를 분석하여 연휴 기간 동안의 구매 추세를 파악할 수 있습니다.

데이터 시각화: 시각화 툴은 차트, 그래프 및 대시보드를 사용하여 데이터에 더 쉽게 접근할 수 있도록 함으로써 복잡한 데이터 세트를 명확하고 실행 가능한 인사이트로 변환합니다. 예를 들어, 기업은 대화형 대시보드를 사용하여 매출 및 매출 추세를 표시함으로써 경영진이 성능 메트릭을 신속하게 파악하고 정보에 입각한 의사 결정을 내릴 수 있도록 지원할 수 있습니다.

통계 분석: 데이터 과학자는 엄격한 통계적 방법을 사용하여 원시 데이터 세트를 정량화 가능한 인사이트로 변환하여 중요도를 측정하고 결과를 검증할 수 있습니다. 예를 들어, 재무 분석가는 시장 성능을 평가하기 위해 데이터 세트에서 주요 메트릭을 계산할 수 있습니다.

가설 테스트: 데이터 과학자는 실험 데이터 세트를 사용하여 이론을 검증하고 잠재적인 솔루션을 평가하여 비즈니스 및 연구 결정을 위한 증거 기반 지원을 제공할 수 있습니다. 예를 들어, 제약 회사는 임상 시험 데이터 세트를 분석하여 신약의 효능을 결정할 수 있습니다.

비즈니스 인텔리전스(BI)

조직은 비즈니스 인텔리전스(BI)를 사용하여 데이터 세트에서 인사이트를 발견하고 실시간 의사 결정을 내립니다.

BI 도구는 다양한 유형의 데이터를 분석하여 추세를 파악하고 성능을 모니터링하며 새로운 기회를 발견하는 데 도움이 될 수 있습니다. 일부 응용 분야에는 다음이 포함됩니다.

실시간 모니터링: 조직은 메트릭 데이터 세트와 핵심 성과 지표(KPI)를 통해 운영 효율성과 시스템 성능을 지속적으로 파악할 수 있습니다. 예를 들어, 물류 회사는 휴가철 성수기 동안 실시간 모니터링을 통해 배송 시간을 추적하고 지연을 신속하게 해결합니다.

고객 행동 분석: 거래 및 참여 데이터 세트는 구매 패턴과 고객 선호도를 파악하는 데 도움이 될 수 있습니다. 그런 다음 조직은 이러한 인사이트를 활용하여 타깃 마케팅 전략을 개발하고 여러 접점에서 고객 경험을 개선할 수 있습니다.

시계열 분석: 조직은 순차적 및 과거 데이터 세트를 통해 시간 경과에 따른 성능 추세와 패턴을 더 잘 추적할 수 있습니다. 예를 들어, 에너지 공급업체는 시계열 데이터를 분석하여 최대 전력 수요를 예측하고 대비함으로써 전력망의 안정성과 고객 서비스를 개선합니다.

공급망 최적화: 통합된 데이터 세트를 통해 조직은 물류 및 공급업체 관리를 간소화할 수 있습니다. 예를 들어, 소매업체는 재고 수준, 배송 데이터 및 공급업체 성능 메트릭을 분석하여 재고 보충 일정을 최적화하고 운송 비용을 절감할 수 있습니다.

데이터 세트 고려 사항

모든 이니셔티브에서 크고 복잡한 데이터 세트를 처리하는 데는 몇 가지 도전 과제와 고려 사항이 발생할 수 있습니다. 가장 대표적인 것은 다음과 같습니다.

데이터 품질: 데이터 품질의 데이터 무결성과 품질을 유지하는 것이 중요합니다. 그렇지 않으면 불완전하거나 부정확한 데이터로 인해 잘못된 결과가 발생할 수 있습니다. 예를 들어, 열 간에 형식이 일치하지 않는 새로운 데이터 세트는 워크플로를 방해하고 분석을 왜곡할 수 있습니다. 형식 표준화 및 중복 제거와 같은 유효성 검사 기술은 데이터 세트가 확장됨에 따라 정확성과 일관성을 보장하는 데 도움이 될 수 있습니다.

상호 운용성 및 데이터 통합: 다양한 소스 또는 형식의 데이터 세트를 통합하면 CSV 파일을 JSON 데이터와 병합하는 등의 문제가 발생할 수 있습니다. 통합 스키마를 만들거나 데이터 형식을 표준화하면 이러한 문제를 해결하고 데이터 구조를 조정하여 시스템 호환성을 보장하는 데 도움이 될 수 있습니다.

윤리 및 편견: 개인 식별 정보(PII) 또는 편향된 데이터가 포함된 데이터 세트는 윤리 및 개인정보 보호 문제를 야기합니다. 예를 들어, 편향된 데이터 세트를 사용하여 훈련된 AI 모델은 불공정한 채용 관행 등 차별적인 결과를 초래할 수 있습니다. 학습 데이터에 편향이 있는지 평가하고 데이터 익명화와 같은 개인정보 보호 조치를 구현하면 잠재적인 문제를 완화하는 데 도움이 될 수 있습니다.

데이터 세트 관리: 데이터 양이 증가하고 사용 사례가 확대되면서 데이터 세트 관리가 점점 더 복잡해지고 있습니다. 데이터 세트 생성, 유지 관리 및 거버넌스를 위한 강력한 프로세스에 우선순위를 지정하면 일반 데이터 보호 규정(GDPR) 및 California Consumer Privacy Act(CCPA)와 같은 데이터 개인정보 보호법 및 규정을 준수하면서 데이터 품질과 접근성을 보장하는 데 도움이 될 수 있습니다.