데이터 마이닝이란 무엇인가요?

데이터 마이닝이란 무엇인가요?

데이터 마이닝은 머신 러닝과 통계 분석을 사용하여 대규모 데이터 세트에서 패턴 및 기타 중요한 정보를 찾아내는 것입니다.

머신 러닝(ML), 데이터 웨어하우징, 빅데이터의 성장으로 인해 지난 수십 년 동안 데이터베이스에서의 지식 검색(KDD)이라고도 알려진 데이터 마이닝의 도입이 급속도로 가속화되었습니다. 하지만 이 기술이 대규모 데이터를 처리할 수 있도록 끊임없이 발전하고는 있지만 리더들은 여전히 확장성과 자동화 측면에서 어려움을 겪고 있습니다.

데이터 분석을 뒷받침하는 데이터 마이닝 기술은 두 가지 주요 목적으로 배포될 수 있습니다. 목표 데이터 세트를 설명하거나 머신 러닝 알고리즘을 사용하여 결과를 예측할 수 있습니다.

이러한 방법은 데이터를 구성하고 필터링하는 데 사용되며, 사기부터 사용자 행동, 병목 현상, 보안 침해에 이르기까지 가장 유용한 정보를 제공합니다. ML 알고리즘과 인공 지능(AI)을 사용하면 분석을 자동화하여 프로세스 속도를 크게 높일 수 있습니다.

Apache Spark와 같은 데이터 분석 및 시각화 도구와 함께 사용하면 데이터 마이닝 소프트웨어가 더욱 간단해지고 관련 인사이트를 그 어느 때보다 빠르게 얻을 수 있습니다. AI의 발전으로 산업 전반에 걸쳐 채택이 계속 가속화되고 있습니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

이점 및 과제

이점

숨겨진 인사이트와 트렌드 발견: 데이터 마이닝은 원시 데이터를 가져와 혼란 속에서 질서를 찾아내는 작업으로, 나무를 보기 위해 숲을 보는 것과 같습니다. 이를 통해 광고, 재무, 정부, 의료, 인적 자원(HR), 제조, 마케팅, 연구, 영업 및 공급망 관리(SCM)를 포함한 기업 기능 및 산업 전반에 걸쳐 더 나은 정보에 입각한 계획을 수립할 수 있습니다.

예산 절감: 여러 소스의 성능 데이터를 분석함으로써 비즈니스 프로세스의 병목 현상을 식별하여 문제 해결 속도를 높이고 효율성을 높일 수 있습니다.

여러 문제 해결: 데이터 마이닝은 다재다능한 툴입니다. 거의 모든 소스와 조직의 모든 측면의 데이터를 분석하여 패턴을 발견하고 비즈니스를 위한 더 나은 운영 방법을 찾을 수 있습니다. 데이터를 수집하고 분석하는 조직의 거의 모든 부서가 데이터 마이닝의 이점을 누릴 수 있습니다.

과제

복잡성과 위험: 유용한 인사이트를 얻으려면 유효한 데이터와 코딩 경험이 있는 전문가가 필요합니다. Python, R, SQL 등 데이터 마이닝 언어에 대한 지식이 있으면 도움이 됩니다. 데이터 마이닝에 대한 신중하지 못한 접근 방식은 오해의 소지가 있거나 위험한 결과를 초래할 수 있습니다. 데이터 마이닝에 사용되는 일부 소비자 데이터는 개인 식별 정보(PII)일 수 있으며 법적 또는 홍보 문제를 방지하기 위해 신중하게 처리해야 합니다.

비용: 최상의 결과를 얻으려면 광범위하고 심층적인 데이터 세트 수집이 필요한 경우가 많습니다. 조직에서 새로운 정보를 수집해야 하는 경우, 데이터 파이프라인을 설정하는 것은 새로운 비용이 발생할 수 있습니다. 데이터를 외부 소스에서 구매해야 하는 경우에도 비용이 발생합니다.

불확실성: 첫째, 주요 데이터 마이닝 작업이 잘 실행되었지만 큰 이점이 없는 불명확한 결과를 가져올 수 있습니다. 또는 잘못된 데이터를 선택했거나 사전 처리가 잘못되어 부정확한 데이터가 잘못된 인사이트로 이어질 수도 있습니다. 다른 위험으로는 모델링 오류 또는 빠르게 변화하는 시장으로 인한 오래된 데이터가 있습니다.

또 다른 잠재적인 문제는 결과가 유효해 보이지만 실제로는 무작위적이어서 신뢰할 수 없다는 것입니다. '상관관계는 인과관계가 아니다'라는 점을 기억하는 것이 중요합니다. 최근 블로거 Tyler Vigen은 명백한 상관관계를 보고 그 중요성을 과장하는 '데이터 준설'의 유명한 예를 제시했습니다. "Amazon.com의 주가는 2002년부터 2022년까지 'Stevie'라는 이름을 가진 아이들의 수와 거의 일치합니다."1 그러나 물론 'Stevie'라는 이름이 주가에 영향을 미치거나 그 반대로 주가가 이 이름에 영향을 미친 것은 아니었습니다. 데이터 마이닝 애플리케이션은 패턴을 찾아내지만, 여전히 사람의 판단이 중요합니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

데이터 마이닝과 텍스트 마이닝, 프로세스 마이닝 비교

데이터 마이닝은 빅데이터 세트에서 패턴을 식별하고 유용한 인사이트를 추출하는 전반적인 프로세스입니다. 이는 새로운 정보를 식별하기 위해 정형 및 비정형 데이터를 모두 평가하는 데 사용할 수 있으며 일반적으로 마케팅 및 영업 팀의 소비자 행동을 분석하는 데 사용됩니다. 예를 들어 데이터 마이닝 방법을 사용하여 고객 이탈, 사기 탐지, 장바구니 분석 등을 포함한 행동을 관찰하고 예측할 수 있습니다.

텍스트 데이터 마이닝이라고도 하는 텍스트 마이닝은 데이터 마이닝의 하위 분야로, 비정형 텍스트를 정형화된 형식으로 변환하여 의미 있는 패턴을 식별하고 새로운 인사이트를 생성하기 위한 것입니다. 비정형 데이터에는 소셜 미디어 게시물, 제품 리뷰, 기사, 이메일 또는 비디오 및 오디오 파일과 같은 리치 미디어 형식 등의 소스에서 가져온 텍스트가 포함될 수 있습니다. 전 세계에서 공개적으로 사용 가능한 데이터의 대부분은 비정형 데이터이므로 텍스트 마이닝은 가치 있는 작업입니다.

프로세스 마이닝은 비즈니스 프로세스 관리(BPM)와 데이터 마이닝의 교차점에 위치합니다. 프로세스 마이닝은 이벤트 로그 데이터에 알고리즘을 적용하여 프로세스 전개 방식의 추세, 패턴 및 세부 정보를 식별하는 방법을 제공합니다. 프로세스 마이닝은 데이터 과학을 적용하여 병목 현상을 발견한 다음 워크플로를 검증하고 개선합니다.

BPM은 일반적으로 워크숍과 인터뷰를 통해 비공식적으로 데이터를 수집한 다음 소프트웨어를 사용하여 해당 워크플로를 프로세스 맵으로 문서화합니다. 이러한 프로세스 맵을 알려주는 데이터는 일반적으로 정성적이기 때문에 프로세스 마이닝은 이벤트 데이터를 통해 실제 프로세스를 자세히 설명하면서 프로세스 문제에 대한 보다 정량적인 접근 방식을 제공합니다.

전사적 자원 관리(ERP) 또는 고객 관계 관리(CRM) 툴과 같은 정보 시스템은 로그 데이터에서 프로세스에 대한 감사 추적을 제공합니다. 프로세스 마이닝은 IT 시스템의 이 데이터를 사용하여 프로세스 모델 또는 프로세스 그래프를 조합합니다. 여기에서 조직은 세부 정보와 변경 사항의 요약과 함께 엔드 투 엔드 프로세스를 검사할 수 있습니다.

데이터 마이닝의 작동 방식

데이터 마이닝 프로세스에는 데이터 수집부터 시각화까지 여러 단계를 거쳐 대규모 데이터 세트에서 가치 있는 정보를 추출하는 과정이 포함됩니다. 데이터 마이닝 기술을 사용하여 대상 데이터 세트에 대한 설명과 예측을 생성할 수 있습니다.

데이터 과학자 또는 비즈니스 인텔리전스 (BI) 전문가는 패턴, 연관성 및 상관 관계를 관찰하여 데이터를 설명합니다. 또한 분류 및 회귀 방법을 통해 데이터를 분류 및 클러스터링하고 스팸 탐지와 같은 사용 사례를 위한 이상값을 식별합니다.

데이터 마이닝은 일반적으로 목표 설정, 데이터 선택, 데이터 준비, 데이터 모델 구축, 패턴 마이닝 및 결과 평가의 5가지 주요 단계로 구성됩니다.

1. 비즈니스 목표 설정: 이는 데이터 마이닝 프로세스에서 가장 어려운 부분일 수 있으며 많은 조직에서 이 중요한 단계에 너무 적은 시간을 할애합니다. 데이터를 식별, 추출 또는 정리하기 전에도 데이터 과학자와 비즈니스 이해관계자는 협력하여 정확한 비즈니스 문제를 정의할 수 있으며, 이는 프로젝트에 대한 데이터 질문과 매개변수를 결정하는 데 도움이 됩니다. 분석가는 비즈니스 상황을 완전히 이해하기 위해 더 많은 조사를 해야 할 수도 있습니다.

2. 데이터 선택: 문제의 범위가 정의되면 데이터 과학자가 비즈니스에 중요한 질문에 답하는 데 도움이 되는 데이터 세트를 더 쉽게 식별할 수 있습니다. 또한 이들과 IT 팀은 데이터를 저장하고 보호해야 할 위치를 결정할 수 있습니다.

3. 데이터 준비: 관련 데이터를 수집하고 정리하여 중복, 누락된 값, 이상값과 같은 노이즈를 제거합니다. 기능이 너무 많으면 후속 계산 속도가 느려질 수 있으므로 데이터 세트에 따라 차원 수를 줄이기 위해 추가 데이터 관리 단계를 수행할 수 있습니다.

데이터 과학자는 모든 모델에서 최적의 정확도를 보장하는 데 도움이 되는 가장 중요한 예측 변수를 유지하려고 합니다. 책임감 있는 데이터 과학은 코드와 성능을 넘어 모델에 대해 생각하는 것을 의미하며, 이는 사용되는 데이터와 데이터의 신뢰도에 따라 큰 영향을 받습니다.

4. 모델 구축 및 패턴 마이닝: 분석 유형에 따라 데이터 과학자는 순차적 패턴, 연관 규칙 또는 상관 관계와 같은 트렌드나 흥미로운 데이터 관계를 조사할 수 있습니다. 고주파 패턴은 적용 범위가 넓지만, 때로는 데이터의 편차가 더 흥미로워 잠재적인 사기 영역을 강조할 수 있습니다. 예측 모델은 미래의 추세나 결과를 평가하는 데 도움이 될 수 있습니다. 가장 정교한 시스템에서는 예측 모델을 통해 실시간으로 예측하여 변화하는 시장에 신속하게 대응할 수 있습니다.

딥 러닝 알고리즘을 사용하여 사용 가능한 데이터에 따라 데이터 세트를 분류하거나 클러스터링할 수도 있습니다. 입력 데이터에 라벨이 지정된 경우(예: 지도 학습), 분류 모델을 사용하여 데이터를 분류하거나 회귀를 적용하여 특정 과제의 가능성을 예측할 수 있습니다. 데이터 세트에 라벨이 지정되지 않은 경우(즉, 비지도 학습), 학습 세트의 개별 데이터 포인트를 비교하여 기본 유사성을 발견하고 이러한 특성을 기반으로 클러스터링합니다.

5. 결과 평가 및 지식 구현: 데이터가 집계되면 데이터 시각화 기법을 사용하여 결과를 평가하고 해석할 수 있도록 프레젠테이션을 준비할 수 있습니다. 이상적으로는 최종 결과가 유효하고 참신하며 유용하고 이해할 수 있어야 합니다. 이러한 기준이 충족되면 의사결정권자는 이 지식을 활용하여 새로운 전략을 구현하고 의도한 목표를 달성할 수 있습니다.

데이터 마이닝 기술

다음은 가장 인기 있는 데이터 마이닝의 몇 가지 유형입니다.

연관 규칙: 연관 규칙은 데이터 세트에서 변수 간의 관계를 찾기 위한 if/then, 규칙 기반 방법입니다. 관계의 강점은 지원과 신뢰로 측정됩니다. 신뢰 수준은 if 또는 then 문이 얼마나 자주 참인지에 따라 결정됩니다. 지원 척도는 관련 요소가 데이터에 얼마나 자주 표시되는지를 나타냅니다.

이러한 방법은 장바구니 분석에 자주 사용되며, 기업은 함께 자주 구매하는 제품과 같은 다양한 제품 간의 관계를 더 잘 이해할 수 있습니다. 고객의 습관을 이해하면 기업은 더 나은 교차 판매 전략과 추천 엔진을 개발할 수 있습니다.

분류: 조직의 필요에 따라 객체의 클래스가 미리 정의되고 객체가 공통적으로 가지고 있는 특성이 정의됩니다. 이렇게 하면 기초 데이터를 그룹화하여 더 쉽게 분석할 수 있습니다.

예를 들어, 소비재 회사는 판매 데이터, 재고 통계 및 현재 보유하고 있는 모든 소비자 데이터와 함께 과거 쿠폰 사용 내역을 통해 쿠폰 전략을 검토하여 향후 최적의 캠페인 전략을 찾을 수 있습니다.

클러스터링: 분류와 밀접한 관련이 있는 클러스터링은 유사성을 보고하기도 하지만, 차이점을 기반으로 더 많은 그룹화를 제공합니다. 비누 제조업체의 사전 설정 분류에는 세제, 표백제, 세탁 유연제, 바닥 세정제 및 바닥 왁스가 포함될 수 있으며, 클러스터링을 통해 세탁 제품 및 바닥 관리 제품 등의 그룹을 만들 수 있습니다.

의사결정트리: 이 데이터 마이닝 기법은 분류 또는 회귀 분석을 사용하여 일련의 의사 결정에 따라 잠재적인 결과를 분류하거나 예측합니다. 의사결정트리는 이름에서 알 수 있듯이 나무 모양의 시각화를 사용하여 이러한 결정의 잠재적 결과를 나타냅니다.

K-최근접 이웃(KNN): KNN 알고리즘이라고도 하는 K-최근접 이웃은 사용 가능한 다른 데이터와의 근접성 및 연결을 기반으로 데이터 요소를 분류하는 비모수적 알고리즘입니다. 이 알고리즘은 유사한 데이터 포인트가 서로 가까이 있다고 가정합니다. 그 결과, 일반적으로 유클리드 거리를 통해 데이터 포인트 간의 거리를 계산한 다음 가장 빈번한 카테고리 또는 평균을 기준으로 카테고리를 할당합니다.

신경망: 주로 딥 러닝 알고리즘에 사용되는 신경망은 노드 계층을 통해 인간 두뇌의 상호 연결성을 모방하여 학습 데이터를 처리합니다. 각 노드는 입력, 가중치, 편향(임곗값) 및 출력으로 구성됩니다.

해당 출력값이 임곗값을 초과하면 노드를 '실행'하거나 활성화하여 데이터를 네트워크의 다음 계층으로 전달합니다. 신경망은 지도 학습을 통해 이 매핑 함수를 학습하고, 경사하강법(gradient descent) 과정을 통해 손실 함수를 기반으로 조정합니다. 비용 함수가 0에 가깝거나 0에 가까울 때 조직은 모델의 정확도가 정답을 산출한다고 확신할 수 있습니다.

예측 분석: 데이터 마이닝을 통계적 모델링 기술 및 머신 러닝과 결합하면 예측 분석을 사용함으로써 과거 데이터를 분석하여 패턴을 식별하고 미래의 이벤트와 결과를 예측하며 위험과 기회를 식별하는 그래픽 또는 수학적 모델을 만들 수 있습니다.

회귀 분석: 이 기술은 미리 정해진 변수에 따라 결과를 예측하여 데이터 내의 관계를 찾아냅니다. 여기에는 Decision Trees와 다변량 및 선형 회귀가 포함될 수 있습니다. 관계의 근접성을 기준으로 결과의 우선순위를 정하면 어떤 데이터가 가장 중요하거나 덜 중요한지 판단하는 데 도움이 됩니다. 청량음료 제조업체가 무더운 여름 날씨가 예상되기 전에 필요한 음료 재고를 예측하는 것을 예로 들 수 있습니다.

데이터 마이닝 사용 사례

데이터 마이닝 기술은 비즈니스 인텔리전스 및 데이터 분석 팀에서 널리 채택되어 조직과 업계에 필요한 지식을 추출하는 데 도움이 됩니다. 일부 데이터 마이닝 사용 사례는 다음과 같습니다.

이상 징후 탐지

데이터에서 자주 발생하는 패턴은 팀에 귀중한 인사이트를 제공할 수 있지만, 데이터 이상 징후를 관찰하는 것도 사기 탐지, 네트워크 침입 및 제품 결함과 관련하여 조직을 지원하는 데 도움이 됩니다. 이는 은행 및 기타 금융 기관에서 잘 알려진 사용 사례이지만, SaaS 기반 기업에서도 데이터 세트에서 가짜 사용자 계정을 제거하기 위해 이러한 관행을 도입하기 시작했습니다. 이상 징후 탐지는 과거에 간과했던 새롭고 참신한 전략이나 타깃 시장을 발견할 수 있는 기회이기도 합니다.

위험 평가

조직은 데이터 마이닝을 통해 위험의 규모를 보다 정확하게 파악하고 결정할 수 있습니다. 사이버 보안, 금융 및 법률 분야에서 패턴과 이상 징후를 발견하여 실수나 위협을 정확히 찾아낼 수 있습니다.

목표 시장에 집중

데이터 마이닝은 여러 데이터베이스를 검색하여 밀접한 관계를 찾아냄으로써 행동과 고객 배경을 특정 품목의 판매와 정확하게 연결할 수 있습니다. 이를 통해 더욱 타겟팅된 캠페인을 실시하여 매출을 늘리는 데 도움이 될 수 있습니다.

고객 서비스 개선

현장, 온라인, 모바일 앱, 전화 등 모든 고객 행동을 데이터 마이닝으로 추적할 수 있다면 고객 문제를 더 빨리 발견하고 해결할 수 있습니다. 고객 서비스 에이전트는 자신이 응대하는 고객에 대한 보다 완전하고 통찰력 있는 정보에 액세스할 수 있습니다.

장비 가동 시간 증가

산업 장비에서 운영 데이터를 수집하면 향후 성능과 가동 중지 시간을 예측하고 보호 유지 보수 계획을 세우는 데 도움이 될 수 있습니다.

운영 최적화

프로세스 마이닝은 데이터 마이닝 기술을 사용하여 운영 기능 전반의 비용을 절감함으로써 조직이 보다 효율적으로 운영될 수 있도록 합니다. 이러한 관행은 비용이 많이 드는 병목 현상을 파악하고 비즈니스 리더의 의사 결정을 개선하는 데 도움이 될 수 있습니다.

업계 사용 사례

고객 서비스

데이터 마이닝은 어떤 요소가 고객을 가장 만족시키는지, 어떤 요소가 마찰이나 불만족을 유발하는지 파악하여 고객 서비스를 위한 더 풍부한 데이터 소스를 만들 수 있습니다.

교육

교육 기관에서는 학생 인구를 파악하고 어떤 환경이 학생들의 성공에 도움이 되는지 알아보기 위해 데이터를 수집하기 시작했습니다. 교육 과정이 온라인 플랫폼을 사용하는 경우가 많기 때문에 키 입력, 학생 프로필, 참석한 수업 및 소요 시간과 같은 다양한 차원과 메트릭을 사용하여 성과를 관찰하고 평가할 수 있습니다.

금융

금융 기관과 은행은 위험을 조사할 때 종종 폭넓은 범위를 조사하여 현금 흐름과 회수에 부정적인 영향을 미칠 수 있는 모든 요소를 포착하고자 합니다. 데이터 마이닝 도구는 양호하거나 나쁜 위험을 나타내는 요인의 조합을 찾고 평가하는 데 유용할 수 있습니다.

의료

데이터 마이닝은 스캔 및 이미지 판독을 포함한 의료 상태 진단에 유용한 툴이며, 이를 통해 유익한 치료법을 제안하는 데 도움을 줍니다.

인적 자원(HR)

조직은 여러 요인을 분석하고 패턴을 찾아 직원 성과와 만족도에 대한 새로운 인사이트를 얻을 수 있습니다. 데이터에는 시작일, 재직 기간, 승진, 급여, 교육, 동료 성과, 업무 제공, 복리후생 사용, 출장 등이 포함될 수 있습니다.

제조

원자재부터 최종 납품까지 제조 공정의 모든 측면을 분석하여 성능을 개선할 수 있습니다. 재료 비용은 얼마이며 옵션이 있나요? 생산 효율성은 어느 정도인가요? 병목 현상은 어디에서 발생하나요? 내부적으로나 고객과 관련하여 품질 문제는 무엇이며 어디에서 발생하나요?

소매

소매업체는 고객 데이터와 행동을 분석하여 가장 생산적인 캠페인, 가격 책정, 프로모션, 특별 상품 제공, 성공적인 교차 판매 및 상향 판매를 파악할 수 있습니다.

영업 및 마케팅

기업은 고객 및 잠재 고객에 대한 엄청난 양의 데이터를 수집합니다. 기업은 소비자 인구 통계, 미디어 반응 및 고객 행동을 관찰함으로써 데이터를 사용하여 마케팅 캠페인을 최적화하고 세분화 및 타기팅, 고객 충성도 프로그램을 개선할 수 있으며, 이를 통해 마케팅 활동에 대한 투자 수익률(ROI)을 높일 수 있습니다. 예측 분석은 팀이 이해관계자와 함께 기대치를 설정하는 데도 도움이 되며, 마케팅 투자의 증가 또는 감소에 대한 예상 수익률을 제공할 수 있습니다.