데이터 사이언스란?
데이터 사이언스로 비즈니스 인사이트를 활용하고 디지털 혁신을 가속화하며 데이터 기반 의사결정을 지원하는 방법을 알아봅니다.
실험실에서 컴퓨터를 사용하는 과학자
데이터 사이언스란?

데이터 사이언스에서는 수학 및 통계, 전문 프로그래밍, 고급 분석, 인공지능(AI), 머신 러닝을 특정 주제별 전문 지식과 결합하여 조직의 데이터에 숨겨진 실행 가능한 인사이트를 파악합니다. 이러한 인사이트를 참고하여 의사결정을 내리고 전략적 계획을 수립할 수 있습니다.

데이터 소스와 데이터의 볼륨이 급증하면서 데이터 사이언스는 모든 업계에서 가장 빠르게 성장하는 분야 중 하나가 되었습니다. 그렇다 보니  Harvard Business Review(IBM 외부 링크)에서 데이터 과학자에게 "21세기의 가장 섹시한 직업"이라는 수식어를 붙인 것도 놀라운 일은 아닙니다. 비즈니스 성과 개선을 위해 데이터 과학자가 데이터를 해석하고 실행 가능한 권장사항을 제공하는 조직이 늘고 있습니다.

데이터 사이언스 라이프사이클에는 분석가가 실행 가능한 인사이트를 수집할 수 있는 여러 역할, 툴, 프로세스가 존재합니다. 일반적으로 데이터 사이언스 프로젝트는 다음과 같은 단계를 거칩니다 .

  • 데이터 수집: 다양한 방법을 사용해 모든 관련 소스에서 원시 정형 및 비정형 데이터 모두를 수집하는 것으로 라이프사이클이 시작됩니다. 그 방법으로는 시스템 및 디바이스에서 수동 입력, 웹 스크래핑, 실시간 스트리밍 데이터가 포함될 수 있습니다. 데이터 소스에는 고객 데이터와 같은 정형 데이터는 물론 로그 파일, 동영상, 오디오, 사진, 사물 인터넷(IoT), 소셜 미디어 등의 비정형 데이터가 포함됩니다.
  • 데이터 스토리지 및 데이터 처리: 데이터의 형식과 구조가 다를 수 있기 때문에 기업에서는 확보해야 할 데이터 유형에 따라 다른 스토리지 시스템을 고려해야 합니다. 이때 데이터 관리 팀의 도움을 받아 분석, 머신 러닝, 딥러닝 모델에 대한 워크플로우를 용이하게 처리할 수 있는 데이터 스토리지 및 구조의 표준을 설정하게 됩니다. 이 단계에서 ETL(추출, 변환, 로드) 작업이나 기타 데이터 통합 기술을 사용해 데이터 정리, 중복 제거, 변환, 결합을 진행합니다. 데이터를 데이터 웨어하우스데이터 레이크 또는 기타 저장소에 로드하기 전에 데이터 품질을 높이기 위해서는 이 같은 데이터 준비가 중요합니다.
  • 데이터 분석: 이 단계에서 데이터 과학자는 탐색적 데이터 분석을 수행하여 데이터의 값 편향, 패턴, 범위, 분포를 조사합니다. 이러한 데이터 분석 탐색으로 A/B 테스트를 위한 가설을 생성합니다. 분석가가 예측 분석, 머신 러닝 또는 딥러닝을 위한 모델링에 사용할 데이터의 관련성을 판단할 수도 있습니다. 모델 정확도에 따라 조직에서 이러한 인사이트를 비즈니스 의사결정에 활용해 확장성을 더욱 높일 수 있습니다.
  • 전달: 마지막으로 인사이트와 이 정보가 비즈니스에 미치는 영향을 비즈니스 분석가 및 기타 의사결정권자가 쉽게 이해할 수 있도록 인사이트를 보고서 및 기타 데이터 시각화로 표현합니다. R 또는 Python 같은 데이터 사이언스 프로그래밍 언어에 시각화 생성을 위한 구성요소가 포함되어 있습니다. 또는 데이터 과학자가 전용 시각화 툴을 사용할 수도 있습니다.
데이터 사이언스 vs. 데이터 과학자

데이터 사이언스는 하나의 학문 분야로 간주되는 반면 데이터 과학자는 해당 분야의 실무자입니다. 데이터 과학자가 항상 데이터 사이언스 라이프사이클과 관련된 모든 프로세스를 직접 담당하는 것은 아닙니다. 예를 들어 데이터 파이프라인은 일반적으로 데이터 엔지니어가 처리하지만 데이터 과학자가 유용하거나 필요한 데이터 유형을 추천할 수 있습니다. 데이터 과학자는 머신 러닝 모델을 구축할 수 있지만 이러한 결과물을 한층 더 확장하려면 보다 빠르게 실행되도록 프로그램을 최적화할 수 있는 소프트웨어 엔지니어링 기술이 더 필요합니다. 그렇기 때문에 머신 러닝 모델을 확장하기 위해 데이터 과학자와 머신 러닝 엔지니어가 협업하는 경우가 흔합니다.

특히 탐색적 데이터 분석 및 데이터 시각화와 관련해 데이터 과학자와 데이터 분석가의 업무가 겹칠 때가 많습니다. 그러나 일반적으로 데이터 과학자는 평균적인 데이터 분석가보다 더 광범위한 기술을 보유하고 있습니다. 비교하자면 데이터 과학자는 R 및 Python과 같은 일반적인 프로그래밍 언어를 활용해 다양한 통계 추론과 데이터 시각화를 수행합니다.

이러한 작업을 수행하기 위해 데이터 과학자는 일반적인 비즈니스 분석가나 데이터 분석가보다 많은 컴퓨터 과학 및 순수 과학 기술을 필요로 합니다. 데이터 과학자는 자동차 제조, 전자상거래 또는 의료와 같은 비즈니스의 세부적인 사항도 이해해야 합니다.

즉, 데이터 과학자는 다음을 수행할 수 있어야 합니다.

  • 관련 질문을 하고 비즈니스 고충 사항을 파악할 수 있을 정도로 비즈니스에 대해 충분히 알고 있습니다.
  • 비즈니스에 대한 안목을 갖고 통계 및 컴퓨터 공학을 데이터 분석에 적용합니다.
  • 데이터베이스 및 SQL부터 데이터 마이닝, 데이터 통합 방법에 이르는 다양한 툴과 기술을 사용하여 데이터를 준비하고 추출합니다.
  • 예측 분석과 머신 러닝 모델자연어 처리딥러닝 등의 인공지능(AI)을 사용해 빅데이터에서 인사이트를 추출합니다.
  • 데이터 처리 및 계산을 자동화하는 프로그램을 작성합니다.
  • 기술 이해도가 저마다 다른 의사결정권자와 이해관계자에게 텍스트와 이미지로 결과의 의미를 명확하게 전달합니다.
  • 결과를 활용해 어떻게 비즈니스 문제를 해결할 수 있는지 설명합니다.
  • 데이터 및 비즈니스 분석가, IT 아키텍처 설계자, 데이터 엔지니어, 애플리케이션 개발자 등 다른 데이터 사이언스 팀원과 협업합니다.

이러한 기술은 수요가 많기 때문에 데이터 사이언스 분야에 입문하는 많은 사람들이 인증 프로그램, 데이터 사이언스 과정, 교육 기관에서 제공하는 학위 프로그램 등 다양한 데이터 사이언스 프로그램에 대해 알아보고 있습니다.

데이터 사이언스 vs. 비즈니스 인텔리전스

"데이터 사이언스"와 "비즈니스 인텔리전스"(BI)는 둘 다 조직의 데이터 및 데이터 분석과 관련이 있는 용어이기 때문에 혼동하기 쉽지만 중점을 두고 있는 부분이 다릅니다.

비즈니스 인텔리전스(BI)는 일반적으로 데이터 준비, 데이터 마이닝, 데이터 관리, 데이터 시각화를 지원하는 기술을 일컫는 포괄적인 용어입니다. 비즈니스 인텔리전스 툴과 프로세스를 통해 최종 사용자가 원시 데이터에서 실행 가능한 정보를 식별하여 다양한 업종의 조직 내에서 데이터 기반 의사결정을 가속화할 수 있습니다. 이러한 점에서 데이터 사이언스 툴과 많은 부분 겹치지만 비즈니스 인텔리전스는 과거의 데이터에 더 초점을 맞추며 BI 툴의 인사이트는 본질적으로 더 기술적입니다. BI는 데이터를 사용하여 과거에 발생한 상황을 이해하고 행동 방침을 알려줍니다. 또한 일반적으로 정형화된 정적(변경되지 않는) 데이터에 초점을 맞춥니다. 반면 데이터 사이언스에서는 설명적 데이터를 사용해 예측 변수를 결정하는 경우가 일반적이며 이렇게 결정한 예측 변수를 사용해 데이터를 분류하거나 예측합니다.

데이터 사이언스와 BI는 상호 배타적인 관계에 있지 않습니다. 디지털에 정통한 조직에서는 데이터를 완전하게 이해하고 가치를 추출하기 위해 이 두 가지를 모두 사용합니다.

데이터 사이언스 툴

데이터 과학자들은 유명한 프로그래밍 언어를 사용해 탐색적 데이터 분석과 통계 회귀분석을 수행합니다. 이러한 오픈소스 툴에서는 사전 빌드된 통계 모델링, 머신 러닝, 그래픽 기능을 지원합니다. 다음과 같은 언어가 포함됩니다("Python과 R: 차이점" 참조).

  • R Studio: 통계 컴퓨팅 및 그래픽 개발을 위한 오픈소스 프로그래밍 언어 및 환경입니다.
  • Python: 유연한 동적 프로그래밍 언어입니다. Python에는 빠른 데이터 분석을 위해 NumPy, Pandas, Matplotlib 같은 여러 라이브러리가 포함되어 있습니다.

코드 및 기타 정보를 쉽게 공유하기 위해 데이터 과학자가 GitHub 및 Jupyter Notebook을 사용할 수 있습니다.

사용자 인터페이스를 선호하는 데이터 과학자도 있습니다. 일반적으로 통계 분석에 사용되는 엔터프라이즈 툴 2가지는 다음과 같습니다.

  • SAS:  분석, 보고, 데이터 마이닝, 예측 모델링을 위한 시각화와 대화식 대시보드를 포함한 포괄적인 툴 모음입니다.
  • IBM SPSS: 고급 통계 분석, 대규모 머신 러닝 알고리즘 라이브러리, 텍스트 분석, 오픈소스 확장성, 빅데이터 통합, 애플리케이션에 대한 원활한 배포를 제공합니다.

데이터 과학자는 Apache Spark, 오픈소스 프레임워크인 Apache Hadoop, NoSQL 데이터베이스 같은 빅데이터 처리 플랫폼도 능숙하게 사용합니다. 비즈니스 프레젠테이션 및 스프레드시트 애플리케이션(예: Microsoft Excel)에 포함된 간단한 그래픽 툴, Tableau 및 IBM Cognos와 같이 특수 제작된 상용 시각화 툴, D3.js(대화식 데이터 시각화 생성을 위한 JavaScript 라이브러리) 및 RAW Graphs 같은 오픈소스 툴 등 다양한 데이터 시각화 툴에도 익숙합니다. 머신 러닝 모델을 구축하기 위해 데이터 과학자들은 PyTorch, TensorFlow, MXNet, Spark MLib와 같은 여러 프레임워크를 사용할 때가 많습니다.

데이터 사이언스의 급격한 학습 곡선을 고려해 많은 기업들이 AI 프로젝트의 투자 수익률을 높이고 데이터 사이언스 프로젝트의 잠재력을 최대한 실현하는 데 필요한 인재를 채용하기 위해 노력하고 있습니다. 기업에서는 인력난을 해소하기 위해 DSML(멀티 페르소나 데이터 사이언스 및 머신 러닝) 플랫폼에 주목하고 있으며 그로 인해 "시티즌 데이터 사이언티스트"라는 역할이 생겨났습니다.

멀티 페르소나 DSML 플랫폼은 자동화, 셀프 서비스 포털, 로우코드/노코드 사용자 인터페이스를 사용하므로 디지털 기술 또는 전문 데이터 사이언스에 대한 배경 지식이 거의 또는 전혀 없는 인력이 데이터 사이언스 및 머신 러닝을 사용해 비즈니스 가치를 창출할 수 있습니다. 또한 이 플랫폼에서는 보다 기술적인 인터페이스도 제공하여 전문 데이터 과학자까지 지원합니다. 멀티 페르소나 DSML 플랫폼을 사용하면 전사적으로 협업을 장려할 수 있습니다.

데이터 사이언스 및 클라우드 컴퓨팅

클라우드 컴퓨팅은 데이터 사이언스 프로젝트에 필요한 추가 처리 능력, 스토리지, 기타 툴에 대한 액세스를 제공하여 데이터 사이언스를 확장해줍니다.

데이터 사이언스에서는 대규모 데이터 세트를 자주 활용하기 때문에 특히 시간에 민감한 프로젝트의 경우 데이터 크기에 따라 확장할 수 있는 툴이 매우 중요합니다. 데이터 레이크와 같은 클라우드 스토리지 솔루션은 대량의 데이터를 쉽게 수집하고 처리할 수 있는 스토리지 인프라에 대한 액세스를 제공합니다. 이러한 스토리지 시스템은 최종 사용자에게 유연성을 제공하여 사용자가 필요에 따라 대규모 클러스터를 구동할 수 있습니다. 또한 증분 컴퓨팅 노드를 추가해 데이터 처리 작업을 가속화할 수도 있어 기업에서 더 큰 장기적 결과를 위해 단기적인 절충안을 진행할 수 있습니다. 클라우드 플랫폼에서는 일반적으로 대기업이든 소규모 스타트업이든 상관없이 최종 사용자의 요구사항을 충족하기 위해 사용량별 요금 또는 구독 등 다양한 가격 책정 모델을 제공합니다.

데이터 사이언스 툴 세트에는 오픈소스 기술이 널리 사용됩니다. 클라우드에서 호스팅하면 이를 로컬에서 설치, 구성, 유지보수, 갱신할 필요가 없습니다. IBM Cloud®를 비롯한 여러 클라우드 제공업체에서 데이터 과학자가 코딩 없이 모델을 구축할 수 있는 사전 패키징된 툴킷을 제공하여 기술 혁신 및 데이터 인사이트에 대한 접근성을 넓히고 있습니다. 

데이터 사이언스 사용 사례

기업에서 데이터 사이언스의 다양한 이점을 활용할 수 있습니다. 일반적인 사용 사례로는 지능형 자동화를 통한 프로세스 최적화, 고객 경험(CX) 개선을 위한 향상된 타겟팅 및 개인화 등이 있습니다. 보다 구체적인 사례는 다음과 같습니다.

다음은 데이터 사이언스 및 인공지능에 대한 몇 가지 대표적인 사용 사례입니다.

  • 한 국제 은행에서는 모바일 앱으로 더 빠른 대출 서비스를 제공하기 위해 머신 러닝 기반의 신용 리스크 모델과 강력하고 안전한 하이브리드 클라우드 컴퓨팅 아키텍처를 사용합니다.
  • 한 전자 회사는 미래의 무인 차량을 위한 강력한 3D 프린팅 센서를 개발하고 있습니다. 이 솔루션은 데이터 사이언스와 분석 툴을 사용하여 실시간 객체 감지 기능을 개선합니다.
  • 한 로보틱 프로세스 자동화(RPA) 솔루션 제공업체는 고객사의 인시던트 처리 시간이 15~95% 단축되는 코그너티브 비즈니스 프로세스 마이닝 솔루션을 개발했습니다. 이 솔루션은 고객 이메일의 내용과 감정을 이해하도록 학습되어 서비스 팀에서 관련성과 긴급성이 가장 큰 이메일을 우선 처리하도록 안내합니다.
  • 한 디지털 미디어 기술 회사에서는 TV 시청자에게 점점 더 많은 디지털 채널을 제공하면서 시청자의 관심을 끄는 것이 무엇인지 파악할 수 있는 시청자 분석 플랫폼을 만들었습니다. 이 솔루션은 심층 분석과 머신 러닝을 사용하여 시청자 행동에 대한 실시간 인사이트를 수집합니다.
  • 한 도시의 경찰서에서는 통계적 사건 분석 툴을 만들어 경찰이 범죄 예방을 위해 인력을 배치해야 할 시기와 장소를 이해할 수 있도록 돕고 있습니다. 이 데이터 기반 솔루션은 보고서와 대시보드를 만들어 현장에 있는 경찰관의 상황 인식을 보강해 줍니다.
  • Shanghai Changjiang Science and Technology Development는 IBM® Watson® 기술을 사용해 기존 의료 기록을 분석하여 뇌졸중 발병 위험에 따라 환자를 분류하고 다양한 치료 계획의 성공률을 예측할 수 있는 AI 기반 진단 평가 플랫폼을 구축했습니다.
관련 솔루션
ModelOps

DevOps 및 ModelOps를 동기화합니다. 거의 모든 클라우드에서 클라우드 네이티브 앱으로 AI 모델을 구축하고 확장합니다.

ModelOps 살펴보기
설명 가능한 AI

AI 해석가능성을 높입니다. AI 리스크를 평가하고 이를 완화합니다. 신뢰감과 자신감으로 AI를 배치합니다.

설명 가능한 AI 자세히 보기
AutoAI

고품질의 예측 모델을 신속하게 구축하고 훈련합니다. AI 라이프사이클 관리를 간소화합니다.

AutoAI 살펴보기
리소스 Autostrade per l'Italia

Autostrade per l’Italia는 완전한 디지털 혁신을 위해 여러 IBM 솔루션을 구현하여 광범위한 인프라 자산을 모니터링하고 유지보수하는 방법을 개선했습니다.

MANA Community

MANA Community는 IBM Garage와 협력하여 여러 디지털 채널과 수천 개의 소스에서 방대한 양의 환경 데이터를 마이닝할 수 있는 AI 플랫폼을 구축했습니다.

다음 단계

IBM의 데이터 사이언스 및 AI 라이프사이클 제품 포트폴리오는 오픈소스 기술에 대한 IBM의 오랜 노력을 토대로 구축되었으며 기업이 새로운 방식으로 데이터의 가치를 창출할 수 있는 다양한 기능을 포함하고 있습니다. IBM Watson® Studio의 강력한 새로운 자동 개발 기능인 AutoAI는 데이터 사이언스 라이프사이클의 데이터 준비, 모델 개발, 기능 엔지니어링 단계의 진행 속도를 높여줍니다. 이를 통해 데이터 과학자가 보다 효율적으로 작업하고 정보에 근거하여 실제 사용 사례에 가장 적합한 모델을 결정할 수 있습니다. AutoAI는 모든 클라우드 환경에서 엔터프라이즈 데이터 사이언스를 간소화해 줍니다.

IBM Watson® Studio 사용해 보기