데이터 사이언스에서는 수학 및 통계, 전문 프로그래밍, 고급 분석, 인공지능(AI), 머신 러닝을 특정 주제별 전문 지식과 결합하여 조직의 데이터에 숨겨진 실행 가능한 인사이트를 파악합니다. 이러한 인사이트를 참고하여 의사결정을 내리고 전략적 계획을 수립할 수 있습니다.
데이터 소스와 데이터의 볼륨이 급증하면서 데이터 사이언스는 모든 업계에서 가장 빠르게 성장하는 분야 중 하나가 되었습니다. 그렇다 보니 Harvard Business Review(IBM 외부 링크)에서 데이터 과학자에게 "21세기의 가장 섹시한 직업"이라는 수식어를 붙인 것도 놀라운 일은 아닙니다. 비즈니스 성과 개선을 위해 데이터 과학자가 데이터를 해석하고 실행 가능한 권장사항을 제공하는 조직이 늘고 있습니다.
데이터 사이언스 라이프사이클에는 분석가가 실행 가능한 인사이트를 수집할 수 있는 여러 역할, 툴, 프로세스가 존재합니다. 일반적으로 데이터 사이언스 프로젝트는 다음과 같은 단계를 거칩니다 .
데이터 사이언스는 하나의 학문 분야로 간주되는 반면 데이터 과학자는 해당 분야의 실무자입니다. 데이터 과학자가 항상 데이터 사이언스 라이프사이클과 관련된 모든 프로세스를 직접 담당하는 것은 아닙니다. 예를 들어 데이터 파이프라인은 일반적으로 데이터 엔지니어가 처리하지만 데이터 과학자가 유용하거나 필요한 데이터 유형을 추천할 수 있습니다. 데이터 과학자는 머신 러닝 모델을 구축할 수 있지만 이러한 결과물을 한층 더 확장하려면 보다 빠르게 실행되도록 프로그램을 최적화할 수 있는 소프트웨어 엔지니어링 기술이 더 필요합니다. 그렇기 때문에 머신 러닝 모델을 확장하기 위해 데이터 과학자와 머신 러닝 엔지니어가 협업하는 경우가 흔합니다.
특히 탐색적 데이터 분석 및 데이터 시각화와 관련해 데이터 과학자와 데이터 분석가의 업무가 겹칠 때가 많습니다. 그러나 일반적으로 데이터 과학자는 평균적인 데이터 분석가보다 더 광범위한 기술을 보유하고 있습니다. 비교하자면 데이터 과학자는 R 및 Python과 같은 일반적인 프로그래밍 언어를 활용해 다양한 통계 추론과 데이터 시각화를 수행합니다.
이러한 작업을 수행하기 위해 데이터 과학자는 일반적인 비즈니스 분석가나 데이터 분석가보다 많은 컴퓨터 과학 및 순수 과학 기술을 필요로 합니다. 데이터 과학자는 자동차 제조, 전자상거래 또는 의료와 같은 비즈니스의 세부적인 사항도 이해해야 합니다.
즉, 데이터 과학자는 다음을 수행할 수 있어야 합니다.
이러한 기술은 수요가 많기 때문에 데이터 사이언스 분야에 입문하는 많은 사람들이 인증 프로그램, 데이터 사이언스 과정, 교육 기관에서 제공하는 학위 프로그램 등 다양한 데이터 사이언스 프로그램에 대해 알아보고 있습니다.
"데이터 사이언스"와 "비즈니스 인텔리전스"(BI)는 둘 다 조직의 데이터 및 데이터 분석과 관련이 있는 용어이기 때문에 혼동하기 쉽지만 중점을 두고 있는 부분이 다릅니다.
비즈니스 인텔리전스(BI)는 일반적으로 데이터 준비, 데이터 마이닝, 데이터 관리, 데이터 시각화를 지원하는 기술을 일컫는 포괄적인 용어입니다. 비즈니스 인텔리전스 툴과 프로세스를 통해 최종 사용자가 원시 데이터에서 실행 가능한 정보를 식별하여 다양한 업종의 조직 내에서 데이터 기반 의사결정을 가속화할 수 있습니다. 이러한 점에서 데이터 사이언스 툴과 많은 부분 겹치지만 비즈니스 인텔리전스는 과거의 데이터에 더 초점을 맞추며 BI 툴의 인사이트는 본질적으로 더 기술적입니다. BI는 데이터를 사용하여 과거에 발생한 상황을 이해하고 행동 방침을 알려줍니다. 또한 일반적으로 정형화된 정적(변경되지 않는) 데이터에 초점을 맞춥니다. 반면 데이터 사이언스에서는 설명적 데이터를 사용해 예측 변수를 결정하는 경우가 일반적이며 이렇게 결정한 예측 변수를 사용해 데이터를 분류하거나 예측합니다.
데이터 사이언스와 BI는 상호 배타적인 관계에 있지 않습니다. 디지털에 정통한 조직에서는 데이터를 완전하게 이해하고 가치를 추출하기 위해 이 두 가지를 모두 사용합니다.
데이터 과학자들은 유명한 프로그래밍 언어를 사용해 탐색적 데이터 분석과 통계 회귀분석을 수행합니다. 이러한 오픈소스 툴에서는 사전 빌드된 통계 모델링, 머신 러닝, 그래픽 기능을 지원합니다. 다음과 같은 언어가 포함됩니다("Python과 R: 차이점" 참조).
코드 및 기타 정보를 쉽게 공유하기 위해 데이터 과학자가 GitHub 및 Jupyter Notebook을 사용할 수 있습니다.
사용자 인터페이스를 선호하는 데이터 과학자도 있습니다. 일반적으로 통계 분석에 사용되는 엔터프라이즈 툴 2가지는 다음과 같습니다.
데이터 과학자는 Apache Spark, 오픈소스 프레임워크인 Apache Hadoop, NoSQL 데이터베이스 같은 빅데이터 처리 플랫폼도 능숙하게 사용합니다. 비즈니스 프레젠테이션 및 스프레드시트 애플리케이션(예: Microsoft Excel)에 포함된 간단한 그래픽 툴, Tableau 및 IBM Cognos와 같이 특수 제작된 상용 시각화 툴, D3.js(대화식 데이터 시각화 생성을 위한 JavaScript 라이브러리) 및 RAW Graphs 같은 오픈소스 툴 등 다양한 데이터 시각화 툴에도 익숙합니다. 머신 러닝 모델을 구축하기 위해 데이터 과학자들은 PyTorch, TensorFlow, MXNet, Spark MLib와 같은 여러 프레임워크를 사용할 때가 많습니다.
데이터 사이언스의 급격한 학습 곡선을 고려해 많은 기업들이 AI 프로젝트의 투자 수익률을 높이고 데이터 사이언스 프로젝트의 잠재력을 최대한 실현하는 데 필요한 인재를 채용하기 위해 노력하고 있습니다. 기업에서는 인력난을 해소하기 위해 DSML(멀티 페르소나 데이터 사이언스 및 머신 러닝) 플랫폼에 주목하고 있으며 그로 인해 "시티즌 데이터 사이언티스트"라는 역할이 생겨났습니다.
멀티 페르소나 DSML 플랫폼은 자동화, 셀프 서비스 포털, 로우코드/노코드 사용자 인터페이스를 사용하므로 디지털 기술 또는 전문 데이터 사이언스에 대한 배경 지식이 거의 또는 전혀 없는 인력이 데이터 사이언스 및 머신 러닝을 사용해 비즈니스 가치를 창출할 수 있습니다. 또한 이 플랫폼에서는 보다 기술적인 인터페이스도 제공하여 전문 데이터 과학자까지 지원합니다. 멀티 페르소나 DSML 플랫폼을 사용하면 전사적으로 협업을 장려할 수 있습니다.
클라우드 컴퓨팅은 데이터 사이언스 프로젝트에 필요한 추가 처리 능력, 스토리지, 기타 툴에 대한 액세스를 제공하여 데이터 사이언스를 확장해줍니다.
데이터 사이언스에서는 대규모 데이터 세트를 자주 활용하기 때문에 특히 시간에 민감한 프로젝트의 경우 데이터 크기에 따라 확장할 수 있는 툴이 매우 중요합니다. 데이터 레이크와 같은 클라우드 스토리지 솔루션은 대량의 데이터를 쉽게 수집하고 처리할 수 있는 스토리지 인프라에 대한 액세스를 제공합니다. 이러한 스토리지 시스템은 최종 사용자에게 유연성을 제공하여 사용자가 필요에 따라 대규모 클러스터를 구동할 수 있습니다. 또한 증분 컴퓨팅 노드를 추가해 데이터 처리 작업을 가속화할 수도 있어 기업에서 더 큰 장기적 결과를 위해 단기적인 절충안을 진행할 수 있습니다. 클라우드 플랫폼에서는 일반적으로 대기업이든 소규모 스타트업이든 상관없이 최종 사용자의 요구사항을 충족하기 위해 사용량별 요금 또는 구독 등 다양한 가격 책정 모델을 제공합니다.
데이터 사이언스 툴 세트에는 오픈소스 기술이 널리 사용됩니다. 클라우드에서 호스팅하면 이를 로컬에서 설치, 구성, 유지보수, 갱신할 필요가 없습니다. IBM Cloud®를 비롯한 여러 클라우드 제공업체에서 데이터 과학자가 코딩 없이 모델을 구축할 수 있는 사전 패키징된 툴킷을 제공하여 기술 혁신 및 데이터 인사이트에 대한 접근성을 넓히고 있습니다.
기업에서 데이터 사이언스의 다양한 이점을 활용할 수 있습니다. 일반적인 사용 사례로는 지능형 자동화를 통한 프로세스 최적화, 고객 경험(CX) 개선을 위한 향상된 타겟팅 및 개인화 등이 있습니다. 보다 구체적인 사례는 다음과 같습니다.
다음은 데이터 사이언스 및 인공지능에 대한 몇 가지 대표적인 사용 사례입니다.