데이터 팀에 속해 있더라도 다양한 역할과 그 미묘한 차이를 모두 살펴보는 것은 혼란스러운 일일 수 있으며, 팀을 지원하거나 함께 일하는 비기술 임원인 경우는 말할 것도 없습니다.
가장 혼란이 큰 영역 중 하나는 데이터 엔지니어, 데이터 과학자, 분석 엔지니어의 역할 간의 차이점을 이해하는 것입니다.
데이터 팀에 속해 있더라도 다양한 역할과 그 미묘한 차이를 모두 살펴보는 것은 혼란스러운 일일 수 있으며, 팀을 지원하거나 함께 일하는 비기술 임원인 경우는 말할 것도 없습니다.
가장 혼란이 큰 영역 중 하나는 데이터 엔지니어, 데이터 과학자, 분석 엔지니어의 역할 간의 차이점을 이해하는 것입니다.
업계 뉴스레터
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
데이터 엔지니어는 데이터 아키텍처와 파이프라인을 개발하고 유지보수합니다. 기본적으로 데이터를 생성하는 프로그램을 구축하고 운영 및 분석에 의미 있는 아웃풋을 보장하는 방식으로 데이터를 생성하는 것을 목표로 합니다.
주요 책임은 다음과 같습니다.
데이터 엔지니어에게 중요한 기술은 다음과 같습니다.
분석 엔지니어는 통합된 인사이트를 도출할 수 있는 방식으로 데이터 소스를 통합합니다. 깨끗하고 명확한 방식으로 데이터를 모델링할 수 있는 시스템을 반복적으로 구축하여, 모든 사람이 해당 시스템을 사용하여 지속적으로 질문에 답을 얻을 수 있도록 하는 작업을 수행합니다. dbt Labs의 한 분석 엔지니어가 말했듯이(ibm.com 외부 링크), 분석 엔지니어링의 핵심은 “어려운 문제를 한 번 해결하면 해당 솔루션의 이점을 무한대로 얻을 수 있다는 점”입니다.
주요 책임은 다음과 같습니다.
분석 엔지니어에게 중요한 기술은 다음과 같습니다(ibm.com 외부 링크).
데이터 과학자는 고급 통계 분석 및 머신 러닝 알고리즘을 사용하여 대규모 데이터 세트를 연구합니다. 이를 통해 데이터에서 패턴을 식별하여 중요한 비즈니스 인사이트를 도출한 다음, 일반적으로 이러한 패턴을 사용하여 대규모로 보다 효율적이고 정확한 인사이트를 얻을 수 있는 머신 러닝 솔루션을 개발합니다. 중요한 것은 데이터 과학자가 이러한 통계 경험을 소프트웨어 엔지니어링 경험과 결합한다는 점입니다.
주요 책임은 다음과 같습니다.
데이터 과학자를 위한 중요한 기술은 다음과 같습니다.
데이터 엔지니어, 데이터 과학자, 분석 엔지니어에 대한 설명을 나란히 놓고 보더라도, 각 역할의 기술과 중점 영역이 겹치는 부분이 확실히 존재하기 때문에 혼란을 일으킬 수 있습니다. 그렇다면 이 모든 것이 어떻게 연결되어 있을까요?
데이터 엔지니어는 데이터를 생성하는 프로그램을 구축하며, 해당 데이터가 의미 있도록 하는 것을 목표로 하지만 여전히 다른 소스와 결합해야 합니다. 분석 엔지니어는 이러한 데이터 소스를 통합하여, 사용자가 액세스하기 쉽고 반복 가능한 방식으로 통합 인사이트에 액세스할 수 있는 시스템을 구축합니다. 마지막으로, 데이터 과학자는 모든 데이터를 대규모로 분석하고 패턴과 추세를 인간보다 더 빠르고 더 잘 파악할 수 있는 도구를 개발합니다.
중요한 것은 이러한 역할 사이에 강력한 관계가 있어야 한다는 것입니다. 그러나 많은 경우, 제대로 기능하지 못하게 됩니다. Stitch Fix의 데이터 플랫폼 담당 부사장인 Jeff Magnuson은 몇 년 전 엔지니어가 ETL을 작성해서는 안 된다는 제목의 기사(ibm.com 외부 링크)에서 이 주제에 대해 썼습니다. 그의 글의 핵심은 팀에 ‘생각하는 사람’과 ‘실행하는 사람’이 따로 있어서는 안 된다는 것이었습니다. 오히려 고기능 데이터 팀은 자신이 생산하는 작업에 대한 엔드투엔드 소유권이 필요하며, 이는 이러한 역할 사이에 ‘책임을 떠넘겨버린다’는 사고방식이 있어서는 안 된다는 것을 의미합니다.
그 결과 엔지니어링 배경 지식을 갖추고 반복 가능한 프로세스를 구축하는 방법과 가동 시간 및 SLA의 중요성 등을 이해하는 데이터 과학자에 대한 수요가 높습니다. 결과적으로 이 접근 방식은 데이터 엔지니어의 역할에 영향을 미치며, 데이터 엔지니어는 완전히 다른 방식으로 데이터 과학자와 함께 작업할 수 있습니다. 물론 이는 분석 엔지니어에게도 연쇄적으로 적용됩니다.
많은 조직이 이러한 각 역할을 다르게 정의하고 있는 것이 사실입니다. 이들은 어느 정도 비슷한 작업을 가지고 있기 때문에 어디가 끝이고 어디가 시작인지 명확하게 구분하는 것은 어렵습니다. Josh Laurito는 다음과 같이 결론을 내립니다. “모두가 SQL을 작성합니다. 모두가 품질을 중요하게 생각합니다. 모두가 다른 테이블을 평가하고 어딘가에 데이터를 작성하고 모두가 시간대에 대해 불평합니다. 모두가 같은 일을 많이 합니다. 따라서 우리가 업무를 나누는 방식은, 사람들이 기본 분석 데이터 저장소와 관련하여 어디에 있는지에 따라 달라집니다.”
Squarespace에서는 데이터 엔지니어가 해당 스토어를 만들고 유지보수하기 위해 수행되는 모든 작업을 담당하고, 분석 엔지니어가 기능 팀에 포함되어 의사 결정을 지원하며, 데이터에 대한 내러티브를 작성하고, 이를 통해 조치와 의사 결정을 유도합니다. 마지막으로 데이터 과학자는 중간에서 인센티브 구조와 지표를 설정하여 의사 결정을 내리고 사람들을 안내합니다.
물론 조직마다 약간씩 다를 수 있습니다. 그리고 지금은 경계가 모호하지만 이러한 각 역할은 계속 진화하고 각 역할의 역학을 더욱 변화시킬 것입니다. 하지만 이 개요가 데이터 엔지니어, 데이터 과학자, 분석 엔지니어의 차이점이 무엇인지에 대한 의문을 해결하는 데 도움이 되기를 바랍니다.
IBM® Databand의 연속 데이터 관측성 플랫폼에 대해 자세히 살펴보고, 이 플랫폼을 통해 데이터 인시던트를 조기에 감지하고 더 빠르게 해결하며 더 신뢰할 수 있는 데이터를 비즈니스에 제공하는 방법을 알아보세요. 더 자세히 살펴볼 준비가 되셨다면 지금 바로 데모를 예약하세요.
기업이 성공하려면 데이터를 활용하여 고객 충성도를 높이고 비즈니스 프로세스를 자동화하며 AI 기반 솔루션으로 혁신을 이루어야 합니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.
더 나은 의사 결정을 위한 AI 기반 인사이트인 Cognos Analytics 12.0을 소개합니다.