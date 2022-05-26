데이터 과학자는 고급 통계 분석 및 머신 러닝 알고리즘을 사용하여 대규모 데이터 세트를 연구합니다. 이를 통해 데이터에서 패턴을 식별하여 중요한 비즈니스 인사이트를 도출한 다음, 일반적으로 이러한 패턴을 사용하여 대규모로 보다 효율적이고 정확한 인사이트를 얻을 수 있는 머신 러닝 솔루션을 개발합니다. 중요한 것은 데이터 과학자가 이러한 통계 경험을 소프트웨어 엔지니어링 경험과 결합한다는 점입니다.

주요 책임은 다음과 같습니다.

대규모 데이터 세트를 사용 가능한 형식으로 변환 및 정리

클러스터링, 신경망, 의사결정트리와 같은 기술을 적용하여 데이터에서 인사이트 확보

데이터를 분석하여 패턴을 파악하고 비즈니스에 영향을 미칠 수 있는 추세 파악

데이터를 평가하기 위한 머신 러닝 알고리즘(ibm.com 외부 링크) 개발

결과 예측을 위한 데이터 모델 생성

데이터 과학자를 위한 중요한 기술은 다음과 같습니다.

SAS, R, Python에 대한 전문성

머신 러닝, 데이터 컨디셔닝, 고급 수학에 대한 심층적인 전문 지식

빅데이터 도구 사용 경험

API 개발 및 운영에 대한 이해

데이터 최적화 및 데이터 마이닝에 대한 배경 지식

뛰어난 창의적 사고력과 의사 결정 능력

이 모든 것이 어떻게 연결되어 있을까요?

데이터 엔지니어, 데이터 과학자, 분석 엔지니어에 대한 설명을 나란히 놓고 보더라도, 각 역할의 기술과 중점 영역이 겹치는 부분이 확실히 존재하기 때문에 혼란을 일으킬 수 있습니다. 그렇다면 이 모든 것이 어떻게 연결되어 있을까요?

데이터 엔지니어는 데이터를 생성하는 프로그램을 구축하며, 해당 데이터가 의미 있도록 하는 것을 목표로 하지만 여전히 다른 소스와 결합해야 합니다. 분석 엔지니어는 이러한 데이터 소스를 통합하여, 사용자가 액세스하기 쉽고 반복 가능한 방식으로 통합 인사이트에 액세스할 수 있는 시스템을 구축합니다. 마지막으로, 데이터 과학자는 모든 데이터를 대규모로 분석하고 패턴과 추세를 인간보다 더 빠르고 더 잘 파악할 수 있는 도구를 개발합니다.

중요한 것은 이러한 역할 사이에 강력한 관계가 있어야 한다는 것입니다. 그러나 많은 경우, 제대로 기능하지 못하게 됩니다. Stitch Fix의 데이터 플랫폼 담당 부사장인 Jeff Magnuson은 몇 년 전 엔지니어가 ETL을 작성해서는 안 된다는 제목의 기사(ibm.com 외부 링크)에서 이 주제에 대해 썼습니다. 그의 글의 핵심은 팀에 ‘생각하는 사람’과 ‘실행하는 사람’이 따로 있어서는 안 된다는 것이었습니다. 오히려 고기능 데이터 팀은 자신이 생산하는 작업에 대한 엔드투엔드 소유권이 필요하며, 이는 이러한 역할 사이에 ‘책임을 떠넘겨버린다’는 사고방식이 있어서는 안 된다는 것을 의미합니다.

그 결과 엔지니어링 배경 지식을 갖추고 반복 가능한 프로세스를 구축하는 방법과 가동 시간 및 SLA의 중요성 등을 이해하는 데이터 과학자에 대한 수요가 높습니다. 결과적으로 이 접근 방식은 데이터 엔지니어의 역할에 영향을 미치며, 데이터 엔지니어는 완전히 다른 방식으로 데이터 과학자와 함께 작업할 수 있습니다. 물론 이는 분석 엔지니어에게도 연쇄적으로 적용됩니다.

데이터 엔지니어, 데이터 과학자, 분석 엔지니어의 차이점을 일단 완전히 이해하기

많은 조직이 이러한 각 역할을 다르게 정의하고 있는 것이 사실입니다. 이들은 어느 정도 비슷한 작업을 가지고 있기 때문에 어디가 끝이고 어디가 시작인지 명확하게 구분하는 것은 어렵습니다. Josh Laurito는 다음과 같이 결론을 내립니다. “모두가 SQL을 작성합니다. 모두가 품질을 중요하게 생각합니다. 모두가 다른 테이블을 평가하고 어딘가에 데이터를 작성하고 모두가 시간대에 대해 불평합니다. 모두가 같은 일을 많이 합니다. 따라서 우리가 업무를 나누는 방식은, 사람들이 기본 분석 데이터 저장소와 관련하여 어디에 있는지에 따라 달라집니다.”

Squarespace에서는 데이터 엔지니어가 해당 스토어를 만들고 유지보수하기 위해 수행되는 모든 작업을 담당하고, 분석 엔지니어가 기능 팀에 포함되어 의사 결정을 지원하며, 데이터에 대한 내러티브를 작성하고, 이를 통해 조치와 의사 결정을 유도합니다. 마지막으로 데이터 과학자는 중간에서 인센티브 구조와 지표를 설정하여 의사 결정을 내리고 사람들을 안내합니다.

물론 조직마다 약간씩 다를 수 있습니다. 그리고 지금은 경계가 모호하지만 이러한 각 역할은 계속 진화하고 각 역할의 역학을 더욱 변화시킬 것입니다. 하지만 이 개요가 데이터 엔지니어, 데이터 과학자, 분석 엔지니어의 차이점이 무엇인지에 대한 의문을 해결하는 데 도움이 되기를 바랍니다.

IBM® Databand의 연속 데이터 관측성 플랫폼에 대해 자세히 살펴보고, 이 플랫폼을 통해 데이터 인시던트를 조기에 감지하고 더 빠르게 해결하며 더 신뢰할 수 있는 데이터를 비즈니스에 제공하는 방법을 알아보세요. 더 자세히 살펴볼 준비가 되셨다면 지금 바로 데모를 예약하세요.