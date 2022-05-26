データサイエンティストは、高度な統計分析と機械学習アルゴリズムを使用して大規模なデータ・セットを研究します。その際、データ内のパターンを特定 して重要なビジネス上の洞察を引き出し、そのパターンを使用して大規模でより効率的で正確な洞察を得るための機械学習ソリューションを開発するのが一般的です。重要なのは、この統計上の体験とソフトウェア・エンジニアリング上の体験を組み合わせることです。

データ・エンジニアの主な責任には、次のようなものがあります。

大規模なデータ・セットを使用可能な形式に変換およびクリーニングする

クラスタリング、ニューラル・ネットワーク、決定木などの手法を適用して、データから洞察を得る

データを分析してパターンを特定し、ビジネスに影響を与える傾向を特定する

データを評価する機械学習アルゴリズム（ibm.com®外部へのリンク）を開発する

結果を予測するデータ・モデルを作成する

データサイエンティストにとって重要なスキルは次のとおりです。

SAS、R、Pythonの専門知識

機械学習、データ・コンディショニング、高度な数学に関する深い専門知識

ビッグデータ・ツールの経験

APIの開発と運用についての理解

データ最適化とデータ・マイニングの実務経験

優れた創造的思考と意思決定能力

役割を連携させる方法

データ・エンジニア、データサイエンティスト、分析エンジニアの説明を並べて見るだけでも、それぞれの役割にスキルや重点分野の重複があるため、混乱を招くことがあります。では、これらはどのように連携するのでしょうか？

データ・エンジニアはデータを生成するプログラムを構築し、そのデータが意味のあるものになることを目指しますが、それでも他のソースと組み合わせる必要があります。分析エンジニアは、これらのデータ・ソースをまとめて、ユーザーがアクセスしやすく反復可能な方法で統合された洞察にアクセスできるシステムを構築します。最後に、データサイエンティストは、そのすべてのデータを大規模に分析し、人間よりも早く、より適切にパターンと傾向を特定するためのツールを開発します。

重要なのは、これらの役割間に強力な関係性が存在する必要があることです。しかし、多くの場合、それは機能不全に陥ります。Stitch Fix社のデータ・プラットフォーム担当バイスプレジデントのJeff Magnuson氏は、数年前に「エンジニアはETLを書くべきではない」という記事（ibm.com®外部へのリンク）でこのトピックについて書いています。彼の記事の核心は、チームには「考える人」と「実行する人」が別々に存在するべきではないという点でした。むしろ、高機能なデータ・チームには、自分たちが生み出す成果物に対するエンドツーエンドの所有権が必要です。つまり、これらの役割間で「境界越しに丸投げする」ような考え方があってはなりません。

その結果、エンジニアリング分野の実務経験を有し、反復可能なプロセスの構築方法やアップタイムやSLAの重要性などを理解しているデータサイエンティストの需要が高まっています。次に、このアプローチはデータ・エンジニアの役割に影響を与え、データ・エンジニアはまったく異なる方法でデータサイエンティストと協力して作業できるようになります。そしてもちろん、分析エンジニアにもその影響が及びます。

データ・エンジニア、データサイエンティスト、分析エンジニアの違いを今すぐ理解する

多くの組織は、これらの役割のそれぞれを異なるものとして定義しています。それぞれがある程度同様のタスクを持っているため、終わりと始まりのしっかりとした線引きを行うのは困難です。Josh Laurito氏は次のように結論付けています。「誰もがSQLを書いています。誰もがその品質を重視します。誰もがさまざまなテーブルを評価し、データをどこかに書き込み、タイムゾーンについて不満を抱いています。誰もが似たような多くのことを行っているのです。したがって、実際に物事を区分する方法は、主要な分析データ・ストアと関連して人々がどこに配置されるかということです。」

Squarespace では、データ・エンジニアがストアの作成と維持に必要なすべての作業を担当し、分析エンジニアが各機能チームに組み込まれて意思決定をサポートし、データに関する意見をまとめ、それを使用してアクションと決定を推進し、最後にデータサイエンティストが中間に立ち、意思決定を行い、人々を導くためのインセンティブ構造とメトリクスを設定します。

もちろん、組織ごとに少しずつ異なります。現時点では境界線が曖昧ですが、これらの役割はそれぞれ進化を続け、それぞれの役割の力学をさらに変化させていくでしょう。本概要が、現状のデータ・エンジニア、データサイエンティスト、分析エンジニアの違いに関する問題の解決に役立つことを願っています。

