データサイエンスは、数学と統計、特殊プログラミング、高度な分析、人工知能(AI)、機械学習を、特定の対象分野の専門知識と組み合わせて、組織のデータに隠されている実用的な洞察を明らかにします。 こうした洞察は、意思決定と戦略計画策定の指針として利用できます。
データ・ソースとそれに伴って発生するデータの増加速度が速まっているため、データサイエンスは、あらゆる業界において最も急速に成長している分野の1つとなっています。 ビジネスの結果を向上させるためのデータの解釈と実用的な推奨の提供に関して、データサイエンティストに頼る企業や組織はますます増加しています。
データサイエンスのライフサイクルには、さまざまな役割、ツール、プロセスが伴います。アナリストはこれらを使用して、実用的な洞察を収集できます。 通常、データサイエンスのプロジェクトは、以下のような段階を経て進行していきます。
データサイエンスは学術分野で、データサイエンティストはこの学術分野における実践者であると考えられています。 データサイエンティストは必ずしも、データサイエンスのライフサイクルに伴うすべてのプロセスに直接的な責任を負う必要はありません。 例えば、データ・パイプラインは通常、データ・エンジニアが処理します。しかし、データサイエンティストがどのような種類のデータが便利であるか、あるいは必要であるかについての推奨を作成する場合があります。 データサイエンティストは機械学習モデルを構築できる一方、こうした取り組みを大規模なレベルで拡張するために機械学習エンジニアと協力することは、データサイエンティストにとって珍しいことではありません。
データサイエンティストの責任は通常、特に予備的なデータ分析とデータ可視化に関して、データ・アナリストの責任と重複します。 ただし、データサイエンティストのスキルセットは通常、平均的なデータ・アナリストよりも広範囲に及びます。 例えば、データサイエンティストは、RやPythonなどの一般的なプログラミング言語を活用して、より多くの統計的推論とデータの可視化を行います。
データサイエンティストは以下ができる必要があります。
ビジネス・インテリジェンス(BI)は通常、データ準備、データ・マイニング、データ管理、データ可視化を実現するテクノロジーを示す包括的な用語です。 ビジネス・インテリジェンスのツールとプロセスを使用すると、エンド・ユーザーが生データから実用的な情報を識別できるようになり、さまざまな業界にわたって組織内でのデータ主導の意思決定が促進されます。
データサイエンス・ツールはこの点において、多くの部分がビジネス・インテリジェンスと重複しますが、ビジネス・インテリジェンスでは過去のデータにより重点を置いており、BIツールから得られる洞察は実際、より説明的なものになります。 BIは、行動の指針を示す前に起きたことを理解するためにデータを使用します。 また、通常は構造化データである、静的(不変の)データに適合しています。 データサイエンスは、説明的なデータを使用しながら、通常はそれらのデータを予測的な変数を判断するために活用します。これらの変数はその後、データの分類や予想の作成に使用されます。
データサイエンティストは、予備的なデータ分析と統計的回帰を実施する際に、一般的なプログラミング言語を使用しています。 これらのオープンソース・ツールは、事前構築された統計モデリング、機械学習、グラフィックの各機能をサポートしています。 一般的なプログラミング言語には以下が挙げられます。
ユーザー・インターフェースを好むデータサイエンティストもいます。統計的分析向けの一般的なエンタープライズ・ツールとして次の2つがあります。
データサイエンティストはまた、Apache Spark、オープンソース・フレームワークであるApache Hadoop、NoSQLデータベースなど、ビッグデータ処理のプラットフォームの使用に習熟しています。 さらに、データサイエンティストは、ビジネス用のプレゼンテーションと表計算のアプリケーションに付属するシンプルなグラフィックス・ツール、Tableau、IBM Cognosなどの専用の商業用可視化ツール、D3.js(対話式のデータ可視化作成用のJavaScriptライブラリー)とRAWGraphsのようなオープンソース・ツールなど、幅広いデータ視覚化ツールのスキルも持っています。 機械学習モデルを構築する場合、データサイエンティストは高い頻度で、PyTorch、TensorFlow、MXNet、Spark MLibなど、複数のフレームワークを利用します。
データサイエンスの学習曲線が急こう配であるため、多くの企業はAIプロジェクトへの投資から利益を得るまでの時間を短縮することを求めています。こうした企業はしばしば、データサイエンス・プロジェクトの可能性をすべて実現するために必要な人材の雇用に苦労しています。 企業はこのギャップに対応するために、マルチペルソナ・データサイエンス/機械学習(DSML)プラットフォームに目を向けています。
マルチペルソナDSMLプラットフォームでは、自動化、セルフサービス・ポータル、ローコード/ノーコード・ユーザー・インターフェースが使用されるため、デジタル・テクノロジーまたは専門的なデータサイエンスの知識がない、あるいは、ほとんどない人が、データサイエンスと機械学習を使用して、ビジネス価値を作り出すことができます。 これらのプラットフォームではまた、より技術的なインターフェースも提供することで、データサイエンスの専門家もサポートします。 マルチペルソナDSMLプラットフォームを使用することで、全社的なコラボレーションが促進されます。
クラウド・コンピューティングは、追加の処理能力、ストレージ、データサイエンス・プロジェクトに必要なその他のツールを利用できるようにすることで、データサイエンスを拡張します。
データサイエンスではしばしば大規模なデータ・セットを活用するため、特に時間的制約があるプロジェクトの場合、データのサイズに対応できるツールが非常に重要です。 データレイクなどのクラウド・ストレージ・ソリューションでは、簡単に大容量データの取り込みと処理を行えるストレージ・インフラストラクチャーを利用できます。 これらのストレージ・システムでは、柔軟性が提供されるため、エンド・ユーザーは必要に応じて、大規模なクラスターをスピンアップできます。 また、増分計算ノードを追加して、データ処理ジョブを迅速化できるため、企業は大規模かつ長期的な成果について、短期間のトレードオフを作成できます。 クラウド・プラットフォームには通常、利用当たりの料金やサブスクリプションなど、大企業であるか小規模なスタートアップ企業であるかに関わらず、エンド・ユーザーのニーズに対応するためにさまざまな料金体系モデルがあります。
データサイエンスのツール・セットには、オープンソース・テクノロジーが広く使われています。 それらのツール・セットがクラウドでホストされている場合、チームはローカルでインストール、設定、保守、更新を行う必要がありません。 IBM Cloud®などのいくつかのクラウド・プロバイダーはまた、データサイエンティストがコーディングなしでモデルを構築できるようにする、事前にパッケージ化されたツールキットを提供し、テクノロジーのイノベーションとデータの洞察をさらに多くの人々が利用できるようにしています。