データ・ソース量が増大し、それに伴いデータ量も加速度的に増大しているため、データサイエンスは、あらゆる業界において最も急速に成長している分野の1つとなっています。そのため、データサイエンティストがHarvard Business Reviewで「21世紀で最もセクシーな職業」と呼ばれたのも不思議ではありません。ビジネスの結果を向上させるためのデータの解釈と実用的な推奨の提供に関して、データサイエンティストに頼る企業や組織はますます増加しています。
データサイエンスのライフサイクルには、さまざまな役割、ツール、プロセスが伴います。アナリストはこれらを使用して、実用的な洞察を収集できます。 通常、データサイエンス・プロジェクトは、以下の段階を経て進行していきます。
データサイエンティストは、データから業種・業務固有の洞察と問題の解決策を抽出する専門家です。典型的なビジネス・アナリストやデータ・アナリストのスキルに加え、コンピューターサイエンスと純粋な科学的スキルを有し、自分が担当している特定の業種・業務や事業分野(自動車、製造、eコマース、ヘルスケアなど)を熟知しています。
データサイエンティストには次の能力が求められます。
このようなスキルは需要が高いため、データサイエンスのキャリアに踏み出そうとしている多くの人が、教育機関が提供する認定プログラム、データサイエンス・コース、学位プログラムなど、さまざまなデータサイエンス・プログラムの受講を検討しています。
データサイエンティストは必ずしも、データサイエンスのライフサイクルにかかわるすべてのプロセスに対して直接責任を負うわけではありません。例えば、データ・パイプラインは通常、データ・エンジニアによって処理されます。ただし、どのような種類のデータが有用または必要であるかについてはデータサイエンティストが提案する場合があります。データサイエンティストは機械学習モデルを構築できますが、こうした取り組みを大規模なレベルで拡張するには、プログラムを最適化してより迅速に実行できるようにするためのソフトウェア・エンジニアリング・スキルも求められます。そのため、データサイエンティストが機械学習エンジニアと協力して機械学習モデルを拡張するのは珍しいことではありません。
データサイエンティストの責任は通常、特に予備的なデータ分析とデータの可視化に関して、データ・アナリストの責任と重複します。ただし、データサイエンティストのスキルセットは通常、平均的なデータ・アナリストよりも広範囲に及びます。比較すると、データサイエンティストは、RやPythonなどの一般的なプログラミング言語を活用して、より多くの統計的推論とデータの可視化を行います。
「データサイエンス」と「ビジネス・インテリジェンス」(BI)という用語はどちらも組織のデータとそのデータの分析に関連しているため、混同しやすいかもしれませんが、その焦点は異なります。
ビジネス・インテリジェンス(BI)は通常、データ準備、データ・マイニング、データ管理、データの可視化を実現するテクノロジーを示す包括的な用語です。ビジネス・インテリジェンスのツールとプロセスを使用すると、エンド・ユーザーが生データから実用的な情報を識別できるようになり、さまざまな業界の組織内でのデータ主導の意思決定が促進されます。データサイエンス・ツールはこの点において、多くの部分がビジネス・インテリジェンスと重複しますが、ビジネス・インテリジェンスでは過去のデータにより重点を置いており、BIツールから得られる洞察は実際、より説明的なものになります。BIは、データを使用して、行動の指針を示す前に起きたことを理解します。また、通常は構造化データである、静的(不変の)データに適合しています。データサイエンスは、説明的なデータを使用しながら、通常はそれらのデータを予測的な変数を判断するために活用します。これらの変数はその後、データの分類や予想の作成に使用されます。
データサイエンスとBIは相反するものではありません。デジタルに精通した組織は、データを完全に理解し、そこから価値を引き出すために両方を使用します。
データサイエンティストは、予備的なデータ分析と統計的回帰を実施する際に、一般的なプログラミング言語を使用します。これらのオープンソース・ツールは、事前構築された統計モデリング、機械学習、グラフィックの各機能をサポートしています。一般的なプログラミング言語には以下が挙げられます(詳細は、「PythonとRの違い」を参照してください)。
コードやその他の情報を共有しやすくするために、データサイエンティストはGitHubやJupyter Notebookを使用する場合があります。
ユーザー・インターフェースを好むデータサイエンティストもいます。統計的分析向けの一般的なエンタープライズ・ツールとして次の2つがあります。
データサイエンティストはまた、Apache Spark、オープンソース・フレームワークであるApache Hadoop、NoSQLデータベースなど、ビッグデータ処理プラットフォームの使用にも習熟しています。さらに、ビジネス用のプレゼンテーションやスプレッドシート・アプリケーション(Microsoft Excelなど)に付属するシンプルなグラフィックス・ツール、Tableau、IBM Cognosなどの専用の商業用可視化ツール、D3.js(対話式のデータの可視化作成用のJavaScriptライブラリー)、RAWGraphsのようなオープンソース・ツールなど、幅広いデータ視覚化ツールのスキルも持っています。機械学習モデルを構築する場合、データサイエンティストは高い頻度で、PyTorch、TensorFlow、MXNet、Spark MLibなど、複数のフレームワークを利用します。
データサイエンスの学習曲線が急勾配であるため、多くの企業はAIプロジェクトへの投資から利益を得るまでの時間を短縮することを求めています。こうした企業はしばしば、データサイエンス・プロジェクトの可能性をすべて実現するために必要な人材の雇用に苦労しています。企業はこのギャップに対応するために、マルチペルソナ・データサイエンス/機械学習(DSML)プラットフォームに注目し、「シチズン・データサイエンティスト」という役割を生み出しています。
マルチペルソナDSMLプラットフォームでは、自動化、セルフサービス・ポータル、ローコード/ノーコード・ユーザー・インターフェースが使用されるため、デジタル・テクノロジーまたは専門的なデータサイエンスの知識がない人でもデータサイエンスと機械学習を使用して、ビジネス価値を生み出すことができます。さらにより技術的なインターフェースも提供することで、データサイエンスの専門家もサポートできます。そのためこのプラットフォームを使用することで、全社的なコラボレーションが促進されます。
クラウド・コンピューティングは、追加の処理能力、ストレージ、データサイエンス・プロジェクトに必要な他のツールへのアクセスを提供することで、データサイエンスを拡張します。
データサイエンスでは大規模なデータ・セットが利用されることが多いため、特に時間的制約があるプロジェクトの場合、データのサイズに合わせて拡張できるツールが非常に重要です。データレイクなどのクラウド・ストレージ・ソリューションでは、大容量データの取り込みと処理を簡単に行えるストレージ・インフラストラクチャーを利用できます。これらのストレージ・システムでは、柔軟性が提供されるため、エンド・ユーザーは必要に応じて、大規模なクラスターをスピンアップできます。また、計算ノードを段階的に追加してデータ処理ジョブを迅速化できるため、大規模かつ長期的な成果を得るために、短期的な犠牲を許容する余地が生まれます。クラウド・プラットフォームには通常、利用当たりの料金やサブスクリプションなど、大企業から小規模なスタートアップ企業まであらゆるエンド・ユーザーのニーズに対応するさまざまな料金体系モデルがあります。
データサイエンスのツール・セットには、オープンソース・テクノロジーが広く使われており、クラウドでホストされている場合、チームはローカルでインストール、設定、保守、更新を行う必要がありません。IBM® Cloudなどのいくつかのクラウド・プロバイダーは、データサイエンティストがコーディングなしでモデルを構築可能な、事前にパッケージ化されたツールキットを提供することで、テクノロジーのイノベーションとデータの洞察を利用できる層を広げています。
企業はデータサイエンスから多くのメリットを引き出すことができます。 一般的なユースケースとしては、インテリジェントな自動化によるプロセスの最適化、顧客体験(CX)を向上させるためのターゲティングとパーソナライゼーションの強化などがあります。しかし、より具体的な例としては次のようなものがあります。
データサイエンスと人工知能の代表的なユースケースをいくつかご紹介します。
データサイエンスのツールとソリューションを使って、データ、アルゴリズム、機械学習、AI技術を活用してパターンを発見し、予測モデルを構築します。
より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。