データサイエンスとは
データサイエンスは、ビジネスのための洞察を引き出し、デジタル・トランスフォーメーション(DX)を加速し、データ主導の意思決定を可能にします。
データサイエンスのための自動化された開発機能
ラボでコンピューターを使用している科学者
データサイエンスとは

データサイエンスは、数学と統計、特殊プログラミング、高度な分析、人工知能(AI)、機械学習を、特定の対象分野の専門知識と組み合わせて、組織のデータに隠されている実用的な洞察を明らかにします。 こうした洞察は、意思決定と戦略計画策定の指針として利用できます。

データ・ソースとそれに伴って発生するデータの増加速度が速まっているため、データサイエンスは、あらゆる業界において最も急速に成長している分野の1つとなっています。 ビジネスの結果を向上させるためのデータの解釈と実用的な推奨の提供に関して、データサイエンティストに頼る企業や組織はますます増加しています。

データサイエンスのライフサイクルには、さまざまな役割、ツール、プロセスが伴います。アナリストはこれらを使用して、実用的な洞察を収集できます。 通常、データサイエンスのプロジェクトは、以下のような段階を経て進行していきます。

  • データの取り込み: さまざまな手法を使用して、関連性のあるすべてのソースから、未加工の構造化データと非構造化データの両方を収集します。 これらの手法には、手動での入力、Webスクレイピング、システムとデバイスから取得するリアルタイムのストリーミング・データが含まれます。 データ・ソースには、顧客データなどの構造化データと、ログ・ファイル、動画、音声、写真、IoT、ソーシャル・メディアなどの非構造化データが含まれます。
  • データ・ストレージとデータ処理: データにはさまざまな形式と構造があるため、取得する必要があるデータの種類に基づいて多様なストレージ・システムを検討しなければなりません。 データ管理チームは、データ・ストレージとデータ構造に関連する標準の設定を支援します。この段階には、データのクレンジング、重複排除、変換、結合が含まれます。 このようなデータ準備作業は、 データウェアハウス、 データレイク、などにデータをロードする前に、データの品質を向上させるために不可欠です。
  • データ分析: データサイエンティストはここで、予備的なデータ分析を実施し、データ内の値のバイアス、パターン、範囲、分布を調べます。 この予備的なデータ分析の結果により、A/Bテストで使用する仮説の生成が促されます。 また、データ・アナリストはこの予備的なデータ分析の結果により、予測分析、機械学習、ディープ・ラーニングのモデリング作業で使用するためにデータの関係性を判断できます。  
  • 報告: 最後に、洞察がレポートやその他の可視化されたデータとして提示されます。これらにより、ビジネス・アナリストとその他の意思決定者は、洞察とその洞察がビジネスに与える影響をより簡単に理解できるようになります。  
データサイエンスとデータサイエンティスト

データサイエンスは学術分野で、データサイエンティストはこの学術分野における実践者であると考えられています。 データサイエンティストは必ずしも、データサイエンスのライフサイクルに伴うすべてのプロセスに直接的な責任を負う必要はありません。 例えば、データ・パイプラインは通常、データ・エンジニアが処理します。しかし、データサイエンティストがどのような種類のデータが便利であるか、あるいは必要であるかについての推奨を作成する場合があります。 データサイエンティストは機械学習モデルを構築できる一方、こうした取り組みを大規模なレベルで拡張するために機械学習エンジニアと協力することは、データサイエンティストにとって珍しいことではありません。

データサイエンティストの責任は通常、特に予備的なデータ分析とデータ可視化に関して、データ・アナリストの責任と重複します。 ただし、データサイエンティストのスキルセットは通常、平均的なデータ・アナリストよりも広範囲に及びます。 例えば、データサイエンティストは、RやPythonなどの一般的なプログラミング言語を活用して、より多くの統計的推論とデータの可視化を行います。

データサイエンティストは以下ができる必要があります。

  • 関連する質問を行い、ビジネスの問題点を特定するために、ビジネスを十分に知ること。
  • ビジネス感覚とともに、統計とコンピューター・サイエンスをデータ分析に適用すること。
  • データの準備と抽出に幅広いツールと手法を使用すること。データベースとSQLからデータ・マイニングとデータ統合の手法まで、あらゆるツールと手法を使用します。
  • 予測分析と 人工知能(AI)を使用してビッグデータから洞察を抽出すること。 機械学習モデル、 自然言語処理、 ディープ・ラーニングが含まれます。
  • データ処理と計算を自動化するプログラムを作成すること。
  • 技術的な理解のレベルに関わらず、意思決定者と利害関係者に、結果の意味を明確に伝えるためのストーリーを話し、説明すること。
  • ビジネスの問題を解決するためにそれらの結果をどのように利用できるか、説明すること。
  • データ・アナリスト、ビジネス・アナリスト、ITアーキテクト、データ・エンジニア、アプリケーション開発者など、他のデータサイエンス・チームのメンバーとコラボレーションすること。
データサイエンスとビジネス・インテリジェンス

ビジネス・インテリジェンス(BI)は通常、データ準備、データ・マイニング、データ管理、データ可視化を実現するテクノロジーを示す包括的な用語です。 ビジネス・インテリジェンスのツールとプロセスを使用すると、エンド・ユーザーが生データから実用的な情報を識別できるようになり、さまざまな業界にわたって組織内でのデータ主導の意思決定が促進されます。

データサイエンス・ツールはこの点において、多くの部分がビジネス・インテリジェンスと重複しますが、ビジネス・インテリジェンスでは過去のデータにより重点を置いており、BIツールから得られる洞察は実際、より説明的なものになります。 BIは、行動の指針を示す前に起きたことを理解するためにデータを使用します。 また、通常は構造化データである、静的(不変の)データに適合しています。 データサイエンスは、説明的なデータを使用しながら、通常はそれらのデータを予測的な変数を判断するために活用します。これらの変数はその後、データの分類や予想の作成に使用されます。

データサイエンス・ツール

データサイエンティストは、予備的なデータ分析と統計的回帰を実施する際に、一般的なプログラミング言語を使用しています。 これらのオープンソース・ツールは、事前構築された統計モデリング、機械学習、グラフィックの各機能をサポートしています。 一般的なプログラミング言語には以下が挙げられます。

  • R Studio: 統計の計算とグラフィックを開発するためのオープンソースのプログラミング言語および環境です。
  • Python: 動的かつ柔軟なプログラミング言語です。 Pythonには、NumPy、Pandas、Matplotlibなど迅速なデータ分析用の多数のライブラリーが含まれています。

ユーザー・インターフェースを好むデータサイエンティストもいます。統計的分析向けの一般的なエンタープライズ・ツールとして次の2つがあります。

  • SAS: 可視化と対話式ダッシュボードなど、分析、レポート作成、データ・マイニング、予測モデリング向けの包括的なツール・スイートです。
  • IBM SPSS: 先進的な統計分析機能、大規模な機械学習アルゴリズムのライブラリー、テキスト分析、オープンソースの拡張性、ビッグデータとの統合、アプリケーションへのシームレスな導入機能を提供します。

データサイエンティストはまた、Apache Spark、オープンソース・フレームワークであるApache Hadoop、NoSQLデータベースなど、ビッグデータ処理のプラットフォームの使用に習熟しています。 さらに、データサイエンティストは、ビジネス用のプレゼンテーションと表計算のアプリケーションに付属するシンプルなグラフィックス・ツール、Tableau、IBM Cognosなどの専用の商業用可視化ツール、D3.js(対話式のデータ可視化作成用のJavaScriptライブラリー)とRAWGraphsのようなオープンソース・ツールなど、幅広いデータ視覚化ツールのスキルも持っています。 機械学習モデルを構築する場合、データサイエンティストは高い頻度で、PyTorch、TensorFlow、MXNet、Spark MLibなど、複数のフレームワークを利用します。

データサイエンスの学習曲線が急こう配であるため、多くの企業はAIプロジェクトへの投資から利益を得るまでの時間を短縮することを求めています。こうした企業はしばしば、データサイエンス・プロジェクトの可能性をすべて実現するために必要な人材の雇用に苦労しています。 企業はこのギャップに対応するために、マルチペルソナ・データサイエンス/機械学習(DSML)プラットフォームに目を向けています。

マルチペルソナDSMLプラットフォームでは、自動化、セルフサービス・ポータル、ローコード/ノーコード・ユーザー・インターフェースが使用されるため、デジタル・テクノロジーまたは専門的なデータサイエンスの知識がない、あるいは、ほとんどない人が、データサイエンスと機械学習を使用して、ビジネス価値を作り出すことができます。 これらのプラットフォームではまた、より技術的なインターフェースも提供することで、データサイエンスの専門家もサポートします。 マルチペルソナDSMLプラットフォームを使用することで、全社的なコラボレーションが促進されます。

データサイエンスとクラウド・コンピューティング

クラウド・コンピューティングは、追加の処理能力、ストレージ、データサイエンス・プロジェクトに必要なその他のツールを利用できるようにすることで、データサイエンスを拡張します。

データサイエンスではしばしば大規模なデータ・セットを活用するため、特に時間的制約があるプロジェクトの場合、データのサイズに対応できるツールが非常に重要です。 データレイクなどのクラウド・ストレージ・ソリューションでは、簡単に大容量データの取り込みと処理を行えるストレージ・インフラストラクチャーを利用できます。 これらのストレージ・システムでは、柔軟性が提供されるため、エンド・ユーザーは必要に応じて、大規模なクラスターをスピンアップできます。 また、増分計算ノードを追加して、データ処理ジョブを迅速化できるため、企業は大規模かつ長期的な成果について、短期間のトレードオフを作成できます。 クラウド・プラットフォームには通常、利用当たりの料金やサブスクリプションなど、大企業であるか小規模なスタートアップ企業であるかに関わらず、エンド・ユーザーのニーズに対応するためにさまざまな料金体系モデルがあります。

データサイエンスのツール・セットには、オープンソース・テクノロジーが広く使われています。 それらのツール・セットがクラウドでホストされている場合、チームはローカルでインストール、設定、保守、更新を行う必要がありません。 IBM Cloud®などのいくつかのクラウド・プロバイダーはまた、データサイエンティストがコーディングなしでモデルを構築できるようにする、事前にパッケージ化されたツールキットを提供し、テクノロジーのイノベーションとデータの洞察をさらに多くの人々が利用できるようにしています。

関連ソリューション
ModelOps

DevOpsとModelOpsを同期します。 ご使用のクラウドネイティブ・アプリケーションを使用して、事実上あらゆるクラウド上でAIモデルを構築し拡張できます。

ModelOpsの詳細はこちら
説明可能なAI

AIの解釈可能性を向上させ、 リスクの評価と低減を行い、 信用と信頼性のあるAIを導入できます。

説明可能なAIの詳細はこちら
AutoAI

高品質の予測モデルを迅速に構築してトレーニングします。 AIライフサイクル管理を簡素化します。

AutoAIの詳細はこちら
参考情報 Autostrade per l'Italia社

Autostrade per l’Italia社は、広範囲に及ぶ自社のインフラストラクチャー資産の監視と保守の方法を向上させる目的で、完全なデジタル・トランスフォーメーションのために複数のIBMソリューションを実装しました。

MANA Community

MANA CommunityはIBM Garageと協力し、複数のデジタル・チャネルと数千のソースから大量の環境データを取り出すためのAIプラットフォームを構築しました。

次のステップ

IBMのデータサイエンスとAIライフサイクルの製品ポートフォリオは、オープンソース・テクノロジーに対するIBMの長年のコミットメントに基づいて構築されており、企業がデータの価値を新たな方法で引き出すことを可能にするさまざまな機能を備えています。 IBM Watson® Studioの新しい強力な自動化された開発機能であるAutoAIは、データサイエンスのライフサイクルにおけるデータ準備、モデル開発、機能エンジニアリングの各段階を高速化します。 これにより、データサイエンティストはより効率的に作業を進めることができ、実際のユースケースで、どのモデルが最もパフォーマンスを発揮するかについて、より良い情報に基づいた判断を下すことができます。 AutoAIは、あらゆるクラウド環境におけるエンタープライズ・データサイエンスを簡素化します。

IBM Watson® Studioを試す