データサイエンスとは？

データサイエンスとは？

データサイエンスとは、専門知識に、数学と統計、特殊プログラミング、高度な分析、人工知能（AI）、機械学習を組み合わせて、データに隠されている実用的な洞察を明らかにする分野です。得られた洞察は、意思決定と戦略計画策定の指針として活用できます。

データ・ソース量が増大し、それに伴いデータ量も加速度的に増大しているため、データサイエンスは、あらゆる業界において最も急速に成長している分野の1つとなっています。そのため、データサイエンティストがHarvard Business Reviewで「21世紀で最もセクシーな職業」と呼ばれたのも不思議ではありません。ビジネスの結果を向上させるためのデータの解釈と実用的な推奨の提供に関して、データサイエンティストに頼る企業や組織はますます増加しています。

データサイエンスのライフサイクルには、さまざまな役割、ツール、プロセスが伴います。アナリストはこれらを使用して、実用的な洞察を収集できます。通常、データサイエンス・プロジェクトは、以下の段階を経て進行していきます。

データ取り込み：さまざまな手法を使用して、関連性のあるすべてのソースから、未加工の構造化データと非構造化データの両方を収集することがライフサイクルの第一段階です。例えば、手動入力、Webスクレイピング、リアルタイムのストリーミング・データをシステムとデバイスから取得するなどの手法が考えられます。データ・ソースには、顧客データなどの構造化データと、ログ・ファイル、動画、音声、写真、モノのインターネット（IoT）、ソーシャル・メディアなどの非構造化データが含まれます。

データ・ストレージとデータ処理：データにはさまざまな形式と構造があるため、取得する必要があるデータの種類に基づいて多様なストレージ・システムを検討しなければなりません。データ管理チームは、データ・ストレージと構造に関連する標準の設定を支援します。これらの標準により、分析、機械学習、ディープラーニングのモデルに関するワークフローが円滑化されます。この段階には、ETL（抽出、変換、ロード）ジョブまたはその他のデータ統合技術を使用したデータのクレンジング、重複排除、変換、およびデータの結合が含まれます。このようなデータ準備作業は、データウェアハウス、データレイク、またはその他のリポジトリーにデータをロードする前に、データ品質を向上させるために不可欠です。

データ分析：データサイエンティストはここで、予備的なデータ分析を実施し、データ内の値のバイアス、パターン、範囲、分布を調べます。この予備的なデータ分析の結果により、A/Bテストで使用する仮説の生成が促されます。この結果をデータ・アナリストは、予測分析、機械学習、ディープラーニングのモデリング作業で使用するためにデータとの関係性を判断できます。モデルの正確性によっては、組織はビジネス上の意思決定においてこれらの洞察に依存するようになり、より拡張性を高めることができます。

報告：最後に、洞察がレポートなどの可視化データとして提示されます。ビジネス・アナリストをはじめとする意思決定者はこれらのデータを利用して、洞察とビジネスに与える洞察の影響を読み解きます。RやPythonなどのデータサイエンス・プログラミング言語には、可視化を生成するためのコンポーネントが含まれています。あるいは、データサイエンティストは専用の可視化ツールを使用することもできます。

データサイエンティストの任務

データサイエンティストは、データから業種・業務固有の洞察と問題の解決策を抽出する専門家です。典型的なビジネス・アナリストやデータ・アナリストのスキルに加え、コンピューターサイエンスと純粋な科学的スキルを有し、自分が担当している特定の業種・業務や事業分野（自動車、製造、eコマース、ヘルスケアなど）を熟知しています。

データサイエンティストには次の能力が求められます。

適切な質問をして、ビジネスの問題点を特定できるだけのビジネスに関する知識を有する。
統計とコンピューターサイエンスのスキルをビジネス感覚とともにデータ分析に適用する。
データの準備と抽出のために、データベースとSQL、データ・マイニング、データ統合の手法まで、あらゆるツールと手法を使用する。
予測分析、および人工知能（AI）（機械学習モデル、自然言語処理、ディープラーニングを含む）を使用してビッグデータから洞察を抽出する。
データ処理と計算を自動化するプログラムとアルゴリズムを作成する。
技術的な理解度が多岐にわたる意思決定者と利害関係者に対して、結果の意味を明確に伝えるストーリーを伝え、説明する。
ビジネスの問題を解決するために結果をどのように利用できるかを説明する。
データ・アナリスト、ビジネス・アナリスト、ITアーキテクト、データ・エンジニア、アプリケーション開発者など、他のデータサイエンス・チームのメンバーと協力する。

このようなスキルは需要が高いため、データサイエンスのキャリアに踏み出そうとしている多くの人が、教育機関が提供する認定プログラム、データサイエンス・コース、学位プログラムなど、さまざまなデータサイエンス・プログラムの受講を検討しています。

データサイエンティストは必ずしも、データサイエンスのライフサイクルにかかわるすべてのプロセスに対して直接責任を負うわけではありません。例えば、データ・パイプラインは通常、データ・エンジニアによって処理されます。ただし、どのような種類のデータが有用または必要であるかについてはデータサイエンティストが提案する場合があります。データサイエンティストは機械学習モデルを構築できますが、こうした取り組みを大規模なレベルで拡張するには、プログラムを最適化してより迅速に実行できるようにするためのソフトウェア・エンジニアリング・スキルも求められます。そのため、データサイエンティストが機械学習エンジニアと協力して機械学習モデルを拡張するのは珍しいことではありません。

データサイエンティストの責任は通常、特に予備的なデータ分析とデータの可視化に関して、データ・アナリストの責任と重複します。ただし、データサイエンティストのスキルセットは通常、平均的なデータ・アナリストよりも広範囲に及びます。比較すると、データサイエンティストは、RやPythonなどの一般的なプログラミング言語を活用して、より多くの統計的推論とデータの可視化を行います。

ebook「AIの価値は、データで決まる。」

このガイドでは、高品質なデータの本質と、データ品質を阻む課題を明らかに。さらに、AIユースケースに対応するためのデータ管理・準備のフレームワークと実践的な視点を提示します。〜IBMは、データとAIのあらゆる段階で最適なテクノロジーと専門知識を提供します。

データサイエンスとビジネス・インテリジェンス

「データサイエンス」と「ビジネス・インテリジェンス」（BI）という用語はどちらも組織のデータとそのデータの分析に関連しているため、混同しやすいかもしれませんが、その焦点は異なります。

ビジネス・インテリジェンス（BI）は通常、データ準備、データ・マイニング、データ管理、データの可視化を実現するテクノロジーを示す包括的な用語です。ビジネス・インテリジェンスのツールとプロセスを使用すると、エンド・ユーザーが生データから実用的な情報を識別できるようになり、さまざまな業界の組織内でのデータ主導の意思決定が促進されます。データサイエンス・ツールはこの点において、多くの部分がビジネス・インテリジェンスと重複しますが、ビジネス・インテリジェンスでは過去のデータにより重点を置いており、BIツールから得られる洞察は実際、より説明的なものになります。BIは、データを使用して、行動の指針を示す前に起きたことを理解します。また、通常は構造化データである、静的（不変の）データに適合しています。データサイエンスは、説明的なデータを使用しながら、通常はそれらのデータを予測的な変数を判断するために活用します。これらの変数はその後、データの分類や予想の作成に使用されます。

データサイエンスとBIは相反するものではありません。デジタルに精通した組織は、データを完全に理解し、そこから価値を引き出すために両方を使用します。

データサイエンス・ツール

データサイエンティストは、予備的なデータ分析と統計的回帰を実施する際に、一般的なプログラミング言語を使用します。これらのオープンソース・ツールは、事前構築された統計モデリング、機械学習、グラフィックの各機能をサポートしています。一般的なプログラミング言語には以下が挙げられます（詳細は、「PythonとRの違い」を参照してください）。

R Studio：統計の計算とグラフィックを開発するためのオープンソースのプログラミング言語および環境です。
Python：動的かつ柔軟なプログラミング言語です。Pythonには、NumPy、Pandas、Matplotlibなど迅速なデータ分析用の多数のライブラリーが含まれています。

コードやその他の情報を共有しやすくするために、データサイエンティストはGitHubやJupyter Notebookを使用する場合があります。

ユーザー・インターフェースを好むデータサイエンティストもいます。統計的分析向けの一般的なエンタープライズ・ツールとして次の2つがあります。

SAS：可視化と対話式ダッシュボードなど、分析、レポート作成、データ・マイニング、予測モデリング向けの包括的なツール・スイートです。
IBM SPSS：先進的な統計分析機能、大規模な機械学習アルゴリズムのライブラリー、テキスト分析、オープンソースの拡張性、ビッグデータとの統合、アプリケーションへのシームレスな導入機能を提供します。

データサイエンティストはまた、Apache Spark、オープンソース・フレームワークであるApache Hadoop、NoSQLデータベースなど、ビッグデータ処理プラットフォームの使用にも習熟しています。さらに、ビジネス用のプレゼンテーションやスプレッドシート・アプリケーション（Microsoft Excelなど）に付属するシンプルなグラフィックス・ツール、Tableau、IBM Cognosなどの専用の商業用可視化ツール、D3.js（対話式のデータの可視化作成用のJavaScriptライブラリー）、RAWGraphsのようなオープンソース・ツールなど、幅広いデータ視覚化ツールのスキルも持っています。機械学習モデルを構築する場合、データサイエンティストは高い頻度で、PyTorch、TensorFlow、MXNet、Spark MLibなど、複数のフレームワークを利用します。

データサイエンスの学習曲線が急勾配であるため、多くの企業はAIプロジェクトへの投資から利益を得るまでの時間を短縮することを求めています。こうした企業はしばしば、データサイエンス・プロジェクトの可能性をすべて実現するために必要な人材の雇用に苦労しています。企業はこのギャップに対応するために、マルチペルソナ・データサイエンス/機械学習（DSML）プラットフォームに注目し、「シチズン・データサイエンティスト」という役割を生み出しています。

マルチペルソナDSMLプラットフォームでは、自動化、セルフサービス・ポータル、ローコード/ノーコード・ユーザー・インターフェースが使用されるため、デジタル・テクノロジーまたは専門的なデータサイエンスの知識がない人でもデータサイエンスと機械学習を使用して、ビジネス価値を生み出すことができます。さらにより技術的なインターフェースも提供することで、データサイエンスの専門家もサポートできます。そのためこのプラットフォームを使用することで、全社的なコラボレーションが促進されます。

データサイエンスとクラウド・コンピューティング

クラウド・コンピューティングは、追加の処理能力、ストレージ、データサイエンス・プロジェクトに必要な他のツールへのアクセスを提供することで、データサイエンスを拡張します。

データサイエンスでは大規模なデータ・セットが利用されることが多いため、特に時間的制約があるプロジェクトの場合、データのサイズに合わせて拡張できるツールが非常に重要です。データレイクなどのクラウド・ストレージ・ソリューションでは、大容量データの取り込みと処理を簡単に行えるストレージ・インフラストラクチャーを利用できます。これらのストレージ・システムでは、柔軟性が提供されるため、エンド・ユーザーは必要に応じて、大規模なクラスターをスピンアップできます。また、計算ノードを段階的に追加してデータ処理ジョブを迅速化できるため、大規模かつ長期的な成果を得るために、短期的な犠牲を許容する余地が生まれます。クラウド・プラットフォームには通常、利用当たりの料金やサブスクリプションなど、大企業から小規模なスタートアップ企業まであらゆるエンド・ユーザーのニーズに対応するさまざまな料金体系モデルがあります。

データサイエンスのツール・セットには、オープンソース・テクノロジーが広く使われており、クラウドでホストされている場合、チームはローカルでインストール、設定、保守、更新を行う必要がありません。IBM® Cloudなどのいくつかのクラウド・プロバイダーは、データサイエンティストがコーディングなしでモデルを構築可能な、事前にパッケージ化されたツールキットを提供することで、テクノロジーのイノベーションとデータの洞察を利用できる層を広げています。

データサイエンスのユースケース

企業はデータサイエンスから多くのメリットを引き出すことができます。一般的なユースケースとしては、インテリジェントな自動化によるプロセスの最適化、顧客体験（CX）を向上させるためのターゲティングとパーソナライゼーションの強化などがあります。しかし、より具体的な例としては次のようなものがあります。

データサイエンスと人工知能の代表的なユースケースをいくつかご紹介します。

ある国際的な銀行は、機械学習を活用した信用リスク・モデルと、強力かつ安全なハイブリッドクラウド・コンピューティング・アーキテクチャーを使用したモバイル・アプリケーションによって、より迅速な融資サービスを提供しています。
あるエレクトロニクス企業は、未来の無人運転車に導く超強力な3Dプリント・センサーを開発しています。このソリューションは、データサイエンスと分析ツールを利用して、リアルタイムの物体検出機能を強化しています。
あるロボティック・プロセス・オートメーション（RPA）ソリューション・プロバイダーは、コグニティブ・ビジネス・プロセス・マイニング・ソリューションを開発し、顧客企業のインシデント処理時間を15％～95％短縮しました。このソリューションは、顧客からのEメールの内容と語調を理解するよう訓練されており、サービス・チームに最も関連性と緊急性の高いEメールを優先するよう指示します。
あるデジタル・メディア・テクノロジー企業は、視聴者分析プラットフォームを構築しました。これにより、デジタル・チャネルの範囲が拡大する中で、テレビ視聴者が何に興味を持っているのかを顧客企業が把握できるようにしました。このソリューションは、視聴者の行動に関するリアルタイムの洞察を収集するために、詳細な分析と機械学習を採用しています。
ある都市部の警察は統計的な事件分析ツールを作成しました。これにより、警察官は犯罪を防止するために、いつ、どこにリソースを投入すべきかを理解できるようになりました。このデータ主導型ソリューションにより、現場警察官の状況認識を強化するレポートとダッシュボードが作成されます。
Shanghai Changjiang Science and Technology Development社は、IBM® Watsonテクノロジーを使用して、AIを搭載した医療評価プラットフォームを構築しました。このプラットフォームは、既存の医療記録を分析して、脳卒中の発生リスクに基づいて患者を分類し、さまざまな治療計画の成功率を予測することができます。