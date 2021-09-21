近年データ・ソースとそれに伴って発生するデータの増加速度が速まっているため、データサイエンスは、あらゆる業界において最も急速に成長している分野の1つとなっています。そのため、データサイエンティストがHarvard Business Reviewで「21世紀で最もセクシーな職業」と呼ばれたのも不思議ではありません。ビジネスの結果を向上させるためのデータの解釈と実用的な推奨の提供に関して、データサイエンティストに頼る企業や組織はますます増加しています。
データサイエンスのライフサイクルには、さまざまな役割、ツール、プロセスが伴います。アナリストはこれらを使用して、実用的な洞察を収集できます。 通常、データサイエンス・プロジェクトは、以下の段階を経て進行していきます。
データサイエンスは学術分野で、データサイエンティストはこの学術分野における実践者であると考えられています。 データサイエンティストは必ずしも、データサイエンスのライフサイクルに伴うすべてのプロセスに直接的な責任を負うわけではありません。例えば、データ・パイプラインは通常、データ・エンジニアが処理します。しかし、データサイエンティストがどのような種類のデータが便利であるか、あるいは必要であるかについて提案する場合があります。データサイエンティストは機械学習モデルを構築できる一方、こうした取り組みを大規模なレベルで拡張するには、プログラムを最適化してより迅速に実行できるようにするためのソフトウェア・エンジニアリング・スキルがさらに求められます。 そのため、データサイエンティストが機械学習エンジニアと協力して機械学習モデルを拡張するのは珍しいことではありません。
データサイエンティストの責任は通常、特に予備的なデータ分析とデータの可視化に関して、データ・アナリストの責任と重複します。ただし、データサイエンティストのスキルセットは通常、平均的なデータ・アナリストよりも広範囲に及びます。比較すると、データサイエンティストは、RやPythonなどの一般的なプログラミング言語を活用して、より多くの統計的推論とデータの可視化を行います。
これらのタスクを実行するために、データサイエンティストは、一般的なビジネス・アナリストやデータ・アナリスト以上のコンピューター・サイエンスと純粋な科学のスキルを必要とします。 データサイエンティストは、自動車製造、eコマース、ヘルスケアなど、ビジネスの詳細も理解する必要があります。
つまり、データサイエンティストは次のことができる必要があります。
このようなスキルは需要が高いため、データサイエンスのキャリアに踏み出そうとしている多くの人が、教育機関が提供する認定プログラム、データサイエンス・コース、学位プログラムなど、さまざまなデータサイエンス・プログラムの受講を検討しています。
「データサイエンス」と「ビジネス・インテリジェンス」（BI）という用語はどちらも組織のデータとそのデータの分析に関連しているため、混同しやすいかもしれませんが、その焦点は異なります。
ビジネス・インテリジェンス（BI）は通常、データ準備、データ・マイニング、データ管理、データの可視化を実現するテクノロジーを示す包括的な用語です。ビジネス・インテリジェンスのツールとプロセスを使用すると、エンド・ユーザーが生データから実用的な情報を識別できるようになり、さまざまな業界の組織内でのデータ主導の意思決定が促進されます。データサイエンス・ツールはこの点において、多くの部分がビジネス・インテリジェンスと重複しますが、ビジネス・インテリジェンスでは過去のデータにより重点を置いており、BIツールから得られる洞察は実際、より説明的なものになります。BIは、データを使用して、行動の指針を示す前に起きたことを理解します。また、通常は構造化データである、静的（不変の）データに適合しています。データサイエンスは、説明的なデータを使用しながら、通常はそれらのデータを予測的な変数を判断するために活用します。これらの変数はその後、データの分類や予想の作成に使用されます。
データサイエンスとBIは相反するものではありません。デジタルに精通した組織は、データを完全に理解し、そこから価値を引き出すために両方を使用します。
データサイエンティストは、予備的なデータ分析と統計的回帰を実施する際に、一般的なプログラミング言語を使用します。これらのオープンソース・ツールは、事前構築された統計モデリング、機械学習、グラフィックの各機能をサポートしています。一般的なプログラミング言語には以下が挙げられます（「Python vs. R: What's the Difference? 」をご覧ください）。
コードやその他の情報を共有しやすくするために、データサイエンティストはGitHubやJupyter Notebookを使用する場合があります。
ユーザー・インターフェースを好むデータサイエンティストもいます。統計的分析向けの一般的なエンタープライズ・ツールとして次の2つがあります。
データサイエンティストはまた、Apache Spark、オープンソース・フレームワークであるApache Hadoop、NoSQLデータベースなど、ビッグデータ処理プラットフォームの使用にも習熟しています。さらに、ビジネス用のプレゼンテーションやスプレッドシート・アプリケーション（Microsoft Excelなど）に付属するシンプルなグラフィックス・ツール、Tableau、IBM Cognosなどの専用の商業用可視化ツール、D3.js（対話式のデータの可視化作成用のJavaScriptライブラリー）、RAWGraphsのようなオープンソース・ツールなど、幅広いデータ視覚化ツールのスキルも持っています。機械学習モデルを構築する場合、データサイエンティストは高い頻度で、PyTorch、TensorFlow、MXNet、Spark MLibなど、複数のフレームワークを利用します。
データサイエンスの学習曲線が急勾配であるため、多くの企業はAIプロジェクトへの投資から利益を得るまでの時間を短縮することを求めています。こうした企業はしばしば、データサイエンス・プロジェクトの可能性をすべて実現するために必要な人材の雇用に苦労しています。企業はこのギャップに対応するために、マルチペルソナ・データサイエンス/機械学習（DSML）プラットフォームに注目し、「シチズン・データサイエンティスト」という役割を生み出しています。
マルチペルソナDSMLプラットフォームでは、自動化、セルフサービス・ポータル、ローコード/ノーコード・ユーザー・インターフェースが使用されるため、デジタル・テクノロジーまたは専門的なデータサイエンスの知識がない人でもデータサイエンスと機械学習を使用して、ビジネス価値を生み出すことができます。さらにより技術的なインターフェースも提供することで、データサイエンスの専門家もサポートできます。そのためこのプラットフォームを使用することで、全社的なコラボレーションが促進されます。
クラウド・コンピューティングは、追加の処理能力、ストレージ、データサイエンス・プロジェクトに必要なその他のツールを利用できるようにすることで、データサイエンスを拡張します。
データサイエンスではしばしば大規模なデータ・セットを活用するため、特に時間的制約があるプロジェクトの場合、データのサイズに合わせて拡張できるツールが非常に重要です。データレイクなどのクラウド・ストレージ・ソリューションでは、簡単に大容量データの取り込みと処理を行えるストレージ・インフラストラクチャーを利用できます。これらのストレージ・システムでは、柔軟性が提供されるため、エンド・ユーザーは必要に応じて、大規模なクラスターをスピンアップできます。また、増分計算ノードを追加して、データ処理ジョブを迅速化できるため、企業は大規模かつ長期的な成果を得るために短期的なトレードオフを行うことができます。クラウド・プラットフォームには通常、利用当たりの料金やサブスクリプションなど、大企業であるか小規模なスタートアップ企業であるかに関わらず、エンド・ユーザーのニーズに対応するためにさまざまな料金体系モデルがあります。
データサイエンスのツール・セットには、オープンソース・テクノロジーが広く使われています。それらのツール・セットがクラウドでホストされている場合、チームはローカルでインストール、設定、保守、更新を行う必要がありません。IBM® Cloudなどのいくつかのクラウド・プロバイダーはまた、データサイエンティストがコーディングなしでモデルを構築できるようにする、事前にパッケージ化されたツールキットを提供し、テクノロジーのイノベーションとデータの洞察をさらに多くの人々が利用できるようにしています。
AI開発者向けの次世代スタジオで、基盤モデルを実験し、機械学習モデルを自動的に構築します。
AIモデルを構築、実行、管理するための統合開発環境です。機械学習モデルを開発するための環境とツールをクラウド環境で提供します。
「説明可能なAI」は「責任あるAI」の実装における重要な要件の1つであり、機械学習アルゴリズムが生成した結果とアウトプットに基づいた解釈によって、AIリスクの評価と軽減を行います。
高品質な予測モデルを迅速に構築、トレーニングすることでAIライフサイクル管理を簡素化します。
オープンなデータレイクハウス・アーキテクチャー上に構築された、目的に合ったデータ・ストアであるIBM watsonx.dataを使用すれば、あらゆるデータのAIワークロードをどこにでも拡張できます。