データサイエンスと機械学習の違いとは

若いアジア人女性の後ろ姿、データサイエンティストが自宅のリモートワークでビッグデータ・マイニングのプログラム・コーディングとAIデータ・エンジニアリングに取り組み、IT技術者が人工知能プロジェクトに取り組んでいる。

データサイエンスと機械学習は関連していますが、非常に異なる分野です。一言で言えば、データサイエンスはビッグデータに構造をもたらす取り組みであり、機械学習はデータ自体からの学習に焦点を当てています。この記事では、各分野のニュアンスについて詳しく説明します。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

データサイエンスとは？

データサイエンスは、今日の膨大なデータ・セットから価値を引き出す、広範で学際的な分野です。高度なツールを使用して、未加工データを調べ、データセットを収集し、処理し、意味を生み出す洞察を導き出します。データサイエンスの分野を構成する分野には、マイニング、統計、データ分析、データ・モデリング、機械学習モデリング、プログラミングなどがあります。

最終的には、データサイエンスは、機械学習技術と統計分析が解決するのに役立つ新しいビジネス上の課題の定義に使用されます。データサイエンスは、問題を理解し、必要なデータを把握し、データを分析して現実の問題の解決に役立てることで、ビジネスの問題を解決します。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

機械学習とは

機械学習（ML）は、データサイエンスから得られる情報から学習することに重点を置いた人工知能（AI）のサブセットです。まず、非構造化ビッグデータをクリーニング、準備、分析するためのデータサイエンス・ツールが必要です。機械学習はデータから「学習」し、性能の向上や予測に役立つ洞察を生み出すことができます。

人間は単に指示に従うのではなく、経験を通じて学習できるのと同じように、機械もデータ分析にツールを適用することで学習できます。機械学習は、ツールと手法を使用して既知の問題に取り組み、人間の介入を最小限に抑えながら、機械が経験を通じてデータから学習できるようにするアルゴリズムを作成します。人間が生涯をかけても処理できない膨大な量のデータを処理し、処理されるデータが増えるにつれて進化します。

データサイエンスの課題

ほとんどの企業では、分析用の適切なデータの検索、クリーニング、準備に、データサイエンティストが1日の最大80%を費やす場合があります。面倒な作業かもしれませんが、正しく行うことが非常に重要です。

さまざまなソースからのデータはさまざまな形式で収集され、データの入力と編集が必要になります。現在、さまざまなソースからのデータを保管できる一元化されたプラットフォームを備えた仮想データウェアハウスを使用することで、より簡単に作業を進めることができます。

データサイエンスを適用する際の課題の1つは、関連するビジネス上の問題を特定することです。たとえば、問題は収益の減少に関連していますか、それとも生産のボトルネックに関連しているでしょうか。存在するものの、それを検知するのが困難なパターンをお探しですか？その他の課題には、非技術的な利害関係者への成果の伝達、データ・セキュリティーの確保、データサイエンティストとデータエンジニアの間の効率的なコラボレーションの可能性、適切なKPIメトリクスの決定などが含まれます。

データサイエンスの進化の経緯

ソーシャル・メディア、eコマース・サイト、インターネット検索、顧客調査などからのデータが増加するにつれて、ビッグデータに基づく新しい研究分野が登場しました。これらの膨大なデータセットは増加し続けており、組織は購買パターンや行動を監視し、予測を行うことができます。

ただし、データセットは非構造化されているため、意思決定のためにデータを解釈するのは複雑で時間がかかる場合があります。ここでデータサイエンスの出番です。

データサイエンスという用語は、1960年代に初めて使用され、当時は「コンピューター・サイエンス」というフレーズと置き換え可能でした。「データサイエンス」は2001年に初めて独立した分野として使用されました。データサイエンスと機械学習は、データエンジニアをはじめとするほぼすべての業種・業務で使用されています。

これらの分野は進化しており、データを表示、管理、アクセスするデータ・アナリストとして働くには、構造化クエリ言語（SQL）のほか、数学、統計、データの可視化（成果を利害関係者に提示するため）、データ・マイニングの知識も必要になっています。データのクリーニングと処理手法を理解することも必要です。データ・アナリストは多くの場合機械学習モデルを構築するため、プログラミングとAIの知識も貴重です。また、数学、統計、データの可視化（利害関係者に成果を提示するため）、データ・マイニングなども含まれています。データのクリーニングと処理手法を理解することも必要です。データ・アナリストは多くの場合機械学習モデルを構築するため、プログラミングとAIの知識も貴重です。

データサイエンスのユースケース

データサイエンスは、業種・業務や官公庁・自治体で広く使用されており、利益の促進、製品やサービスの革新、インフラストラクチャーや公共システムの改善などに役立ちます。

データサイエンスのユースケースには次のようなものがあります。

ある国際的な銀行は、MLを活用した信用リスク・モデルを使用して、モバイル・アプリケーション経由でより迅速に融資を行います。
あるメーカーは、無人運転車を誘導する高性能な3Dプリントされたセンサーを開発しました。
警察の統計的な事件分析ツールは、最も効率的な犯罪防止のためにいつ、どこに警察官を配備するかを決定するのに役立ちます。
AIベースのアセスメント・プラットフォームは、医療記録を分析して、患者の脳卒中リスクを判断し、治療計画の成功率を予測します。
医療企業は乳がん予測などの目的でデータサイエンスを利用しています。
ある配車サービス会社は、ビッグデータの分析を使用して需要と供給を予測し、最も人気のある場所に運転手をリアルタイムで配置できるようにしています。同社は、予測、グローバル・インテリジェンス、マッピング、料金体系、その他のビジネス上の意思決定にもデータサイエンスを使用しています。
eコマースの複合企業は、推奨エンジンで予測分析を使用しています。
あるオンライン・ホスピタリティー企業は、データサイエンスを使用して、採用慣行におけるダイバーシティーを確保し、検索機能の向上、ホストの好みの決定など、有意義な洞察を行っています。同社はデータをオープンソース化し、データ駆動型の洞察を活用できるように従業員をトレーニングし、支援しています。
ある大手オンライン・メディア会社は、データサイエンスを利用してパーソナライズされたコンテンツの開発、ターゲットを絞った広告によるマーケティングの強化、音楽ストリームの継続的な更新など、オートメーションに関する決定を行っています。

機械学習の進化

機械学習の始まりと名前自体は、1950年代に生まれました。1950年、データサイエンティストのAlan Turing氏は、現在ではチューリング・テストと呼ばれているものを提案しました。これは、「機械は思考できるか？」という疑問を検証するものでした。ここでのテストは、機械であることを人間に気付かれずに、機械が会話に参加できるかどうかです。より広いレベルでは、機械が人間的な知能を発揮できるかどうかが問われます。これがAIの理論と開発につながりました。

IBMのコンピューター科学者Arthur Samuelは、1952年に「機械学習」というフレーズを作り出しました。彼は同年、チェッカーをプレイするプログラムを書きました。1962年、一人のチェッカー・マスターがIBM 7094コンピューター上の機械学習プログラムと対戦し、コンピューターが勝利しました。

今日、機械学習は、エンジニアが応用数学、コンピューター・プログラミング、統計的手法、確率概念、データ構造などのコンピューター・サイエンスの基礎、HadoopやHiveなどのビッグデータ・ツールのことを知っておく必要があるまでに進化しました。プログラムはR、Java、SAS、その他のプログラミング言語で記述されているため、SQLの知識は不要です。Pythonは、機械学習で最も一般的なプログラミング言語です。

機械学習とディープラーニングはどちらもAIのサブセットです。ディープラーニングは、人間の脳と同じ方法でデータを処理するようにコンピューターを教育します。テキスト、画像、音声、その他のデータの複雑なパターンを認識し、正確な洞察と予測を作成することができます。ディープラーニングのアルゴリズムは、人間の脳をモデルにしたニューラル・ネットワークです。

機械学習のサブカテゴリー

最も一般的に使用される機械学習アルゴリズムには、線形回帰、ロジスティック回帰、決定木、サポート・ベクター・マシン（SVM）アルゴリズム、ナイーブ・ベイズ・アルゴリズム、 KNN アルゴリズムなどがあります。教師あり学習、教師なし学習、強化学習があります。

機械学習エンジニアは、自然言語処理やコンピューター・ビジョンに特化した場合もあれば、機械学習に特化したソフトウェア・エンジニアになることもできます。

機械学習の課題

機械学習に関しては、プライバシーやデータの使用方法など、倫理的な懸念があります。非構造化データは、ユーザーの知らないうちに、または同意なしにソーシャル・メディア・サイトから収集されます。ライセンス契約にはデータの使用方法が記載されている場合がありますが、多くのソーシャル・メディア・ユーザーはその概要を読んでいません。

もう1つの問題は、機械学習アルゴリズムがどのように機能し、「意思決定」を行うかを常に把握していないということです。その解決策の1つとして、機械学習プログラムをオープンソースとしてリリースし、人々がソースコードを確認できるようにすることが挙げられます。

一部の機械学習モデルでは、偏ったデータを含むデータセットを使用しており、それが機械学習の結果に影響を及ぼします。機械学習における説明責任とは、人がアルゴリズムをどの程度確認して修正できるか、また結果に問題が発生した場合に誰が責任を負うかを指します。

AIや機械学習によって仕事がなくなると懸念している人もいます。機械学習によって利用可能な仕事の種類が変わる可能性がありますが、機械学習により、新しく異なる職務がもたらされることが期待されています。多くの場合、日常的な反復作業を処理することで、人間はより創造性が必要で、より大きな影響を与える仕事に移行できます。

機械学習のユースケース

機械学習を使用している有名な企業には、ソーシャル・メディア・プラットフォームなどがあります。ソーシャル・メディア・プラットフォームは、大量のデータを収集し、その人の過去の行動を利用して、その興味や願望を予測します。プラットフォームは、その情報と予測モデリングを使用して、関連する製品、サービス、または記事を推奨します。

オンデマンドの動画サブスクリプション企業とその推奨エンジンは、自動運転車の急速な開発と同様に、機械学習の使用例です。機械学習を使用している他の企業には、テクノロジー企業、クラウド・コンピューティング・プラットフォーム、運動器具・備品・設備製造会社、電気自動車メーカー、宇宙航空企業などがあります。

データサイエンス、機械学習、IBM

データサイエンスの実践には課題が伴います。断片化されたデータや、データサイエンス・スキルの不足、トレーニングとデプロイメントのための厳格なIT基準を備えたツール、プラクティス、フレームワークなどがあります。また、不明確な精度や予測を持ち、監査が困難なMLモデルを運用化することも困難な場合があります。

IBMのデータサイエンスおよびAIライフサイクル製品ポートフォリオは、オープンソース・テクノロジーに対する長年にわたる取り組みの上に構築されています。それには、企業が新しい方法でデータの価値を解き放つためのさまざまな機能が含まれています。

watsonxは、中心的ワークフローにおける生成AIの効果を加速し、生産性を向上させるAI製品ポートフォリオです。このポートフォリオは、新しい基盤モデル、生成AI、機械学習のためのwatsonx.aiスタジオ、データレイクの柔軟性とデータウェアハウスのパフォーマンスを実現する目的に応じたwatsonx.dataストア、責任ある透明性と説明可能性を備えたAIワークフローを構築するwatsonx.governanceツールキットの3つの強力なコンポーネントで構成されています。

watsonxは、組織に次の機能を提供します。