機械学習とは
機械学習の歩みについて、重要な定義、アプリケーション、および今日のビジネスにおける懸念事項と共にご説明します
Watson Assistantを詳しく見る
黒と青のグラデーションの背景
機械学習とは

機械学習は、 人工知能(AI) とコンピューター・サイエンスの一分野であり、データとアルゴリズムを使用して人間の学習の仕方を模倣し、徐々にその精度を向上させることに重点を置いています。

IBMには、機会学習における豊富な 経験 の蓄積があります。 IBMで活躍したArthur Samuelは、チェッカーのゲームに関する 研究 (PDF、481 KB)(IBM外部へのリンク)で、「機械学習」という用語を作り出したことで知られています。 チェッカーのマスターを自称していたRobert Nealey氏は、1962年にIBMの7094コンピューターでゲームをプレイし、コンピューターに負けました。 今日可能になっていることに比べれば、この功績は些細なことのように見えますが、これは、人工知能の分野における重要なマイルストーンであったとされています。

過去20年の間に、ストレージと処理能力の技術的な進歩により、機械学習に基づくNetflixの推奨エンジンや自動運転車などの革新的な製品が可能となってきました。

機械学習は、成長するデータサイエンス分野の重要な要素です。 統計的手法を使用することにより、アルゴリズムは分類または予測を行うようにトレーニングされ、データ・マイニング・プロジェクト内の重要な洞察を明らかにします。 これらの洞察はその後、アプリケーションやビジネス内の意思決定を促進し、理想的には主要な成長指標に影響を与えることとなります。 ビッグデータが拡大して成長し続けるに従い、データ・サイエンティストを求める市場の需要は増大していくことになります。 彼らに求められていくことは、最も関連性の高いビジネスに関する質問とそれに答えるためのデータを特定するための支援です。

機械学習アルゴリズムは通常、ソリューション開発を加速するTensorFlowやPyTorchなどのフレームワークを使用して作成されます。

watsonx.aiのご紹介

基礎モデルと機械学習モデルの簡単なトレーニング、検証、調整、導入

機械学習、ディープ・ラーニング、およびニューラル・ネットワークの比較

ディープ・ラーニングと機械学習は同じ意味で用いられる傾向があるので、両者のニュアンスの違いは注目に値します。 機械学習、ディープ・ラーニング、ニューラル・ネットワークは、すべて人工知能の一分野です。 ただし実際には、機械学習の下位分野がニューラル・ネットワークであり、ニューラル・ネットワークの下位分野にディープ・ラーニングが位置しています。

ディープ・ラーニングと機械学習では、それぞれのアルゴリズムによる学習方法に違いがあります。 「ディープな」機械学習は、ラベル付きデータ・セットを利用して(教師あり学習とも呼ばれます)、アルゴリズム情報を伝えることができますが、必ずしもラベル付きデータ・セットが必要なわけではありません。 ディープ・ラーニングは、非構造化データを生の形式(テキスト、画像など)で取り込むことができ、さまざまなカテゴリーのデータを互いに区別する一連の特徴量を自動的に判別することができます。 これにより、人間による介入の必要性が一部排除できるため、より大きなデータセットの使用が可能になります。 ディープ・ラーニングは、Lex Fridmanが このMITでの講義(01:08:05) (IBM外部へのリンク)で述べているように、「拡張性の高い機械学習」と考えることができます。

古典的あるいは「ディープではない」機械学習では、学習するために、人間による介入をより多く必要とします。 さまざまなデータ入力の違いを理解するための一連の特徴量は、専門家が決定します。通常、学習にはより構造化されたデータが必要です。

ニューラル・ネットワーク、または人工ニューラル・ネットワーク(ANN)は、1つの入力層、1つ以上の隠れ層、1つの出力層を含む、ノードの層で構成されます。 各ノード(人工ニューロン)は別のノードに接続し、関連する重みとしきい値を持ちます。 個々のノードのいずれかの出力が、指定されたしきい値を超えると、そのノードがアクティブ化されて、ネットワークの次の層にデータが送信されます。 それ以外では、データはネットワークの次の層に渡されません。 ディープ・ラーニングの「ディープ」とは、ニューラル・ネットワークの層の数を指します。 入力と出力を含めて4層以上で構成されるニューラル・ネットワークは、ディープ・ラーニング・アルゴリズムまたはディープ・ニューラル・ネットワークと見なすことができます。 3層しかないニューラル・ネットワークは、単なる基本的なニューラル・ネットワークです。

ディープ・ラーニングとニューラル・ネットワークは、コンピューター・ビジョン、自然言語処理、音声認識などの分野での進歩の加速に貢献していると言われています。

ブログ記事「AI、機械学習、ディープ・ラーニング、ニューラル・ネットワークの相違点」で、これらのさまざまな概念がどのように関連しているかについて、詳細をお読みください。

機械学習の仕組み

カリフォルニア大学 バークレー校 (IBM外部へのリンク)は、機械学習アルゴリズムの学習システムを3つの主要な部分に分けています。

  1. 意志決定プロセス:一般に、機械学習アルゴリズムは、予測または分類を行うために使用されます。 ラベル付きまたはラベルなしの入力データに基づき、アルゴリズムがデータのパターンに関する推定値を生成します。
  2. 誤差関数:誤差関数は、モデルの予測値を評価します。 既知の例があれば、誤差関数は比較によりモデルの精度を評価することができます。
  1. モデル最適化プロセス:モデルとトレーニング・セットのデータ・ポイントの適合性に改善の余地があれば、既知の例とモデル推定値の間の不一致を減らすように重みが調整されます。 アルゴリズムは、この評価と最適化のプロセスを繰り返し、精度のしきい値に達するまで重みを自律的に更新します。  
機械学習の手法

機械学習は、3つの主要なカテゴリーに分類されます。

教師あり学習       

教師あり学習(教師あり機械学習とも呼ばれる)は、データの分類または結果の予測を正確に行うために、ラベル付きデータ・セットを使用して、アルゴリズムのトレーニングを行います。 入力データがモデルに提供されると、モデルが適合するまで重みが調整されます。 これは、モデルが 過剰適合 または 過小適合を確実に回避するための相互検証プロセスの一部として行われます。 教師あり学習は、受信トレイとは別のフォルダーにスパムを分類するなど、組織が実際に直面するさまざまな問題を大規模に解決するのに役立ちます。 教師あり学習で使用される手法には、ニューラル・ネットワーク、単純ベイズ、線形回帰、ロジスティック 回帰、ランダム・フォレスト、サポート・ベクター・マシン(SVM)などがあります。

教師なし学習

(教師なし機械学習とも呼ばれる)教師なし学習は、機械学習アルゴリズムを使用して、ラベルが付いていないデータ・セットを分析し、クラスター化します。 これらのアルゴリズムは、人間の介入を必要とせずに、隠れたパターンやデータのグループ化を発見します。 この手法は、情報の類似点と相違点を発見することができるため、探索的データ分析、クロスセル戦略、顧客セグメンテーション、画像・パターン認識において理想的な手法となります。 また、次元削減プロセスを通して、モデル内の機能数を削減するためにも使用されます。 主成分分析(PCA)と特異値分解(SVD)は、このための2つの一般的なアプローチです。 教師なし学習で使用される他のアルゴリズムには、ニューラル・ネットワーク、k平均法、確率的クラスタリング手法などがあります。

半教師あり学習 

半教師あり学習は、教師あり学習と教師なし学習の折衷案です。 トレーニング中は、比較的少量のラベル付きデータ・セットを使用することで、より大量のラベルなしデータ・セットの分類と特徴量抽出をガイドできます。 半教師あり学習は、教師あり学習アルゴリズム向けの十分なラベル付きデータがないという問題を解決できます。 それは、十分なデータに対してラベル付けするには、コストがかかりすぎる場合にも役立ちます。 

これらのアプローチの違いを深く掘り下げるには、「教師あり学習と教師なし学習の比較:その違いは何か。」(英語)をご参照ください。

強化学習

強化学習は、機械 学習モデルであり、教師あり学習と似ていますが、アルゴリズムはサンプル・データを使用して訓練されていません。 このモデルは、試行とエラーを通じて学習します。 決定の成功が続くとそのプロセスが強化されていき、所定の問題に最適な推奨事項または方針を策定できるようになります。

2011年に ジェパディ! の対戦に勝利したIBM Watson®システムは、良い例を示しています。 このシステムは、いつ回答(または、いわば質問)を試みるのか、ボード上でどのマスを選択するか、そして賭けの程度(特に独占的に回答権が与えられるデイリー・ダブル)について知見を深めるために、 強化学習を使用しました 。

強化学習についての詳細はこちらをご覧ください。          

一般的な機械学習アルゴリズム

一般的に使用されている機械学習アルゴリズムは、多数あります。 これらには、以下が含まれます:

  • ニューラル・ネットワーク: ニューラル・ネットワーク は、膨大な数のリンクされた処理ノードを使用して、人間の脳の仕組みをシミュレートします。 パターン認識に優れているニューラル・ネットワークは、自然言語の翻訳、画像認識、音声認識、イメージ作成などのアプリケーションで重要な役割を果たします。
  • 線形回帰: このアルゴリズムは、 異なる値間の線形関係に基づく、数値的な値を予測するために使用されます。 たとえばこの手法は、その地域の履歴データに基づいて住宅価格を予測することに使用できます。
  • ロジスティック回帰: この教師あり学習アルゴリズムは、質問に対する「はい/いいえ」の回答などの、分類別の回答変数に対する予測を行います。 スパムの分類や生産ライン上の品質管理などの用途に使用できます。
  • クラスタリング: 教師なし学習を使用すると、クラスタリング・アルゴリズムがデータ内のパターンを識別して、データをグループ化できます。 コンピューターは、人間が見落としていたデータ項目間の違いを特定することにより、データ・サイエンティストを支援できます。
  • デシジョン・ツリー: デシジョン・ツリーは、数値的な値の予測(回帰)とデータのカテゴリー分類の両方に使用できます。 デシジョン・ツリーは、ツリー・ダイアグラムで表すことのできる、リンクされた意思決定のブランチ・シーケンスを使用します。 デシジョン・ツリーの利点の1つは、ニューラル・ネットワークのブラック・ボックスとは異なり、検証および監査が簡単であることです。
  • ランダム・フォレスト:  ランダム・フォレストでは、機械学習アルゴリズムが、多数のデシジョン・ツリーからの結果を結合することで、値または分類を予測します。
機械学習の実用事例

ここでは、日常的に遭遇する可能性のある機械学習の例をいくつか挙げます。

音声認識: 自動音声認識(ASR)、コンピューター音声認識、またはSpeech to Textとしても知られており、自然言語処理(NLP)を使用して、人間の音声を文書形式に翻訳することができます。 多くのモバイル・デバイスでは音声認識をシステムに組み込むことにより、音声検索(Siriなど)の実行、またはテキスト化を目的としたユーザー補助の改善を行っています。

カスタマー・サービス:   オンライン チャットボットは、カスタマー・ジャーニーを通じて人間の担当者の代わりとなることで、ウェブサイトおよびソーシャル・メディア全体にわたるカスタマー・エンゲージメントについての私たちの考え方を変えています。 チャットボットは、配送方法などのトピックに関するよくある質問(FAQ)への回答や、ユーザーにパーソナライズされた通知、商品のクロスセル、またはサイズ提案の提供を行います。 その例として、e-コマース・サイトの 仮想エージェント 、SlackとFacebook Messengerを使用するメッセージング・ボット、仮想アシスタントと音声アシスタントによって通常行われるタスクが挙げられます。

コンピューター・ビジョン: このAIテクノロジーにより、コンピューターは、デジタル画像、動画、その他のビジュアル入力から有意義な情報を抽出し、適切なアクションを実行することができます。 畳み込みニューラル・ネットワークを活用するコンピューター・ビジョンは、ソーシャル・メディアにおける写真のタグ付け、医療における放射線画像分析、自動車産業における自動運転車などに応用されています。 

推奨エンジン: AIアルゴリズムは、過去の消費行動データを使用して、より効果的なクロスセル戦略を策定するために使用できるデータ傾向の発見を支援します。 このアプローチは、小売業者がオンラインでのチェックアウト・プロセス中に、顧客に対する関連製品の推奨を行うために使用されています。

自動株式取引: 株式ポートフォリオを最適化するために設計された、AI主導型の高頻度取引プラットフォームは、人間の介入なしに、1日に数千件または数百万件の取引を行います。

不正行為の検出: 銀行やその他の金融機関は、機械学習を使用することによって不審な取引を検知できます。 教師あり学習は、既知の不正取引に関する情報を使用したモデルをトレーニングできます。 異常検知は、非定型に見える上に、さらなる調査に値するトランザクションを特定できます。

機械学習の課題

機械学習技術の発展に伴い、物事が便利になったことは確かです。 しかし、ビジネスの中で機械学習を実装することで、AI技術に関する倫理的懸念も生じています。 懸念には次のようなものがあります。

シンギュラリティー(技術的特異点)

このトピックは多くの人々の注目を集めていますが、研究者の多くは、AIが近い将来に人間の知性を超えるという考えには懸念を示していません。 技術的特異点は、強力なAIまたは超知能とも呼ばれます。 哲学者であるNick Bostrum氏は、超知能の定義を、「科学的創造性や一般的な知恵、社会的スキルなどを含む事実上すべての分野において、最も優秀な人間の脳を大幅に上回る知性」としています。 超知能は社会の中で目前に迫っているわけではないものの、その考えは、自動運転車のような自律システムの活用を検討する上で、いくつかの興味深い疑問を投げかけるものとなっています。 自動運転車が事故に遭うことは決してないと考えるのは非現実的です。もしそのような状況になった場合に、誰が責任を負うのでしょうか。 それでもなお、私たちは自律走行車を開発すべきでしょうか、それともこのテクノロジーを人々の安全な運転の支援を目的とした、半自律型の走行車に制限すべきでしょうか。 その最終的な答えはまだ出ていませんが、新しい革新的なAI技術の発展に伴い、この種の倫理的な議論が行われています。

仕事へのAIの影響

人工知能に対する世間の認識の多くは、人の仕事がなくなるのではという点に集中していますが、この懸念はおそらく捉え直されるべきです。 破壊的な新しいテクノロジーが登場するたびに、特定の職務に対する市場の需要は変化を遂げます。 例えば自動車業界の場合、GMを始めとする多くのメーカーが、グリーン・イニシアチブに合わせて電気自動車の生産に焦点を当てるようシフトしています。 エネルギー産業が無くなることはありませんが、エネルギー源は燃料から電気へとシフトしています。

同様に、人工知能は、仕事の需要を他分野にシフトさせていくでしょう。 今後は、AIシステムの管理を支援する個人が必要となっていきます。 カスタマー・サービスのように、仕事に対する需要の変化によって影響を受ける可能性が最も高い業界においても、より複雑な問題に対処する人材は依然として必要となります。 人工知能および人工知能による労働市場への影響において、最大の課題となっていくのは、人々が需要のある新たな職務に移行できるようにするための支援です。

プライバシー

プライバシーは、データ・プライバシー、データ保護、およびデータ・セキュリティーのコンテキストで議論される傾向があります。 これらの懸念事項により、政策立案者は、近年において大きく前進しています。 例えば、2016年には、欧州連合と欧州経済領域内の人々の個人データを保護するためにGDPR法が策定され、自身の個人データをより細かく管理できるようになりました。 米国では、個々の州が、2018年に導入されたカリフォルニア消費者プライバシー法(CCPA)などの各政策を策定しており、これによって、企業はデータの収集について消費者に通知することが求められています。 企業はこのような法律により、個人情報(PII)の保存および使用の方法について再考することが強いられています。 その結果、セキュリティーへの投資は、監視やハッキング、サイバー攻撃の脆弱性や機会を排除しようとする企業にとって、ますます優先度が高くなっています。

バイアスと差別

多くの機械学習システム全体でのバイアスと差別の事例は、人工知能の使用に関して多くの倫理的問題を提起しました。 トレーニング用データ自体が偏った人間のプロセスによって生成される可能性がある場合、バイアスおよび差別をどのように防ぐことができるでしょうか。 企業は通常、善意の目的で自社の自動化に取り組んでいますが、AIを採用実務に組み込むことによって予期しない結果が生じる場合があることを、 Reuters社 (IBM外部へのリンク)が強調しています。 Amazon社は、プロセスを自動化し簡素化する取り組みの中で、技術職への応募者に対し、意図せずに性別による差別待遇をしてしまったことにより、最終的にはそのプロジェクトを打ち切らなければならなくなりました。 Harvard Business Review (IBM外部へのリンク)では、候補者のある職種おける評価を行う際にどのデータを使用可能とするべきかなど、採用実務におけるAIの活用を巡り、他にも鋭い問題提起が行われています。

バイアスや差別は、人事業務に限ったことではありません。顔認識ソフトウェアからソーシャル・メディアのアルゴリズムまで、多くのアプリケーションで見受けられます。

企業がAIのリスクを認識するようになるにつれて、AIの倫理と価値に関するこの議論も活発になっています。 たとえばIBMは、汎用的な顔認識および顔分析の製品を廃止しています。 IBM CEOのArvind Krishnaは次のように述べています。「IBMは、他のベンダーが提供する顔認識テクノロジーを含むあらゆるテクノロジーを、大規模監視、人種プロファイリング、基本的人権と自由に対する侵害、または、当社の価値観および 「信頼と透明性に関する原則」に一致しない目的のために使用することに断固反対し、容認しません。」

説明責任

AIの実践を規制する重要な法律がないため、倫理的なAIが実践されることを保証する実際の施行メカニズムはありません。 企業が倫理的であることへの現在における動機は、非倫理的なAIシステムを使えば収益に悪影響が及ぶという点にあります。 このギャップを埋めるために、倫理的枠組みが登場しています。これは、社会におけるAIモデルの構築と配布を管理することを目的とした、倫理学者と研究者の間のコラボレーションの一環です。 しかし現時点では、これらはガイドとしてのみ機能しているに過ぎません。 いくつかの リサーチ (IBM外部へのリンク)(PDF、1 MB)では、責任の分散と潜在的な結果に対する先見性の欠如という組み合わせから、こうした枠組みが必ずしも社会への危害の防止に役立つとは限らないことが示されています。

AI倫理に関するIBMの見解について詳細を読む

関連ソリューション
ディープ・ラーニング

複雑なニューラル・ネットワークを設計します。 最適化されたラーニング・モデルの導入を、IBM Watson Studio内で大規模に実験します。

ディープ・ラーニングの詳細はこちら
予測分析

データを分析し、分析モデルを構築して、将来の結果を予測します。 ビジネスのリスクと機会を明らかにします。

予測分析を検討する
自然言語処理を使用したアプリケーションの構築

NLPは、お客様のビジネス分野の言語を話すAIです。 IBM Watson Discoveryを使用して、3年間で383%のROIを実現するソリューションを構築します。

NLPによるアプリ構築の詳細はこちら
参考情報 エンタープライズにおけるAI(2021年):データを通じてオポチュニティーを引き出す

AIテクノロジーは、過去20年の間に、急速に進化してきました。 今日、企業がAIをどのように導入しているかについてご説明します。

Gartner社による、データサイエンスと機械学習プラットフォームに関するMagic Quadrant

AIモデルの効率的な稼働と管理、およびデータ主導による意思決定の最適化に役立つテクノロジーを使用した、自社のデータ・サイエンティストに対する支援を目的として、企業が使用するツールについてご説明します。

Machine Learning for dummies(e-book)

機械学習によって、どのように継続的にデータから学習し、将来を予測できるかをご覧いただけます。

エンタープライズ向け会話型AIプラットフォーム分野に関するMagic Quadrant、2023年

IBMは、エンタープライズ向け会話型AI分野において、2023年のGartner® Magic Quadrant™でリーダーとして再選出されました。

次のステップ

IBM Watson Studio on IBM Cloud Pak for Dataは、データおよびAIプラットフォーム上における機械学習のライフ・サイクルを、エンド・ツー・エンドでサポートします。 機械学習モデルは、お客様のデータが存在するあらゆる場所で構築、トレーニング、および管理が可能で、お客様のハイブリッド・マルチクラウド環境へ場所を選ばずに導入できます。機械学習モデルを、お客様のデータが存在するあらゆる場所で構築、トレーニング、および管理し、およびお客様のハイブリッド・マルチクラウド環境へ場所を選ばずに導入する方法について、ご説明します。

最新のIBM Cloud Pak for Dataに関する詳細はこちら