My IBM ログイン ニュースレター

機械学習アルゴリズムとは

機械学習アルゴリズムとは

機械学習アルゴリズムは、AI システムがタスクの実行に使用する一連のルールまたはプロセスを指します。多くの場合、新しいデータのインサイトやパターンを発見したり、特定の入力変数から出力値を予測するのに使用されます。アルゴリズムにより、機械学習(ML)の学習が可能になります。

業界アナリストは、機械学習とその基礎となるアルゴリズムの重要性について同意しています。Forrester社によると、「機械学習アルゴリズムの進歩は、マーケティングデータの分析に精度と深さをもたらしてくれます。マーケティング担当者がマーケティングの詳細(プラットフォーム、クリエイティブ、コール・トゥ・アクション、メッセージングなど)がマーケティング・パフォーマンスに与える影響を理解するのに役立ちます」。1 また、Gartner社は次のように述べています。「機械学習は、成功している多くのAIアプリケーションの中核であり、市場で巨大な牽引力を高めています」 2

ほとんどの場合、より多くのデータでMLアルゴリズムをトレーニングすると、少ないデータでトレーニングした場合よりも正確な答えが得られます。統計的手法を使用して、分類や予測を決定し、データ・マイニング・プロジェクトで重要な洞察を明らかにするように、アルゴリズムをトレーニングします。その後、重要な成長指標を高めるために、これらの洞察を意思決定の改善に役立てることができます。

機械学習アルゴリズムのユースケースには、データの分析と傾向の特定、問題が発生する前の予測が含まれます。3より高度なAIにより、よりパーソナライズされたサポートが可能になり、応答時間を短縮し、音声認識を提供し、顧客満足度を高めることができます。膨大な量のデータから新しいコンテンツを作成するにあたって、機械学習アルゴリズムの恩恵を特に受ける業界には、サプライチェーン管理、運輸・物流、小売・製造業4などがあります。これらの業界は、タスクを自動化して、効率を高め、経験がなくても貴重なインサイトが得られる生成AIを活用しています。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

ディープラーニング(深層学習)

ディープラーニングは、機械学習アルゴリズムによる高度な機能の1つです。その違いは、アルゴリズムの学習方法にあります。「深い」機械学習モデルは、教師あり学習とも呼ばれる、ラベル付きデータセットを使用してアルゴリズムに情報を与えることができますが、必ずしもラベル付きデータを必要としません。ディープラーニングは、非構造化データを生の形式(テキストや画像など)で取り込むことができ、さまざまなカテゴリーのデータを区別する特徴を自動的に特定できます。これにより、人間の介入の一部を排除し、より大きなデータセットの活用が可能になります。

人工知能、機械学習、ディープラーニング、ニューラル・ネットワークについて簡単に言うと、規模がだんだんと小さくなっていく一連のAIシステムであり、それぞれが次のシステムを包含しています。人工知能(AI)は、包括的なシステムです。機械学習は、AIのサブセットです。ディープラーニングは機械学習のサブフィールドであり、ニューラル・ネットワークはディープラーニング・アルゴリズムのバックボーンを構成するものです。単一のニューラル・ネットワークと、3つ以上のノード層を必要とする深層学習アルゴリズムを区別するのは、ニューラル・ネットワークのノード層の数、つまり深さです。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

機械学習アルゴリズムの仕組み

カリフォルニア大学バークレー校のある論文では、機械学習アルゴリズムの学習システムを3つの主要部分に分けています。5

  1. 意思決定プロセス:一般に、機械学習アルゴリズムは、予測または分類を行うために使用されます。アルゴリズムは、ラベル付き、またはラベルなしの入力データに基づいて、データ内のパターンに関する推定値を生成します。

  2. 誤差関数:誤差関数は、モデルの予測を評価します。既知の例がある場合は、誤差関数を使用して比較を行い、モデルの精度を評価できます。

3. モデルの最適化プロセス:モデルがトレーニング・セット内のデータ・ポイントによりよく適合する場合は、重みを調整して、既知の例とモデルの推定値の誤差を小さくします。アルゴリズムはこの「評価と最適化」プロセスを繰り返し、精度のしきい値が達成されるまで重みを自律的に調整します。

特に教師あり学習では、トレーニング・データセットを使用して、望ましい出力を得られるようにモデルを訓練します。このトレーニング・データセットには入力と正しい出力が含まれており、これにより、モデルは時間の経過とともに学習します。このアルゴリズムは、損失関数によって精度を測定し、誤差が最小限に抑えられるまで調整します。

機械学習アルゴリズムの種類

機械学習アルゴリズムには、教師あり学習、教師なし学習、半教師あり学習、強化学習の4種類があります。予算、時間と精度に応じて、それぞれのタイプとバリエーションに利点があります。高度な機械学習アルゴリズムには、深層学習、ニューラル・ネットワーク、自然言語処理などの複数のテクノロジーが必要であり、教師なし学習と教師あり学習の両方を使用できます。6以下は、最も有名で一般的に使用されているアルゴリズムです。

教師あり学習アルゴリズム

教師あり学習は、データ・マイニングの場合、分類と回帰の2つの問題に分けることができます。

  • 分類では、アルゴリズムを使用して、テストデータを特定のカテゴリーに正確に割り当てます。データ・セット内の特定のエンティティーを認識し、そのエンティティーがどのようにラベルを付けられる、または定義されるべきかについて、何らかの結論を導き出そうとします。一般的な分類アルゴリズムは、線形分類器、サポート・ベクター・マシン(SVM)、ディシジョン・ツリー、k近傍法アルゴリズム、およびランダム・フォレストです。これらについては、以下で詳しく説明します。
  • 回帰は、従属変数と独立変数の関係を理解するために使用されます。これは、特定のビジネスの売上収益などを予測するのによく使用されます。線形回帰、ロジスティック回帰、および多項式回帰は、一般的な回帰アルゴリズムです。

教師あり機械学習プロセスでは、さまざまなアルゴリズムと計算手法が使用され、多くの場合、Pythonなどのプログラムを用いて計算されます。教師あり学習アルゴリズムには、次が含まれます。

  • AdaBoostまたは勾配ブースティング:アダプティブ・ブースティング7とも呼ばれるこの手法は、よりエラーの少ない、強いアルゴリズムを構築するために、パフォーマンスの低い回帰アルゴリズムをより弱いアルゴリズムと組み合わせることでブーストします。ブースティングは、いくつかのベース・エスティメーターの予測能力を組み合わせます。
  • 人工ニューラル・ネットワーク:ANN、ニューラル・ネットワーク、模倣ニューラル・ネットワーク(SNN)とも呼ばれ、機械学習手法のサブセットであり、深層学習アルゴリズムの中核をなします。学習者アルゴリズムは、ニューロンと呼ばれるビルディングブロックを用いて、入力データ内のパターンを認識します。ニューロンは、時間の経過とともにトレーニングおよび修正される人間の脳のニューロンに近似したものです(詳細については、「ニューラル・ネットワーク」を参照)。
  • ディシジョン・ツリー・アルゴリズム:数値の予測(回帰問題)とデータのカテゴリーへの分類の両方に用いられるディシジョン・ツリーは、樹形図で表すことができる、リンクされた決定の分岐シーケンスを使用します。ディシジョン・ツリーの利点の1つは、ニューラル・ネットワークのブラックボックスとは異なり、検証と監査が容易であることです。
  • 次元削減:選択したデータセットに多数の特徴7がある場合、そのデータセットは高次元になります。次元削減によって特徴の数を減らして、最も価値のあるインサイトや情報のみを残します。一例に、主成分分析があります。
  • k近傍法: KNNとも呼ばれるこのノンパラメトリック・アルゴリズムは、データポイントの近接性と(他の利用可能なデータとの)関連性に基づいてデータポイントを分類します。類似のデータポイントが互いに、近くに存在することを前提としています。その結果、通常はユークリッド距離を用いてデータ・ポイント間の距離を計算し、最も頻度の高いカテゴリーまたは平均的なカテゴリーに基づいてカテゴリーを割り当てることになります。
  • 線形回帰:線形回帰は、従属変数と1つ以上の独立変数の間の関係性を特定するのに用いられ、通常、将来の結果についての予測を行うために利用されます。独立変数と従属変数がそれぞれ1つだけある場合、単純線形回帰と呼ばれます。
  • ロジスティック回帰従属変数が連続的である場合は線形回帰が使用されますが、従属変数がカテゴリカル(「True」と「False」、または「Yes」と「No」のようなバイナリー出力)であるときはロジスティック回帰が使用されます。どちらの回帰モデルもデータ入力間の関係性を理解しようとしますが、ロジスティック回帰は、主にスパム識別などのバイナリー分類問題の解決に用いられます。
  • ニューラル・ネットワーク:主にディープラーニング・アルゴリズムに使用されるニューラル・ネットワークは、ノードの層を介して人間の脳の相互接続を模倣することで、入力トレーニング・データを処理します。各ノードは、入力、重み、バイアス(しきい値)と出力で構成されます。アウトプットの値が特定のしきい値を超えると、ノードが「起動」またはアクティブ化され、データがネットワークの次の層へ渡されます。ニューラル・ネットワークは、勾配降下法を用いて、損失関数に基づく調整から学習します。コスト関数がゼロまたはゼロに近い場合に、モデルの精度に確信を持つことができます。
  • ナイーブ・ベイズ(Naïve Bayes):このアプローチは、ベイズの定理クラスの条件付き独立性の原則に基づいています。つまり、ある特徴があっても、特定の結果が出る確率において、別の特徴の存在には影響を与えず、各予測変数がその結果に同等の影響を及ぼすというものです。ナイーブ・ベイズ分類器には、マルチノミアル・ナイーブ・ベイズ、ベルヌーイ・ナイーブ・ベイズ、ガウシアン・ナイーブ・ベイズの3種類があります。この技術は、主にテキスト分類、スパム識別、推奨システムで使用されます。
  • ランダム・フォレスト:ランダム・フォレストでは、機械学習アルゴリズムが多数のディシジョン・ツリーの結果を組み合わせて、値またはカテゴリを予測します。「フォレスト」とは、ばらつきを低減し、より正確な予測を可能にするための、相関のないディシジョン・ツリーを指します。
  • サポート・ベクトル・マシン(SVM):このアルゴリズムは、データの分類と回帰の両方に使用できますが、一般的には分類問題に使用され、データポイントの2つのクラス間の距離が最大になる超平面を構築します。この超平面は決定境界として知られ、平面の両側でデータポイントのクラス(オレンジとリンゴなど)を分離します。

教師なし学習アルゴリズム

教師あり学習とは異なり、教師なし学習では、ラベルなしデータを使用します。アルゴリズムはそのデータから、クラスタリングまたは関連付けの問題に役立つパターンを発見します。これは、対象分野の専門家がデータ・セット内の共通の属性に確信を持てない場合に、特に有効です。一般的なクラスタリング・アルゴリズムには、階層型、k平均法、混合ガウス・モデル、およびPCAやt-SNEなどの次元削減の手法があります。

  • クラスタリング:このアルゴリズムは、データ内のパターンを識別して、データをグループ化できます。人間が見落としたデータ項目間の違いを特定して、データサイエンティストを支援します。
  • 階層的クラスタリング:データをクラスターのツリーにグループ化します。8階層的クラスタリングは、すべてのデータポイントを個別のクラスターとして扱うことから始まります。そして、次のステップを繰り返し実行します:1)最も近くにある2つのクラスターを特定し、2)その2つのクラスターをマージします。これをすべてのクラスターがマージされるまで続けます。
  • K平均法クラスタリング:互いに類似したデータのグループを見つけることで、ラベルのないデータ内のグループを異なるクラスターに識別します。9「k平均法」という名称は、クラスターの定義に使用される重心に由来しています。ある点が他のどの重心よりもそのクラスターの重心に近い場合、その点は特定のクラスターに割り当てられます。

半教師あり学習アルゴリズム

与えられた入力データの一部のみがラベル付けされている場合に学習が行われ、少し「有利なスタート」になります。このアプローチでは、教師あり機械学習に関連する精度の向上と、教師なし機械学習の場合のようにコスト効率に優れたラベルなしデータの活用という、双方の強みを組み合わせることができます。10

強化アルゴリズム

人間が学習するのと同じように、報酬と罰則により訓練します。この報酬と罰則は、強化学習エージェント11によって測定され、追跡されます。強化学習エージェントは、スコアアップに成功する確率と、スコアダウンの確率を一般的に理解しています。エージェントは試行錯誤を通じて、時間の経過とともに最も好ましい結果につながるアクションを学習します。強化学習は、リソース管理、ロボット工学、ビデオゲームでよく使用されています。12

関連ソリューション

関連ソリューション

IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界屈指のAI(人工知能)の専門知識とIBM Watsonのソリューション製品群を活用して、大規模かつ信頼できるビジネスのためのAIを構築します。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約