機械学習(ML)テクノロジーは、医療から人事、金融まで、ほぼすべての業界で意思決定を推進できると同時に、コンピューター・ビジョン、大規模言語モデル(LLM)、音声認識、自動運転車など、数多くのユースケースに活用できます。
しかしMLの影響力の増大には、複雑な問題がないわけではありません。MLテクノロジーの基盤となる検証データ・セットとトレーニングデータ・セットは、多くの場合、人の手で集められます。そして人は偏見に影響されやすく、間違いを犯しやすいものです。MLモデル自体に偏りや欠陥がない場合でも、それを間違ったコンテキストにデプロイすると、意図しない有害な結果をもたらすエラーが発生するおそれがあります。
だからこそ、企業によるAIおよびML利用の多様化は、競争上の優位性を保つ上で非常に貴重であることが証明されています。MLアルゴリズムの各タイプとサブタイプには、チームがさまざまなタスクに活用できる独自のメリットと機能があります。ここでは、主な5つのタイプとその用途について説明します。
機械学習(ML:Machine Learning)とは、コンピューターサイエンス、データサイエンス、人工知能(AI)の一部です。プログラミングを追加しなくても、システムがデータから学習し、改善されるようにします。
MLモデルはパフォーマンスを最適化するにあたり、明示的な指示を出すのではなく、データ・パターンと推論に基づいてタスクを展開するアルゴリズムと統計モデルに依存します。言い方を変えると、MLはインプット・データを活用してアウトプットを予測し、新しいデータを得るたびにアウトプットを更新します。
たとえば小売ウェブサイトでは、機械学習アルゴリズムが購入履歴に基づいて商品をおすすめするので、消費者の購入決定に影響を与えます。IBM、Amazon社、Google社、Meta社、Netflix社など多くの小売業者が有するeコマース・プラットフォームは、1人1人に合わせたおすすめを提供するために人工ニューラル・ネットワーク(ANN)を利用しています。小売業者は、チャットボットやバーチャル・アシスタントから取得したデータをMLや自然言語処理(NLP)テクノロジーと併用で活用し、ユーザーのショッピング・エクスペリエンスを自動化することがよくあります。
機械学習アルゴリズムは、教師あり学習、教師なし学習、半教師あり学習、自己教師あり学習、強化学習という5つの大きなカテゴリーに分類されます。
教師あり機械学習は、ラベル付きデータ・セット(つまり、ターゲットまたは結果の変数は既知)でモデルをトレーニングする機械学習です。たとえば、データサイエンティストが竜巻の予測モデルを構築する場合、入力変数には日付、場所、温度、風の流れ方のパターンなどが含まれ、出力はその日に記録された実際の竜巻の動きとなります。
教師あり学習が使われることの多い場面には、リスク・アセスメント、画像認識、予測分析、不正アクセス検知があり、数種類のアルゴリズムで構成されます。
Apriori、ガウス混合モデル(GMM)、主成分分析(PCA)などの教師なし学習アルゴリズムは、ラベルなしデータ・セットから推論を導き出し、探索的データ解析を簡易化し、パターン認識と予測モデリングを実現します。
最も一般的な教師なし学習法はクラスター分析です。クラスタリング・アルゴリズムを利用し、(顧客セグメンテーションや異常検知などで見られるような)値の類似性に応じてデータ・ポイントを分類します。データサイエンティストは、関連付けアルゴリズムを使用して大規模なデータベース内にあるデータ・オブジェクト間の関連を特定できるため、データの可視化と次元削減を容易に行うことができます。
教師なしMLモデルは「この商品を購入したお客様は…も購入しています」というタイプのレコメンデーション・システムを支えている場合が多く見られます。
自己教師あり学習(SSL)を利用すると、大量のアノテーション付きデータ・セットやラベル付きデータ・セットを必要とせず、モデルがラベルなしデータで自己トレーニングできます。SSLアルゴリズムは予測学習アルゴリズムまたはプレテキスト学習アルゴリズムとも呼ばれ、入力の一部を別の部分から学んでラベルを自動生成し、教師なし問題を教師あり問題に変換します。これらのアルゴリズムは、モデルのトレーニングに必要なラベル付きトレーニング・データの量が非常に多くなり得る(法外な量になる場合も)コンピューター・ビジョンやNLPといったジョブで、特に役立ちます。
強化学習は人間からのフィードバックによる強化学習(RLHF)とも言います。報酬と罰則システムでアルゴリズムをトレーニングする動的なプログラミングの一種です。強化学習を行うには、エージェントが特定の環境でアクションを実行して所定の目標を達成します。エージェントには、決められた測定基準(通常はポイント)に基づいてそのアクションに対する報酬またはペナルティーが与えられ、正しい行動を継続し、不適切なものは捨てるよう促されます。これを繰り返すことで、エージェントは最良の戦略を学習します。
強化学習アルゴリズムはビデオゲーム開発で一般的となっているほか、ロボットに人間のタスクを再現する方法を教えるためによく使われます。
5種類目の機械学習法は、教師あり学習と教師なし学習の組み合わせです。
半教師あり学習アルゴリズムは、小規模なラベル付きデータ・セットと大規模なラベルなしデータ・セットでトレーニングが行われ、半数を占めるラベルなしデータの学習プロセスをラベル付きデータが導きます。半教師あり学習モデルでは、教師なし学習を利用してデータ・クラスターを識別した後、教師あり学習でクラスターにラベルを付けることができます。
敵対的生成ネットワーク(GAN)は2つのニューラル・ネットワークをトレーニングしてラベルなしデータを生成するディープラーニングツールで、半教師あり機械学習の一例です。
MLモデルはその種類にかかわらず企業データからデータの洞察を得ることができますが、人間やデータのバイアスに対して脆弱であるため、組織による責任あるAIの実践が肝要となります。
AIテクノロジーに直接触れるかどうかにかかわらず、開発者からユーザー、規制当局に至るまで、ほぼすべての人がどこかで機械学習(ML)のアプリケーションに関わっています。MLテクノロジーの導入は加速する一方です。世界の機械学習市場は2022年に190億米ドルと評価され、2030年までに1,880億米ドルに達すると予想されています(CAGRが37%以上)。
MLの導入規模とビジネスへの影響増大により、AIおよびMLテクノロジーを理解することが継続的かつ非常に重要な取り組みとなっています。これには、テクノロジーの進化に合わせた注意深い監視とタイムリーな調整が求められます。IBM® watsonx.aiとAI Studioを使用すると、開発者はMLアルゴリズムとプロセスを簡単に管理することができます。
IBM watsonx.aiは、AI製品のIBM watsonxポートフォリオの一部であり、新しい生成AI機能と次世代のエンタープライズ・スタジオを組み合わせて、AIビルダーがわずかなデータとわずかな時間でAIモデルをトレーニング、検証、調整、デプロイできるようにします。Watsonx.aiは、企業がデータのインサイトを活用して実際のAIパフォーマンスを最適化するのに役立つ高度なデータ生成および分類機能をチームに提供します。
データが急増する時代において、AIと機械学習は技術イノベーションやビジネス競争に不可欠であるのと同様に、日々の事業運営にも欠かせません。しかし、現代社会の新しい柱として、企業のITインフラストラクチャーを多様化し、企業や、AIと機械学習に頼る人々に利益をもたらすテクノロジーを生み出す機会でもあります。