IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
自動化された機械学習(AutoML)は、機械学習モデル(MLモデル)のエンドツーエンドの開発を自動化する手法です。AutoMLを使用すると、専門家以外のユーザーでも 人工知能(AI)・システムを構築・導入できると同時に、データサイエンティストや開発者のAIワークフローも合理化できます。
AutoMLツールはMLモデルの作成プロセスを簡素化します。ユーザーは直感的なインターフェースを利用して、生成 AI モデルやその他の ディープラーニング・システムを作成、トレーニング、検証、展開できます。AutoMLは、説明可能で再現可能な結果により、規制産業におけるAIの導入を促進します。
AutoMLがなければ、機械学習(ML)ワークフローのすべてのステップ(データの準備、データの前処理、特徴エンジニアリング、ハイパーパラメーターの最適化)を手動で実行する必要があります。AutoMLは、機械学習の可能性を探ることに関心のあるすべての人が利用できるようにすることで、機械学習を民主化します。また、経験豊富なMLOpsチームとデータサイエンスの専門家であれば、機械学習ワークフローの日常的な側面を自動化しながら、より要求の厳しい学習タスクに集中できるようになります。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
AutoML ソリューションは、目的のタスクを処理するために多数の機械学習パイプラインを構築し、最適な選択肢を特定します。モデルの評価とモデルの選択は、ジョブに最適なモデルを選択する反復プロセスの一部として自動化されます。データ視覚化ツールにより、AutoMLプロセスがさらに使いやすくなります。
AutoMLと従来の機械学習の違いは、AutoMLでは機械学習パイプラインのほぼすべての段階が自動化されることです。従来のパイプラインは時間がかかり、リソースを大量に消費し、人為的エラーが発生しやすくなります。それに比べて、AutoMLの進歩により、効率が向上し、結果もよくなりました。
一般的な機械学習パイプラインは、次の手順で構成されます。
データ準備とは、未加工データを収集し、それをトレーニング用データ・セットに統合するプロセスです。データ準備は、トレーニング用データに偏りがないことを保証し、モデルを成功に導くのに役立ちます。つまり、正確なデータは、正確な予測と洞察につながります。企業が 検索拡張生成(RAG)などを通じてAIシステムを独自のデータ・ストアにリンクする場合、信頼性の高いAIの導入にはデータ準備が不可欠です。
ユーザーは、AutoMLプラットフォームをトレーニング用データのソース(理想的には、トレーニングですぐに使用できるデータを含む大規模なデータ・セット)に接続します。データ準備フェーズは、AutoMLソリューションが展開される前に行われます。
AutoMLソリューションは、データの前処理とクレンジングをさらに行います。より徹底したデータ前処理により、AIモデルのパフォーマンスが向上します。
教師あり学習および半教師あり学習タスクのモデルを手動で作成する場合は、トレーニング用データに手動でラベルを付ける必要があります。機能と出力は、モデルの意図された使用事例に基づいて選択する必要があります。AutoMLソリューションは、ユーザーに代わって特徴エンジニアリングを処理し、モデルのパフォーマンスを向上させる可能性が最も高いデータ特徴を選択できます。
データの特徴または変数は、機械学習モデルが意思決定や予測を行うために使用するデータ・セットの属性です。例えば、植物の種を識別するために作成されたコンピューター・ビジョン・モデルの場合、データの特徴には葉の形や色が含まれることがあります。
特徴エンジニアリングは、データサイエンティストが入力データから新しい情報を引き出し、機械学習用に準備する変換プロセスです。適切なエンジニアリングと機能の選択によって、許容可能なモデル・パフォーマンスと高品質のモデル・パフォーマンスの違いが決まります。
自動化された特徴量エンジニアリングは、特徴空間の探索、欠損値の補完、使用する特徴の選択プロセスを自動化します。1つの特徴を手動で構築するには何時間もかかることがあり、生産レベルの精度ベースラインの確保はもちろん、最低限の精度スコアに必要な特徴量は数百に達することがあります。特徴量エンジニアリングを自動化することにより、これにかかる時間が数日間から数分間に短縮されます。
効率性の利点に加えて、医療や金融などの規制の厳しい業界にとって重要なAIの説明可能性も向上させます。また、明確性が高く、新しい組織のKPIが発見され、モデルはより魅力的で実用的なものになります。
目的のユースケースに最適なモデル・タイプはどれでしょうか。従来の機械学習では、モデルの選択にはAIモデルの種類とそれぞれの機能および限界に関する専門知識が必要です。
AutoMLツールは、さまざまなアルゴリズムとハイパーパラメータ構成を使用して複数のモデルを同時に自動的に作成およびトレーニングすることで、従来のプロセスを改善します。多くのAutoMLソリューションは、アンサンブル学習と呼ばれるプロセスで複数のモデルを組み合わせます。
ディープ・ニューラル・ネットワークを構築する際の最も複雑で、エラーが発生しやすく、時間のかかるタスクの1つは、ニューラル・アーキテクチャーの構築です。高度なタスクには、複雑なハイパーパラメーター構成を持つ多層ネットワークが必要です。
ニューラル・アーキテクチャー検索(NAS)はこのプロセスを自動化し、費やす時間とエラーの可能性を削減します。NASは高度なアルゴリズムを使用して、コンテキストとデータ・セットに基づいて最適なアーキテクチャーを識別します。NASの最近の進歩は、関連する計算コストを削減するためのより効率的な技術の開発に重点を置いています。
ハイパーパラメーターは、モデルの学習プロセスを管理するルールです。モデルがトレーニング中に更新する内部パラメーターとは異なり、ハイパーパラメーターはモデルの外部にあり、データサイエンティストによって構成されます。ニューラル・ネットワーク構造もハイパーパラメーターによって定義されます。
小規模なデータモデリングのコンテキストでは、ハイパーパラメーターは手動で構成し、試行錯誤を通じて最適化できます。しかし、ディープラーニング・アプリケーションでは、ハイパーパラメーターの数は指数関数的に増加します。自動化されたハイパーパラメーターの最適化により、チームは反復して実験し、機能とモデル全体で最適なハイパーパラメーターを見つけることができます。
ハイパーパラメーターの調整は、ベイズ最適化などの高度なアルゴリズムによって自動化されます。自動化されたハイパーパラメータ調整により、データサイエンティストは機械学習プロセス中にモデル作成の方法ではなく、モデル作成の理由に集中できるようになります。分析チームは、代わりに指定されたユースケースに合わせてモデルを最適化することに集中できます。例えば、医療検査における偽陰性を最小限に抑えることができます。
データサイエンティストは、トレーニング中に機械学習アルゴリズムの進行状況を検証する必要があります。トレーニング後、モデルは新しいデータでテストされ、実際の展開前にパフォーマンスが評価されます。モデルのパフォーマンスは、混同行列、F1スコア、ROC曲線などの指標を使用して評価されます。
トレーニングが完了すると、AutoMLツールは各モデルをテストして、トレーニング用データ・セットとテスト用データ・セットで最もパフォーマンスが優れているモデルを特定し、最もパフォーマンスの高いモデルを自動的に選択して展開します。
モデルの作成は、製品タイムラインの最初のステップにすぎません。完成したモデルは、ユーザーが利用できるようにし、パフォーマンスを監視し、信頼性と正確性を確保するために長期にわたって維持する必要があります。自動化がなければ、開発チームはスクリプトを記述し、モデルを業務に統合してユーザーベースに配信するためのシステムを構築する必要があります。
多くのAutoMLソリューションには、シームレスな現実世界の統合を実現するデプロイメント・ツールが含まれています。モデルは、Webサイト、アプリ、またはAPI接続を通じてアクセス可能なサービスとして展開できます。AutoMLプラットフォームは、既存の製品へのモデルの展開を自動化し、スケーリング、更新、バージョン管理を管理し、データの視覚化によって説明可能性を高めることができます。
AutoMLツールの多様性により、この手法は次のような幅広い機械学習タスクに適用できます。
分類
Regression
コンピューター・ビジョン
自然言語処理
コンピューター・ビジョン とは、コンピューターを使用して画像やビデオなどの視覚データを処理することです。AutoMLシステムは、オブジェクト検出、画像分類、インテリジェントな 光学式文字認識 などの視覚ベースの分類タスク向けのモデルを生成できます。AutoMLシステムは、オブジェクト検出、画像分類、インテリジェントな光学式文字認識などの視覚ベースの分類タスク向けのモデルを生成できます。
AutoMLシステムは、自動運転車などのより高度なコンピューター・ビジョンのコンテキストで使用するためにモデルを微調整することもできます。
自然言語処理(NLP) により、AIシステムはユーザー・プロンプトや法的文書などのテキスト入力を解釈できるようになります。チャットボットの作成、マルチクラスおよびマルチラベルのテキスト分類、顧客感情分析、Named Entity Recognition、言語翻訳はすべて、AutoMLで簡単に処理できる複雑なNLPタスクの例です。
データサイエンティストは、AutoMLを使用して、意図したユースケースで強力なパフォーマンスが得られるように自動的に最適化されるカスタム・モデルを作成できます。そうでない場合、NLPモデルを手動で作成する場合、データサイエンティストはゼロから始めるか、以前のモデルに基づいてモデルを作成する必要がありますが、その場合、カスタマイズされた自動生成モデルほどパフォーマンスがよくない可能性があります。
AutoMLはAI開発者に多くのメリットをもたらしますが、人間の知識、経験、スキル、創造性を完全に置き換えるものではありません。AutoMLには、次のような限界があります。
高コスト:タスクの要求が厳しくなるほど、対応するモデルもより高度にならなければなりません。AutoMLの技術を大規模で複雑なモデルの作成に適用すると、コストが急速に管理できないほどに膨れ上がる可能性があります。
解釈可能性の欠如:AutoMLで生成されたモデルは、モデルの内部動作がわかりにくい「ブラックボックスAI」の罠に陥ることがあります。人間の開発者は、説明可能なAIの原則に従って設計されたモデルを作成できますが、AutoMLソリューションではこれが保証されるわけではありません。
過剰適合のリスク: 過剰適合(トレーニングされたモデルがトレーニング用データに近づきすぎて、学習内容を実際のデータに転送できない状態)は、人間の介入と学習プロセスの注意深い監視によって軽減できます。
限定的な管理:開発者は自動化による効率性のために管理能力を犠牲にします。高度にカスタマイズされたモデルが必要な特別なケースでは、AutoMLソリューションでは適切なモデルを提供するのが困難になる可能性があります。
データの信頼性:AIモデルの強度はトレーニング用データと同じくらいです。人間が作成したモデルもAutoMLで作成されたモデルも、高品質のデータが提供されなければ、十分なパフォーマンスを発揮できません。
AIモデル作成者は、幅広いAutoMLツールを簡単に利用できます。以下のオプションがあります。
AutoKeras:KerasライブラリーとTensorFlowに基づいて構築されたオープンソース・ツール。
Auto-PyTorch:PyTorchで作成された機械学習プロジェクトを自動化するように設計されたAutoMLソリューション。
Google Cloud AutoML:機械学習用のクラウド・プラットフォームで利用できるGoogle社のAutoMLソリューション。
Lale 1 :scikit-learnパイプラインとシームレスに統合されるオープンソースの半自動Pythonライブラリー。
Microsoft Azure AutoML:Microsoft Azureを使用する開発者は、そのAutoML機能の恩恵を受けることができます。
Auto-Sklearn:scikit-learnライブラリーをベースにしたオープンソースのAutoMLプラットフォーム。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
1. Library for Semi-Automated Data Science, Hirzel et al, IBM/lale, August 28, 2024