AutoMLとは

共同執筆者

Staff writer

Staff Editor, AI Models

IBM Think

AutoMLとは

自動化された機械学習（AutoML）は、機械学習モデル（MLモデル）のエンドツーエンドの開発を自動化する手法です。AutoMLを使用すると、専門家以外のユーザーでも人工知能（AI）・システムを構築・導入できると同時に、データサイエンティストや開発者のAIワークフローも合理化できます。

AutoMLツールはMLモデルの作成プロセスを簡素化します。ユーザーは直感的なインターフェースを利用して、生成 AI モデルやその他のディープラーニング・システムを作成、トレーニング、検証、展開できます。AutoMLは、説明可能で再現可能な結果により、規制産業におけるAIの導入を促進します。

AutoMLがなければ、機械学習（ML）ワークフローのすべてのステップ（データの準備、データの前処理、特徴エンジニアリング、ハイパーパラメーターの最適化）を手動で実行する必要があります。AutoMLは、機械学習の可能性を探ることに関心のあるすべての人が利用できるようにすることで、機械学習を民主化します。また、経験豊富なMLOpsチームとデータサイエンスの専門家であれば、機械学習ワークフローの日常的な側面を自動化しながら、より要求の厳しい学習タスクに集中できるようになります。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

AutoMLの仕組み

AutoML ソリューションは、目的のタスクを処理するために多数の機械学習パイプラインを構築し、最適な選択肢を特定します。モデルの評価とモデルの選択は、ジョブに最適なモデルを選択する反復プロセスの一部として自動化されます。データ視覚化ツールにより、AutoMLプロセスがさらに使いやすくなります。

AutoMLと従来の機械学習の違いは、AutoMLでは機械学習パイプラインのほぼすべての段階が自動化されることです。従来のパイプラインは時間がかかり、リソースを大量に消費し、人為的エラーが発生しやすくなります。それに比べて、AutoMLの進歩により、効率が向上し、結果もよくなりました。

一般的な機械学習パイプラインは、次の手順で構成されます。

データ準備と前処理

データ準備とは、未加工データを収集し、それをトレーニング用データ・セットに統合するプロセスです。データ準備は、トレーニング用データに偏りがないことを保証し、モデルを成功に導くのに役立ちます。つまり、正確なデータは、正確な予測と洞察につながります。企業が検索拡張生成（RAG）などを通じてAIシステムを独自のデータ・ストアにリンクする場合、信頼性の高いAIの導入にはデータ準備が不可欠です。

ユーザーは、AutoMLプラットフォームをトレーニング用データのソース（理想的には、トレーニングですぐに使用できるデータを含む大規模なデータ・セット）に接続します。データ準備フェーズは、AutoMLソリューションが展開される前に行われます。

AutoMLソリューションは、データの前処理とクレンジングをさらに行います。より徹底したデータ前処理により、AIモデルのパフォーマンスが向上します。

教師あり学習および半教師あり学習タスクのモデルを手動で作成する場合は、トレーニング用データに手動でラベルを付ける必要があります。機能と出力は、モデルの意図された使用事例に基づいて選択する必要があります。AutoMLソリューションは、ユーザーに代わって特徴エンジニアリングを処理し、モデルのパフォーマンスを向上させる可能性が最も高いデータ特徴を選択できます。

フィーチャー・エンジニアリング

データの特徴または変数は、機械学習モデルが意思決定や予測を行うために使用するデータ・セットの属性です。例えば、植物の種を識別するために作成されたコンピューター・ビジョン・モデルの場合、データの特徴には葉の形や色が含まれることがあります。

特徴エンジニアリングは、データサイエンティストが入力データから新しい情報を引き出し、機械学習用に準備する変換プロセスです。適切なエンジニアリングと機能の選択によって、許容可能なモデル・パフォーマンスと高品質のモデル・パフォーマンスの違いが決まります。

自動化された特徴量エンジニアリングは、特徴空間の探索、欠損値の補完、使用する特徴の選択プロセスを自動化します。1つの特徴を手動で構築するには何時間もかかることがあり、生産レベルの精度ベースラインの確保はもちろん、最低限の精度スコアに必要な特徴量は数百に達することがあります。特徴量エンジニアリングを自動化することにより、これにかかる時間が数日間から数分間に短縮されます。

効率性の利点に加えて、医療や金融などの規制の厳しい業界にとって重要なAIの説明可能性も向上させます。また、明確性が高く、新しい組織のKPIが発見され、モデルはより魅力的で実用的なものになります。

モデルの選択、ハイパーパラメーターの調整、モデルのトレーニング

目的のユースケースに最適なモデル・タイプはどれでしょうか。従来の機械学習では、モデルの選択にはAIモデルの種類とそれぞれの機能および限界に関する専門知識が必要です。

AutoMLツールは、さまざまなアルゴリズムとハイパーパラメータ構成を使用して複数のモデルを同時に自動的に作成およびトレーニングすることで、従来のプロセスを改善します。多くのAutoMLソリューションは、アンサンブル学習と呼ばれるプロセスで複数のモデルを組み合わせます。

ニューラル・アーキテクチャー検索（NAS）

ディープ・ニューラル・ネットワークを構築する際の最も複雑で、エラーが発生しやすく、時間のかかるタスクの1つは、ニューラル・アーキテクチャーの構築です。高度なタスクには、複雑なハイパーパラメーター構成を持つ多層ネットワークが必要です。

ニューラル・アーキテクチャー検索（NAS）はこのプロセスを自動化し、費やす時間とエラーの可能性を削減します。NASは高度なアルゴリズムを使用して、コンテキストとデータ・セットに基づいて最適なアーキテクチャーを識別します。NASの最近の進歩は、関連する計算コストを削減するためのより効率的な技術の開発に重点を置いています。

ハイパーパラメーターの最適化

ハイパーパラメーターは、モデルの学習プロセスを管理するルールです。モデルがトレーニング中に更新する内部パラメーターとは異なり、ハイパーパラメーターはモデルの外部にあり、データサイエンティストによって構成されます。ニューラル・ネットワーク構造もハイパーパラメーターによって定義されます。

小規模なデータモデリングのコンテキストでは、ハイパーパラメーターは手動で構成し、試行錯誤を通じて最適化できます。しかし、ディープラーニング・アプリケーションでは、ハイパーパラメーターの数は指数関数的に増加します。自動化されたハイパーパラメーターの最適化により、チームは反復して実験し、機能とモデル全体で最適なハイパーパラメーターを見つけることができます。

ハイパーパラメーターの調整は、ベイズ最適化などの高度なアルゴリズムによって自動化されます。自動化されたハイパーパラメータ調整により、データサイエンティストは機械学習プロセス中にモデル作成の方法ではなく、モデル作成の理由に集中できるようになります。分析チームは、代わりに指定されたユースケースに合わせてモデルを最適化することに集中できます。例えば、医療検査における偽陰性を最小限に抑えることができます。

検証とテスト

データサイエンティストは、トレーニング中に機械学習アルゴリズムの進行状況を検証する必要があります。トレーニング後、モデルは新しいデータでテストされ、実際の展開前にパフォーマンスが評価されます。モデルのパフォーマンスは、混同行列、F1スコア、ROC曲線などの指標を使用して評価されます。

トレーニングが完了すると、AutoMLツールは各モデルをテストして、トレーニング用データ・セットとテスト用データ・セットで最もパフォーマンスが優れているモデルを特定し、最もパフォーマンスの高いモデルを自動的に選択して展開します。

モデルのデプロイメント

モデルの作成は、製品タイムラインの最初のステップにすぎません。完成したモデルは、ユーザーが利用できるようにし、パフォーマンスを監視し、信頼性と正確性を確保するために長期にわたって維持する必要があります。自動化がなければ、開発チームはスクリプトを記述し、モデルを業務に統合してユーザーベースに配信するためのシステムを構築する必要があります。

多くのAutoMLソリューションには、シームレスな現実世界の統合を実現するデプロイメント・ツールが含まれています。モデルは、Webサイト、アプリ、またはAPI接続を通じてアクセス可能なサービスとして展開できます。AutoMLプラットフォームは、既存の製品へのモデルの展開を自動化し、スケーリング、更新、バージョン管理を管理し、データの視覚化によって説明可能性を高めることができます。

AI Academy

AIの専門家になる

ビジネスの成長を促進するAIへの投資を優先できるように知識を習得します。今すぐ無料のAI Academyを試して、貴社のAIの未来をリードしましょう。

シリーズを見る

AutoMLのユースケース

AutoMLツールの多様性により、この手法は次のような幅広い機械学習タスクに適用できます。

分類

Regression

コンピューター・ビジョン

自然言語処理

分類

分類は、データ入力を指定されたカテゴリーに割り当てる機械学習タスクです。予測モデルは入力データの機能を使用して正しいラベルまたは出力を予測します。AutoMLシステムは、ランダム・フォレストやサポート・ベクター・マシン（SVM）などのさまざまなアルゴリズムを構築およびテストして、表形式のデータを処理できます。

AutoMLツールは、ラベル付けされたデータ・セット内のパターンを自動的に検出し、不正検出やEメールのスパム・フィルタリングなどの一般的な分類タスク用のモデルを設計できます。

回帰

機械学習における回帰とは、履歴データを使用して将来の値を予測する課題のことです。線形回帰は、1 つ以上の独立変数に基づいて従属変数の値を予測します。例えば、リスク分析や市場の予測に使用されます。また、ロジスティック回帰は、離散値ではなく、患者が病気にかかる可能性など、将来の出来事の確率を予測します。

AutoMLは、特に複雑な多変量タスクにおいて、入力変数とターゲット変数間の関係を確立するプロセスを効率化します。

コンピューター・ビジョン

コンピューター・ビジョンとは、コンピューターを使用して画像やビデオなどの視覚データを処理することです。AutoMLシステムは、オブジェクト検出、画像分類、インテリジェントな光学式文字認識などの視覚ベースの分類タスク向けのモデルを生成できます。AutoMLシステムは、オブジェクト検出、画像分類、インテリジェントな光学式文字認識などの視覚ベースの分類タスク向けのモデルを生成できます。

AutoMLシステムは、自動運転車などのより高度なコンピューター・ビジョンのコンテキストで使用するためにモデルを微調整することもできます。

自然言語処理（NLP）

自然言語処理（NLP）により、AIシステムはユーザー・プロンプトや法的文書などのテキスト入力を解釈できるようになります。チャットボットの作成、マルチクラスおよびマルチラベルのテキスト分類、顧客感情分析、Named Entity Recognition、言語翻訳はすべて、AutoMLで簡単に処理できる複雑なNLPタスクの例です。

データサイエンティストは、AutoMLを使用して、意図したユースケースで強力なパフォーマンスが得られるように自動的に最適化されるカスタム・モデルを作成できます。そうでない場合、NLPモデルを手動で作成する場合、データサイエンティストはゼロから始めるか、以前のモデルに基づいてモデルを作成する必要がありますが、その場合、カスタマイズされた自動生成モデルほどパフォーマンスがよくない可能性があります。

AutoMLの限界

AutoMLはAI開発者に多くのメリットをもたらしますが、人間の知識、経験、スキル、創造性を完全に置き換えるものではありません。AutoMLには、次のような限界があります。

高コスト：タスクの要求が厳しくなるほど、対応するモデルもより高度にならなければなりません。AutoMLの技術を大規模で複雑なモデルの作成に適用すると、コストが急速に管理できないほどに膨れ上がる可能性があります。

解釈可能性の欠如：AutoMLで生成されたモデルは、モデルの内部動作がわかりにくい「ブラックボックスAI」の罠に陥ることがあります。人間の開発者は、説明可能なAIの原則に従って設計されたモデルを作成できますが、AutoMLソリューションではこれが保証されるわけではありません。

過剰適合のリスク： 過剰適合（トレーニングされたモデルがトレーニング用データに近づきすぎて、学習内容を実際のデータに転送できない状態）は、人間の介入と学習プロセスの注意深い監視によって軽減できます。

限定的な管理：開発者は自動化による効率性のために管理能力を犠牲にします。高度にカスタマイズされたモデルが必要な特別なケースでは、AutoMLソリューションでは適切なモデルを提供するのが困難になる可能性があります。

データの信頼性：AIモデルの強度はトレーニング用データと同じくらいです。人間が作成したモデルもAutoMLで作成されたモデルも、高品質のデータが提供されなければ、十分なパフォーマンスを発揮できません。

AutoMLツール

AIモデル作成者は、幅広いAutoMLツールを簡単に利用できます。以下のオプションがあります。

AutoKeras：KerasライブラリーとTensorFlowに基づいて構築されたオープンソース・ツール。

Auto-PyTorch：PyTorchで作成された機械学習プロジェクトを自動化するように設計されたAutoMLソリューション。

Google Cloud AutoML：機械学習用のクラウド・プラットフォームで利用できるGoogle社のAutoMLソリューション。

Lale ¹ ：scikit-learnパイプラインとシームレスに統合されるオープンソースの半自動Pythonライブラリー。

Microsoft Azure AutoML：Microsoft Azureを使用する開発者は、そのAutoML機能の恩恵を受けることができます。

Auto-Sklearn：scikit-learnライブラリーをベースにしたオープンソースのAutoMLプラットフォーム。

データ・リーダーのためのデータサイエンスとMLOps

MLOpsと信頼できるAIの3つの重要な目標、すなわちデータへの信頼、モデルへの信頼、プロセスへの信頼について、他のリーダーと足並みを揃えましょう。

参考情報

IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。

AI in Action 2024

2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。

生成AI + MLの力を解き放つ

生成AI、機械学習、基盤モデルを事業活動に組み込んでパフォーマンスを向上させる方法をご紹介します。

適切な基盤モデルを選ぶ方法

ユースケースに最適なAI基盤モデルを選択する方法について説明します。

機械学習とは

機械学習は、AIとコンピューター・サイエンスの一分野であり、データとアルゴリズムを使用してAIが人間の学習方法を模倣できるようにすることに重点を置いています。

AIの新時代に信頼と自信を持って成功する方法

強力なAIストラテジーの3つの重要な要素である、競争優位性の創出、ビジネス全体へのAIの拡張、信頼できるAIの推進について詳しく説明します。

脚注

1. Library for Semi-Automated Data Science, Hirzel et al, IBM/lale, August 28, 2024

AutoMLとは

AutoMLとは

The DX Leaders

ご登録いただきありがとうございます。

AutoMLの仕組み

データ準備と前処理

フィーチャー・エンジニアリング

モデルの選択、ハイパーパラメーターの調整、モデルのトレーニング

ニューラル・アーキテクチャー検索（NAS）

ハイパーパラメーターの最適化

検証とテスト

モデルのデプロイメント

AIの専門家になる

AutoMLのユースケース

分類

回帰

コンピューター・ビジョン

自然言語処理（NLP）

AutoMLの限界

AutoMLツール

参考情報

脚注