ホーム Topics AutoML AutoMLとは
IBMのAutoMLソリューションはこちら AI関連の最新情報の購読を申し込む
雲、円グラフ、グラフのピクトグラムをコラージュしたイラスト
AutoMLとは

自動化された機械学習AutoML)は、分類子の構築や回帰のトレーニングのどちらであるかに関係なく、一般化された検索概念と考えることができ、MLパイプラインの各構成要素に最適なソリューションを見つけるための特殊な検索アルゴリズムを備えています。

AutoMLは近年、産業界や学術界における人工知能(AI)研究のトレンド・トピックとなっています。AutoMLは、規制が厳しい業界におけるAIに対して、説明可能で再現性のある結果を実現する際ソリューションを提供できる、という大きな可能性を示しています。AutoMLを使うことで、現在データ・サイエンスの職務に必要な理論的背景を持たない人でもAI開発に参加できます。 

データの前処理、特徴量エンジニアリング、ハイパーパラメーターの最適化など、現在の典型的なデータサイエンス・パイプラインの各ステップは、機械学習の専門家が手作業で行う必要があります。一方で、AutoMLを採用すると、数行のコードで機械学習のモデル開発に必要なコードを生成でき、よりシンプルな開発プロセスが実現できます。

特徴量エンジニアリング、ハイパーパラメーターの最適化、ニューラル・アーキテクチャー検索という3つの重要な要素だけを自動化できるシステムを構築することで、AutoMLは、機械学習の民主化を実現できる将来を約束します。

エンタープライズ向け生成AIとML

生成AIの主なメリットおよび組織が生成AIと機械学習をビジネスに組み込む方法について学びます。

関連コンテンツ

AIデータ・ストアに関する電子ブックに登録する

AutoMLの種類

 

データサイエンス・パイプラインでは、データサイエンス・チームが予測モデルを構築するために通過しなければならない多くの段階があります。経験豊富なデータサイエンティストやMLエンジニアのチームでも、AutoMLがもたらすスピードと透明性の向上からメリットを得られます。データサイエンティストは、仮説から始めて、正しいデータ・セットを収集し、データの視覚化を試し、利用可能なすべての信号を活用するために追加の特徴量を設計し、ハイパーパラメーター(ibm.com外部へのリンク)を使用してモデルをトレーニングする必要があります。また、最先端のディープ・ラーニングのために、ディープ・ニューラル・ネットワークに最適なアーキテクチャーを使用できるならば、GPU上で設計する必要があります。

 

特徴量エンジニアリングの自動化


データ特徴量とは機械学習モデルの入力データの一部であり、特徴量エンジニアリングとはデータサイエンティストが既存のデータから新しい情報を導き出す変革のプロセスを意味します。特徴量エンジニアリングは、機械学習ワークフローにおける重要な付加価値プロセスの1つであり、優れた特徴量とは、許容範囲内のパフォーマンスを持つモデルと、極めてパフォーマンスの高いモデルの違いです。これらの未加工データの数学的変換はモデルに読み込まれ、機械学習プロセスの心臓部となります。特徴量エンジニアリング(AFE)(ibm.com外部へのリンク)の自動化は、実行可能な特徴量を組み合わせた空間を、手作業ではなく機械的な方法で探索するプロセスです。

手作業の特徴量エンジニアリングは、時間の面で大きなコストがかかる現代の錬金術です。1つの特徴量を構築するのに数時間かかることも多く、本番レベルの精度ベースラインはおろか、最低限の精度スコアに必要な特徴量の数も数百に及ぶことがあります。特徴空間の探索を自動化することで、AutoMLではデータサイエンス・チームがこのフェーズで費やす時間を、数日からわずか数分に削減できます。

データサイエンティストの手動介入時間を削減することだけが、特徴量エンジニアリングの自動化のメリットではありません。生成された特徴量は、多くの場合明確に解釈できます。ヘルスケアや金融などの規制の厳しい業界では、解釈可能性がAI採用の障壁を下げるため、説明可能性が重要になってきます。さらに、データサイエンティストまたはアナリストは、こうした主要な特徴量が明確になると、高品質のモデルがより説得力をもち実用的になるため、メリットがあります。また、自動生成された特徴量は、組織がモニタリングし、対応すべき新たなKPIを発見する可能性もありますデータサイエンティストは、特徴量エンジニアリングを完了次第、戦略的な特徴量を選択してモデルを最適化する必要があります。

 

自動ハイパーパラメーターの最適化


ハイパーパラメーターは、機械学習アルゴリズムの一部であり、モデルのパフォーマンスを微調整する手段の例えとして理解されていますが、増分調整が大きな影響を及ぼすことはよくあります。小規模なデータサイエンスのモデリングでは、ハイパーパラメーターを手動で簡単に設定でき、トライ・アンド・エラーを繰り返すことで最適化できます。

ディープラーニングの適用では、ハイパーパラメーターの数は指数関数的に増えるため、その最適化はデータサイエンス・チームが手動で適時に実行できる能力を超えています。ハイパーパラメーター最適化(HPO)(ibm.com外部へのリンク)の自動化により、チームはハイパーパラメーターのイベント空間全体にわたり探索し最適化するという重い責任から解放され、代わりに特徴量とモデルを繰り返し実験できるようになります。

また、機械学習のプロセスを自動化するもう1つのメリットは、データサイエンティストがモデルを作成する方法ではなく、理由の調査に集中できるようになることです。多くの企業が利用できる膨大な量のデータと、このデータで回答が可能な膨大な数の質問を考慮に入れると、分析チームは、医療の検査における偽陰性を最小限に抑えるという古典的な問題など、モデルの最適化すべき側面はどれかを確認することに注意を払うことができます。

ニューラル・アーキテクチャー探索


ディープラーニングにおいて最も複雑で時間のかかるプロセスは、ニューラル・アーキテクチャーの作成です。データサイエンス・チームでは、適切な層と学習率の選択に長い時間を費やしますが、最終的には多くの言語モデルと同様に、モデルの重みだけになることがよくあります。ニューラル・アーキテクチャー探索(NAS)(ibm.com外部へのリンク)は、「ニューラル・ネットを使ってニューラル・ネットを設計する」と説明されており、自動化のメリットを最も享受できる機械学習領域の1つです。

NASの探索は、試したいアーキテクチャーを選ぶところから始まります。NASの結果は、各アーキテクチャーの評価基準によって決まります。ニューラル・アーキテクチャー探索に使う一般的なアルゴリズムはいくつかあります。アーキテクチャーとなる可能性の数が少ない場合、テストするアーキテクチャーの選択はランダムに行うことができます。これまでに離散的な探索空間を連続的な表現に変える勾配基準の手法は、非常に効果的であることが示されています。また、データサイエンス・チームでは、アーキテクチャーをランダムに評価し、時間をかけて変更を適用し、よりうまくいく「子」アーキテクチャーを普及させながら、そうでないアーキテクチャーを淘汰するという進化型アルゴリズムを試すこともできます。

ニューラル・アーキテクチャー探索は、AIの民主化を約束するAutoMLの重要な要素の1つです。しかし、これらの探索には多くの場合非常に多くのカーボン・フットプリントが伴います。これらのトレードオフの調査はまだ行われておらず、生態系コストの最適化はNASアプローチにおいて継続的に調査されている分野です。

関連リンク

データサイエンス

機械学習

AutoAI

AutoMLを使う戦略

自動化された機械学習は、組織が高額なデータサイエンティストの代わりに利用できる技術的な解決方法として万能薬のように思えますが、実際には機械学習の利用には組織側のインテリジェントな戦略を必要とします。データサイエンティストは、実験を設計し結果を業績に変え、機械学習モデルのライフサイクル全体を維持する上で重要な役割を担っています。では、組織を横断し各部門がAutoMLを活用して時間の使い方を最適化し、モデルから価値を引き出すまでの時間を削減するにはどうすればいいでしょうか。

AutoML APIを組み込む最適なワークフローは、AutoML APIを使ってワークロードを並列化し、手作業が多い業務に費やす時間を削減することです。データサイエンティストは、ハイパーパラメーターのチューニングに何日も費やす代わりに、複数のタイプのモデルでこのプロセスを同時に自動化し、その後どれが最もパフォーマンスが高かったかをテストすることができます。  

さらに、AutoMLの特徴量により、スキル・レベルがさまざまなチームの各担当者がデータ・サイエンスのパイプラインに貢献できるようになりました。Pythonの専門知識を持たないデータ・アナリストでも、Watson StudioAutoAIのようなツールキットを活用し、照会により自分で抽出できたデータを使って予測モデルをトレーニングすることができます。AutoMLを使うと、データ・アナリストはデータを前処理し、機械学習パイプラインを構築し、データサイエンス・チームの力を借りなくても、自身の仮説検証に使える完全にトレーニングされたモデルを生成できます。

AutoMLとIBM Research

IBMの研究者と開発者は、AutoMLの成長と発展に貢献しています。IBM Watsonに搭載されたAutoAIによる継続的な製品開発や、オープンソースの自動データサイエンス・ライブラリーであるLale(ibm.com外部へのリンク)に関するIBMの研究者の取り組みなどは、次世代のAIアプローチの創出を支援するIBMの取り組みの一例です。Laleはオープンソースのプロジェクトですが、実際にはAutoAIの多くの機能の中核となっています。 

MLスタックの中核にPythonを使うデータサイエンス・チーム向けに、Laleは、scikit-learn(ibm.com外部へのリンク)のパイプラインでシームレスに統合される半自動ライブラリーを提供しています。これは、auto-sklearn(ibm.com外部へのリンク)やTPOT(ibm.com外部へのリンク)のようなライブラリーとは異なります。Laleは、自動化、正確性チェック、相互運用性という点で、scikit-learnの枠を超えています。scikit-learnのパラダイムをベースにしながらも、他のPythonライブラリーや、JavaやRなどの言語のライブラリーからのトランスフォーマーや演算子の数が増えています。 

関連ソリューション
watsonx.ai

AI開発者向けの次世代スタジオで、基盤モデルを実験し、機械学習モデルを自動的に構築します。

watsonx.aiの詳細はこちら 対話式デモを見る
AutoAI

高品質な予測モデルを迅速に構築、トレーニングすることでAIライフサイクル管理を簡素化します。

AutoAIはこちら
IBM Watson Studio

信頼性の高いAIを、あらゆるクラウド上で構築、拡張します。ModelOpsのためのAIライフサイクルを自動化します。

IBM Watson Studioの詳細はこちら
参考情報 AutoMLを活用して最適なモデルをすぐに見つけてデプロイ

次世代のAutoMLであるWatson AutoAIを使って、データに最適なモデリング・パイプラインを見つけ構築する方法を学びます。

IBM Research: Laleを活用した段階的なAutoML

Laleは、AutoML用のsklearn互換ライブラリーです。これはオープンソースであり、ブラックボックスのAutoMLツールを提供するのではなく、機械学習を段階的に自動化するニーズに対応しています。

IBM Watson StudioのAutoAIで最適なモデルを簡単に作成

IBM Watson Studioは、IBM Cloud Pak for Data上の強力なコード・オプションのデータサイエンス・ツールです。この体験ラボでは、Watson StudioのAutoAI機能によってモデル作成の複雑さを軽減できる様子を体験できます。

次のステップ

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、デプロイしましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiの詳細はこちら デモの予約