AutoML
cloud leadspace
AutoMLとは何ですか。

AutoMLが反復可能で説明可能なAIソリューションの構築にどのように役立つのかをご紹介します。

自動化された機械学習AutoMLは、近年、産業界や学術界における人工知能(AI)研究のトレンドトピックとなっています。 AutoMLは、説明可能で再現性のある結果を提供することで、規制された産業におけるAIのソリューションをもたらすことに大きな期待が寄せられています。AutoMLを使用すると、データサイエンスでの役割に現在必要な理論的バックグラウンドがない人でも、AI開発にアクセスしやすくなります。 

データの前処理、特徴量エンジニアリング、ハイパーパラメーターの最適化など、現在の典型的なデータサイエンス・パイプラインの各ステップは、機械学習の専門家が手作業で行わなければなりません。 一方、AutoMLを採用することで、数行のコードで機械学習モデルの開発に必要なコードを生成でき、よりシンプルな開発プロセスを実現します。 

分類子の構築や回帰のトレーニングのどちらであるかに関係なく、AutoMLは一般化された検索コンセプトと考えることができ、MLパイプラインの各構成要素に最適なソリューションを見つけるための特別な検索アルゴリズムを備えています。 特徴量エンジニアリング、ハイパーパラメーターの最適化、ニューラル・アーキテクチャー検索という3つの重要な部分だけを自動化できるシステムを構築することで、AutoMLは、機械学習の民主化が実現する未来を約束します。 

注目の製品

Watson Studio


AutoMLの種類

データサイエンス・パイプラインでは、データサイエンス・チームが予測モデルを構築するために、多くの段階が必要になります。 経験豊富なデータサイエンティストやMLエンジニアのチームであっても、AutoMLによってもたらされるスピードと透明性の向上からメリットを受けることができます。 データサイエンティストは、仮説から始め、正しいデータ・セットを収集し、データの可視化を試し、利用可能なすべての信号を利用するための追加の特徴量を設計し、ハイパーパラメーター(ibm.com外部へのリンク)を使用してモデルをトレーニングする必要があります。また、最先端のディープ・ラーニングのために、ディープ・ニューラル・ネットワークに最適なアーキテクチャーを使用可能であれば、GPU上で設計する必要があります。

 

自動化された特徴量エンジニアリング


データ特徴量とは、機械学習モデルの入力データの一部であり、特徴量エンジニアリングとは、データサイエンティストが既存のデータから新たな情報を導き出す変革のプロセスを意味します。特徴量エンジニアリングは、MLワークフローにおける重要な付加価値プロセスの1つであり、許容できるパフォーマンスのモデルと優れたパフォーマンスのモデルの違いが優れた特徴量となります。 これらの生データの数学的変換は、モデルに読み込まれ、機械学習プロセスの心臓部となります。 自動化された特徴量エンジニアリング (PDF 1.7 MB) (AFE)(ibm.com外部へのリンク)は、実行可能な特徴量の組み合わせの空間を、手作業ではなく機械的に探索するプロセスです。

手動の特徴量エンジニアリングは、現代の錬金術と言えますが、時間的には大きなコストがかかります。単一の特徴量の構築には数時間かかることが多く、本番レベルの精度のベースラインは言うまでもありませんが、最低限の精度スコアに必要な特徴量の数は数百に達する可能性があります。 特徴量空間の探索を自動化することで、AutoMLは、データサイエンス・チームがこのフェーズに費やす時間を数日から数分までに短縮します。

自動化された特徴エンジニアリングのメリットは、データサイエンティストによる手動で介入する時間を短縮することだけではありません。 生成された特徴量は、多くの場合、明確に解釈できます。 ヘルスケアや金融のような規制の厳しい業界では、その説明可能性(ibm.com外部へのリンク)は、解釈可能性経由でのAI導入の障壁を下げる意味でも重要です。 さらに、データサイエンティストやアナリストにとって、これらの特徴量が明確になることで、高品質なモデルがより説得力を持ち、実用的なものになるというメリットがあります。 また、自動生成された特徴量は、組織が監視し、対応すべき新たなKPIを発見する可能性もあります。 データサイエンティストは、特徴量エンジニアリングを完了したら、戦略的な特徴量の選択によってモデルを最適化しなければなりません。 

 

自動化されたハイパーパラメーターの最適化


ハイパーパラメーターは、モデルのパフォーマンスを微調整するための手段の喩えとして最もよく理解される機械学習アルゴリズムの一部ですが、増分調整が大きな影響を与えることがあります。 小規模なデータサイエンスのモデリングでは、ハイパーパラメーターを簡単に手で設定し、試行錯誤して最適化することができます。

ディープ・ラーニング・アプリケーションでは、ハイパーパラメーターの数は指数関数的に増加し、データサイエンス・チームが手動でタイムリーに達成する能力を超えて最適化を実行できます。 自動化されたハイパーパラメーターの最適化(HPO)(ibm.com外部へのリンク)は、ハイパーパラメーターのイベントスペース全体を探索して最適化するという責任からチームを解放し、代わりにチームは特徴量やモデルを反復して実験することに集中できます。

また、機械学習のプロセスを自動化することで、データサイエンティストはモデル作成の方法ではなく理由に集中することができます。多くの企業が利用できる膨大な量のデータと、このデータで回答できる膨大な数の質問を考慮すると、分析チームは、医療検査における検出漏れを最小限に抑えるという従来の問題など、モデルのどの側面を最適化すべきかに注意を払うことができます。

ニューラル・アーキテクチャー検索(NAS)


ディープ・ラーニングで最も複雑で時間のかかるプロセスは、ニューラル・アーキテクチャーの作成です。データサイエンス・チームは、適切な層や学習率の選択に長い時間をかけていますが、多くの言語モデルのように、最終的にはモデルの重みだけを選択することになります。ニューラル・アーキテクチャー検索(NAS)(ibm.com外部へのリンク)は、「ニューラル・ネットを使用したニューラル・ネットの設計」と呼ばれており、最も明瞭に自動化のメリットを享受するMLの領域の1つです。

NASの検索は、どのアーキテクチャーを試すかという選択から始まります。 NASの結果は、各アーキテクチャーの評価基準によって決定されます。 ニューラル・アーキテクチャー検索には、いくつかの一般的なアルゴリズムが使用されます。 アーキテクチャーの潜在的な数が少ない場合は、テストの選択をランダムに行うことができます。 離散的な検索スペースを連続表現に変える勾配ベースのアプローチが非常に有効であることがわかっています。データサイエンス・チームは、アーキテクチャーをランダムに評価し、変更をゆっくりと適用して、より成功した子アーキテクチャーを普及させ、そうでないものを淘汰するという進化的アルゴリズムを試すことも可能です。

ニューラル・アーキテクチャー検索は、AIの汎用化を約束するAutoMLの重要な要素の一つです。 ただし、これらの検索ではしばしば、カーボンフットプリントが非常に高くなります。 このようなトレードオフの検討はまだ行われておらず、エコロジカルコストの最適化はNASのアプローチにおいて現在進行形の検索領域となっています。

関連リンク

データサイエンス

機械学習

AutoAI


AutoMLを使用するための戦略

自動化された機械学習というと、組織がコストのかかるデータサイエンティストの代わりに使える技術的な技術的ソリューションの万能薬のように聞こえますが、実際にそれを使うには、組織の知的な戦略が必要です。 データサイエンティストは、実験を設計し、結果をビジネスの成果に結びつけ、機械学習モデルのライフサイクル全体を維持するのに不可欠な役割を担っています。 では、機能横断的チームは、どのようにしてAutoMLを利用して、時間の使用を最適化し、モデルから価値を実現するまでの時間を短縮するのでしょうか。

AutoML APIを搭載する最適なワークフローは、ワークロードを並列化し、手動で集中的に行う作業にかかる時間を短縮します。 データサイエンティストは、ハイパーパラメーターの調整に何日も費やす代わりに、複数のタイプのモデルでこのプロセスを同時に自動化し、どのモデルが最もパフォーマンスが高いかを後からテストすることができます。  

さらに、AutoMLの特徴量により、異なるスキルレベルのチーム・メンバーがデータサイエンスのパイプラインに貢献できるようになりました。 Pythonの専門知識を持たないデータアナリストは、Watson StudioAutoAIのようなツールキットを活用し、照会によって自分で抽出できたデータを使って予測モデルをトレーニングすることができます。 データ・アナリストは、AuotMLを使用することで、データの前処理、機械学習パイプラインの構築、そしてデータサイエンス・チームの力を借りずに、自身の仮説の検証に使用できる完全に訓練されたモデルを作成することができます。


AutoMLとIBM AutoAI

IBMの研究者や開発者は、AutoMLの成長と発展に貢献しています。 IBM Watsonに搭載されたAutoAIによる継続的な製品開発や、オープン・ソースの自動化されたデータサイエンス・ライブラリーであるLale(ibm.com外部へのリンク)に対するIBMの研究者の取り組みなどは、次世代のAIアプローチの創出を支援するIBMの取り組みの一例です。 Laleはオープン・ソースのプロジェクトですが、実はAutoAIの多くの機能のコアとなっています。 

PythonをMLスタックのコアとして使用しているデータサイエンス・チームのために、Laleは、scikit-learn(ibm.com外部へのリンク)のパイプラインにシームレスに統合される半自動ライブラリーを提供します。これは、auto-sklearn(ibm.com外部へのリンク)やTPOT(ibm.com外部へのリンク)のようなライブラリーとは異なります。 Laleはscikit-learnを超えた自動化、正しさのチェック、そして相互運用性を実現します。 scikit-learnのパラダイムをベースにしながらも、使用できる他のPythonライブラリーや、JavaやRなどの言語のライブラリーからのトランスフォーマーや演算子の数が増えています。 

AutoAIは、上述した自動機械学習のすべての要素およびそれ以上のものを提供します。 Auto MLの現在の機能は、データサイエンティストやMLエンジニアのワークロードのごく一部を自動化するに過ぎません。 Watson StudioとAutoAIは、データサイエンスチームがAI/MLのライフサイクル全体を迅速に自動化し、ビジネス課題の解決に向けた実験を行うことができます。 チームは、機械学習モデルのプロトタイプのセットから始めることで、予測能力の市場投入までの時間を短縮することができます。 Watson StudioのAutoAIは、自動化された特徴量エンジニアリング、自動化されたハイパーパラメーターの最適化、および機械学習モデルの選択を簡略化します。 データサイエンティストやデータアナリストのチームは、仮説を素早く評価することができ、モデルの妥当性を確認する前に、QAや本番環境で使用するためにモデルを展開することができます。 

あなたやあなたのチームが、高度なデータサイエンスの実践のためにAutoMLを試してみたいとお考えでしたら、私たちは最新のモデル構築イニシアチブのパートナーとなることができます。 モデルのトレーニング、選択、展開を迅速にプロトタイピングすることの価値は、各企業が証明しています。 これから始めようとしている方は、IBM Developerチュートリアルやユースケースをご検討ください。 

無料のIBM Cloudアカウントに登録すると、LiteプランでWatson StudioのAutoAIによる高速プロトタイピングをお試しいただけます。 


関連ソリューション

AutoAI

AutoAIは、自動化された機械学習(AutoML)のバリエーションです。 モデル構築の自動化を機械学習モデルのライフサイクル全体に拡張します。