AutoMLとは
自動化された機械学習(AutoML)は、機械学習モデル(MLモデル)を構築してトレーニングする際にデータサイエンティストが行わなければならない手作業のタスクを自動化するプロセスです。これらのタスクには、フィーチャー・エンジニアリングと選択、機械学習アルゴリズムのタイプの選択、アルゴリズムに基づく分析モデルの構築、ハイパーパラメーターの最適化、テストされたデータ・セットでのモデルのトレーニング、スコアと検知結果の生成のためのモデルの実行が含まれます。データサイエンティストが、MLモデルに関する深い専門知識を持たずに予測モデルを構築できるように、研究者がAutoMLを開発しました。AutoMLはまた、機械学習のパイプライン構築に伴う単純作業からデータサイエンティストを解放して、重要なビジネス上の課題の解決に必要な洞察を引き出すことに集中できるようにします。
AutoAIとは
AutoAIはAutoMLのバリエーションです。モデル構築の自動化を、AIライフサイクルの全体に拡張します。AutoMLと同様に、AutoAIは予測機械学習モデルを構築するステップにインテリジェントな自動化を適用します。これらのステップには、トレーニング用のデータ・セットの準備、所定のデータに最適なモデル・タイプの識別(分類モデルまたは回帰モデルなど)、モデルが解決を試みる問題を最適にサポートするデータ列の選択(フィーチャー選択)が含まれます。自動化は次に、モデル候補のパイプラインを生成して正確度や精度などのメトリックに基づいてそれらをランク付けする際に、最適な結果を達成するためにさまざまなハイパーパラメーターの調整オプションをテストします。最も性能の良いパイプラインを実働環境に適用すれば、新しいデータを処理し、モデル・トレーニングに基づいた予測を提供できます。
従来の機械学習と、基盤モデルによる新しい生成AI機能を統合した、まったく新しいエンタープライズ・スタジオです。
データサイエンスに関する深い専門知識を持たなくても、機械学習やAIモデルを自動構築できます。データサイエンティスト、開発者、MLエンジニア、アナリストが、トップ候補のモデル・パイプラインを生成できるようにします。スキル・セットのギャップの解消に取り組み、機械学習プロジェクトの生産性を向上します。
カスタムのAIや機械学習モデルを数分で、さらには数秒で構築します。モデルの実験、トレーニング、導入を大規模かつより迅速に行います。機械学習とAIモデルのライフサイクルの反復可能性とガバナンスを向上しながら、平凡で時間のかかる作業を削減します。
AIライフサイクルの一部として、説明可能性、公平性、堅牢性、透明性、プライバシーに対応します。AIと機械学習におけるモデルのドリフト、バイアス、リスクを軽減します。モデルの検証と監視を行い、AIと機械学習のパフォーマンスがビジネス目標を満たしていることを確認します。 企業の社会的責任(CSR)や環境、社会とガバナンス(ESG)への適合を支援します。
ツール、プロセス、ユーザーを一元化することで、AIと機械学習モデルの運用(ModelOps)コストを削減します。レガシーまたはポイント・ツールとインフラストラクチャーの管理への支出を削減します。自動化されたAIとMLのライフサイクルを使用して、実働環境対応モデルを提供するための時間とリソースを節約します。
さまざまなアルゴリズムまたは推定器を適用して、機械学習用の生データを分析、クリーニング、準備します。カテゴリや数値などのデータ タイプに基づいて、特徴を自動的に検出して分類します。ハイパーパラメータの最適化を使用して、欠損値の代入、特徴のエンコード、および特徴のスケーリングに最適な戦略を決定します。
候補アルゴリズムのテストとデータの小さなサブセットに対するランキングを通じてモデルを選択します。最も有望なアルゴリズムのサブセットのサイズを徐々に増やします。データに最もよく一致するモデルを選択するための多数の候補アルゴリズムのランキングを有効にします。
最も正確な予測を達成するために、生データを問題を最もよく表す特徴の組み合わせに変換する。 強化学習を使用してモデルの精度を徐々に最大化しながら、構造化された網羅的でない方法で様々な特徴構築の選択肢を探索する。
機械学習で一般的なモデルのトレーニングとスコアリングを使用して、モデル パイプラインを洗練および最適化します。パフォーマンスに基づいて、実稼働に導入する最適なモデルを選択します。
モデルの入出力の詳細、トレーニングデータ、ペイロードのログを通じて、モデルのドリフト、公平性、品質のモニタリングを統合します。直接的および間接的なバイアスを分析しながら、パッシブまたはアクティブなバイアス除去を実装します。
モデルとデータに関する洞察を拡張し、モデルが期待されるパフォーマンスを満たしているかどうかを検証します。モデルの品質を測定し、モデルのパフォーマンスを比較することで、モデルを継続的に改善します。
IBM Cloud Pak for Dataを使用してデータを分析、データ・ドリフトを評価、モデル・パフォーマンスを測定することで、この銀行が得たメリットをご覧ください。
この医療ネットワークが保険金請求データを使用して敗血症を発症する可能性のある患者を特定する予測モデルをどのように構築したかをご覧ください。
このマーケティングコミュニケーション代理店がAutoAIを使用して大量の予測を推進し、新規顧客を特定する方法をご覧ください。
IBM研究チームは、AI、ML、データ管理の最先端技術を適用して、機械学習とデータ サイエンスのワークフローの作成を加速および最適化することに取り組んでいます。AutoMLに関するチームの最初の取り組みは、ハイパーパラメータ検索にハイパーバンド/ベイジアン最適化を使用し、ニューラル アーキテクチャ検索にハイパーバンド/ENAS/DARTSを使用することに焦点を当てました。
彼らは、パイプライン構成の自動化やハイパーパラメーターの最適化など、AutoAIの開発に引き続き注力してきました。大幅な機能強化は、モデルのトレーニングやスコアリングなどのコスト関数評価用に最適化されたハイパーパラメーター最適化アルゴリズムです。これは、最適なソリューションへの収束を促進するのに役立ちます。
IBM Researchはまた、自動化された人工知能を適用して、AIモデルの信頼性と説明可能性を確保しています。IBM Watson StudioのAutoAIを使用すると、ユーザーはデータの準備からアルゴリズムの選択、モデルの作成まで、プロセスの各段階を視覚化して確認できます。さらに、IBM AutoAIはモデルを継続的に改善するためのタスクを自動化し、ModelOps機能を通じてAIモデルAPIをアプリケーションに簡単に統合できるようにします。IBM Watson Studio製品におけるAutoAIの進化は、IBMが2021年Gartner Magic Quadrantでデータサイエンスと機械学習プラットフォームのリーダーに選ばれたことに貢献した。
ディープラーニングは機械学習の下位分野であり、人間の介入なしに分析タスクや物理タスクを実行するAIアプリケーションとサービスを強化することで知られています。ディープラーニングのユースケースの例には、チャットボット、医療画像認識テクノロジー、不正行為検出などがあります。ただし、機械学習と同様、深層学習アルゴリズムの設計と実行には、計算能力だけでなく多大な人間の労力も必要です。
IBM研究チームは、ディープラーニングにおいて最も複雑で時間のかかるプロセスの1つである、ニューラル・アーキテクチャ検索 (NAS)と呼ばれる手法によるニューラル・アーキテクチャの作成を調査しました。チームは開発されたNAS手法をレビューし、実践者が適切な手法を選択できるようにすることを目的として、それぞれの利点を提示しました。機械学習モデルの最もパフォーマンスの高いアーキテクチャを見つけるアプローチを自動化することは、AIの民主化をさらに進めることにつながる可能性がありますが、問題は複雑で解決が困難です。
IBM Watson Studio内のディープラーニングサービスを使用すると、ディープラーニングをすぐに始めることができます。このサービスは、複雑なニューラル・ネットワークを設計し、大規模に実験して最適化された機械学習モデルを展開するのに役立ちます。このサービスはモデルのトレーニングプロセスを簡素化するように設計されており、計算能力要件に対処するオンデマンドGPU計算クラスターも提供します。TensorFlow、Caffe、Torch、Chainerなどの一般的なオープンソースMLフレームワークを統合して、複数のGPUでモデルをトレーニングし、結果を高速化することもできます。IBM Watson Studioでは、AutoML、IBM AutoAI、Deep Learningサービスを組み合わせて、実験を加速し、構造化データと非構造化データを分析し、より優れたモデルをより迅速にデプロイできます。
AutoMLの需要は、データサイエンスの専門家と非専門家が使用できるオープンソースソフトウェアの開発につながりました。 主要なオープンソースツールには、auto-sklearn、auto-Keras 、auto-wekaなどがあります。 IBM Researchは、scikit-learnの機能を拡張して、アルゴリズムの選択、ハイパーパラメーターの調整、トポロジー検索など、幅広いオートメーションをサポートするPythonライブラリであるLale(IBM外部へのリンク)に貢献しています。 IBM Researchの論文で説明されているように、Laleは、確立されたAutoMLツールの検索スペースを自動的に生成することで機能します。実験によると、これらの検索空間は、より汎用性を提供しながら、最先端のツールに匹敵する成果を達成しています。