AutoAI 概觀

AutoAI 圖形工具會分析您的資料,並使用資料演算法、轉換及參數設定來建立最佳預測模型。 AutoAI 會將各種潛在模型顯示為模型候選管線,並將它們列在排行榜上供您選擇。

資料格式
表狀: CSV 檔案,所有類型的 AutoAI 實驗都有逗點 (,) 定界字元。
來自 IBM Cloud Object Storage的已連接資料。
附註:

您可以使用儲存為 特性群組 (測試版) 的資料資產,但不會使用 meta 資料來移入 AutoAI 實驗設定。

資料大小
最多 1 GB 或最多 20 GB。 如需詳細資料,請參閱 AutoAI 資料使用

AutoAI 資料使用

這些限制基於預設計算配置 8 CPU 和 32 GB。

AutoAI 分類及迴歸實驗:

  • 您可以上傳最多 1 GB 的檔案,以用於 AutoAI 實驗。
  • 如果您連接至超出 1 GB 的資料來源,則只會使用前 1 GB 的記錄。

AutoAI 時間序列實驗:

  • 如果資料來源包含時間戳記直欄,則 AutoAI 會以統一頻率對資料進行取樣。 例如,資料可以增量為一分鐘、一小時或一天。 指定的時間戳記用來決定回顧時間範圍,以改善模型精確度。

    附註:

    如果檔案大小大於 1 GB ,則 AutoAi 會以 遞減 時間順序對資料進行排序,並且僅使用前 1 GB 來訓練實驗。

  • 如果資料來源不包含時間戳記直欄,請確保 AutoAI 會以一致間隔對資料進行取樣,並以 遞增 時間順序對資料進行排序。 遞增排序表示第一列中的值是最舊的,而最後一列中的值是最新的。

    附註: 如果檔案大小大於 1 GB ,請截斷檔案大小,使其小於 1 GB。

AutoAI 程序

您可以使用 AutoAI 來建置並部署具有更準確的訓練特性且無需編碼的機器學習模型。 該工具會為您執行大部分工作。

若要檢視建立特定實驗或以程式設計方式與實驗互動的程式碼,您可以 將實驗儲存為 Notebook

AutoAI 處理程序會從結構化檔案中取得資料、準備資料、選取模型類型,以及產生並分級管線,以便您可以儲存並部署模型。

AutoAI 自動執行下列作業,以建置並評估候選模型管線:

瞭解 AutoAI 處理程序

如需每一個階段的其他詳細資料,包括關聯研究文件的鏈結,以及建立模型管線所套用演算法的說明,請參閱 AutoAI 實作詳細資料

資料預先處理

大部分資料集包含不同的資料格式和遺漏值,但標準機器學習演算法只使用數字,而不使用遺漏值。 因此, AutoAI 會套用各種演算法或預估器來分析、清除及準備您的原始資料,以進行機器學習。 此技術會根據特性 (例如資料類型: 種類或數值) 自動偵測並分類值。 視分類而定, AutoAI 會使用 超參數最佳化 來判定遺漏值插補、特性編碼及資料特性調整的最佳策略組合。

自動化模型選擇

AutoAI 使用自動化模型選擇來識別最適合您資料的模型。 此新穎方法會針對小型資料子集測試潛在模型,並根據精確度對它們進行分級。 然後, AutoAI 會選取最有希望的模型並增加資料子集的大小,直到它識別出最佳相符項為止。 此方法會根據精確度逐漸縮小潛在模型,以節省時間並增進效能。

如需如何處理自動產生管線以選取最佳模型的相關資訊,請參閱 選取 AutoAI 模型

自動化特性工程

特性工程會將原始資料轉換成最能代表問題的特性組合,以識別最精確的模型。 此獨特方法以結構化、非詳盡的方式探索各種特性建構選項,同時透過使用強化學習來逐漸將模型精確度最大化。 此技術會針對最符合模型選取步驟演算法的資料,產生最佳化的轉換順序。

超參數最佳化

超參數最佳化會精簡最佳執行模型。 AutoAI 針對機器學習中典型的特定函數評估 (例如模型訓練和評分) 使用新穎的超參數最佳化演算法。 此方法可快速識別最佳模型,儘管每次反覆運算的評估時間都很長。

後續的步驟

AutoAI 指導教學:建置二進位分類模型

上層主題: 分析資料及建置模型