在 Notebook 中載入及存取資料

您可以透過從本端檔案、免費資料集或資料來源連線存取資料,將資料整合至 Notebook。 您可以將該資料載入至 Notebook 中的資料結構或儲存器,例如 pandas.DataFrame、 numpy.array、Spark RDD 或 Spark DataFrame。

若要在 Notebook 中使用資料,您可以在下列選項之間進行選擇:

選項 建議方法 < 詳細資料
從本端系統新增檔案中的資料 按一下工具列中的 程式碼 Snippet 圖示 (程式碼 Snippet 圖示) ,然後按一下 讀取資料 ,以使用針對所選取資料來源產生的程式碼 檔案必須以專案資產形式存在 從本端系統新增檔案
從範例中的免費資料集新增資料 按一下工具列中的 程式碼 Snippet 圖示 (程式碼 Snippet 圖示) ,然後按一下 讀取資料 ,以使用針對所選取資料來源產生的程式碼 資料集 (檔案) 必須作為專案資產存在 使用來自範例的免費資料集
從資料來源連線載入資料 按一下工具列中的 程式碼 Snippet 圖示 (程式碼 Snippet 圖示) ,然後按一下 讀取資料 ,以使用針對所選取資料來源產生的程式碼 連線必須以專案資產形式存在 從資料來源連線載入資料
以程式化方式存取專案資產和 meta 資料 使用 ibm-watson-studio-lib 資料來源必須以專案資產形式存在 使用 ibm-watson-studio-lib 程式庫與資料資產互動
建立及使用特性儲存庫資料 使用 assetframe-lib 程式庫函數 資料資產必須作為專案中的資產存在 使用 Python 的 assetframe-lib 程式庫來建立及使用特性儲存庫資料
使用 API 函數或作業系統指令存取資料 例如,使用 Wget 不適用 使用 API 函數或作業系統指令存取資料
重要事項: 請確定啟動 Notebook 所在的環境具有足夠的記憶體來儲存您載入至 Notebook 的資料。 環境具有的記憶體必須遠多於載入至 Notebook 的資料大小總計。 部分資料架構 (例如 Pandas) 可以在記憶體中保留多個資料副本。

從本端檔案載入資料

若要從本端檔案存取資料,您可以從 Notebook 內載入檔案,或先將檔案載入至專案。 從 Notebook 中,您可以透過按一下 程式碼 Snippet 圖示 (程式碼 Snippet 圖示) ,然後按一下 讀取資料,來新增自動產生的程式碼以存取資料。 產生的程式碼可作為快速入門,讓您輕鬆開始使用資料集。

針對檔案類型 (例如 CSV、JSON 及 XLSX) 產生程式碼。 若要瞭解每一種 Notebook 語言會產生哪些資料結構,請參閱資料載入支援。 對於不支援產生程式碼的檔案類型,您只能插入檔案認證。 利用這些認證,您可撰寫自己的程式碼,來將檔案資料載入至 Notebook 單元中的 DataFrame 或其他資料結構。

若要將檔案從本端系統新增至 Notebook,請執行下列動作:

  1. 以編輯模式開啟 Notebook ,從工具列按一下 將資產上傳至專案 圖示 (顯示「將資產上傳至專案」圖示) ,然後瀏覽資料檔或將它拖曳至 Notebook 資訊看板。
  2. 按一下 程式碼 Snippet 圖示 (程式碼 Snippet 圖示) ,按一下 讀取資料 ,然後從專案中選取資料檔。 如果您想要選取不同的資料檔,請使用鉛筆圖示。
  3. 在載入為下拉清單中,選取您喜好的載入選項。
  4. 按一下 Notebook 中的空程式碼單元,然後按一下以插入產生的程式碼。 或者,按一下以將產生的程式碼複製到剪貼簿,然後將程式碼貼入 Notebook。

若要自行手動針對檔案存取方法和 DataFrame 新增檔案認證和撰寫程式碼:

  1. 透過按一下 將資產上傳至專案 圖示 (顯示「將資產上傳至專案」圖示) ,然後瀏覽資料檔案或將資料檔案拖曳至 Notebook 資訊看板,將檔案新增至物件儲存空間。
  2. 按一下 程式碼 Snippet 圖示 (程式碼 Snippet 圖示) ,然後按一下 讀取資料
  3. 按一下 Notebook 中的空程式碼單元,選取載入選項 認證,然後將認證載入至單元。 您也可以按一下以將認證複製到剪貼簿,然後將它們貼至 Notebook。
  4. 將認證插入 Notebook 語言的適當方法中,以存取 Notebook 中的資料。 例如,請參閱 Python 的部落格中的這個程式碼。
  5. 以適合您語言的讀取方法參照資料存取方法,將資料載入至 DataFrame 或其他資料結構。

從範例載入資料集

「範例」上的資料集包含開啟資料。 觀看此簡短視訊,以瞭解如何使用「範例」中的公用資料集。

此視訊提供視覺化方法,以瞭解本文件中的概念及作業。


若要從 Notebook 中的「範例」新增資料集,請將資料集複製到專案:

  1. 從 IBM watsonx 導覽功能表中,選取「範例」。
  2. 尋找您要新增之資料集的卡片。 資料集的視圖
  3. 按一下 新增至專案,選取專案,然後按一下 新增。 按一下檢視專案會將您帶至專案概觀頁面。 資料資產會新增至專案「資產」頁面上的資料資產清單。
  4. 以編輯模式開啟 Notebook ,按一下工具列中的 程式碼 Snippet 圖示 (程式碼 Snippet 圖示) ,按一下 讀取資料 ,然後從專案中選取資料資產。
  5. 在載入為下拉清單中,選取您喜好的載入選項。
  6. 按一下 Notebook 中的空程式碼單元,然後按一下以插入產生的程式碼。 或者,按一下以將產生的程式碼複製到剪貼簿,然後將程式碼貼入 Notebook。 產生的程式碼可作為開始使用資料集或連線的快速入門。 對於正式作業系統,請仔細檢閱插入的程式碼,以判定您是否應該撰寫更符合需求的專屬程式碼。

從資料來源連線載入資料

您必須先建立或新增專案的連線,然後才能從 IBM 資料服務或外部資料來源載入資料。 請參閱新增連線至專案

您可以透過按一下 Notebook 工具列中的 程式碼 Snippet 圖示 (程式碼 Snippet 圖示) ,然後按一下 讀取資料,來新增自動產生的程式碼以從資料庫連線載入資料。 若要瞭解哪些資料庫連線受支援,請參閱資料載入支援。 對於不受支援的資料庫連線,您只能插入資料庫連線認證。 利用這些認證,您可撰寫自己的程式碼,來將資料載入至 Notebook 單元中的 DataFrame 或其他資料結構。

若要從現有資料來源連線將資料載入至 Notebook 中的資料結構,請採取下列動作:

  1. 以編輯模式開啟 Notebook ,按一下工具列中的 程式碼 Snippet 圖示 (程式碼 Snippet 圖示) ,按一下 讀取資料 ,然後從專案中選取資料來源連線。 如果您想要選取不同的連線,請使用鉛筆圖示。
  2. 選取綱目並選擇表格。 如果您要變更選項,請使用鉛筆圖示。
  3. 選取載入選項。 如果您在選擇綱目和表格之後選取認證而非資料載入選項,則只會產生 meta 資料。
  4. 按一下 Notebook 中的空程式碼單元,然後將程式碼插入至單元。 或者,按一下以將產生的程式碼複製到剪貼簿,然後將程式碼貼入 Notebook。 產生的程式碼可作為開始使用資料集或連線的快速入門。 對於正式作業系統,請仔細檢閱插入的程式碼,以判定您是否應該撰寫更符合需求的專屬程式碼。
  5. 必要的話,請輸入以鑰匙圖示 (具有個人認證之連線的金鑰符號) 標示之已鎖定資料連線的個人認證。 這是一次性步驟,可永久地為您解除鎖定連線。 在您解除鎖定連線之後,就不會再顯示鑰匙圖示。 請參閱新增連線至專案
  6. 如果無法產生連線的程式碼,請載入認證並開啟參照您認證的資料庫連線。 撰寫程式碼以載入資料。

使用 API 函數或作業系統指令存取資料

您可以使用 Notebook 中的 API 函數或作業系統指令來存取資料,例如,使用 Wget 指令以透過 HTTP、HTTPS 或 FTP 通訊協定來存取資料。 當您使用這些類型的 API 函數及指令時,需要包括設定專案存取記號的程式碼。 請參閱手動新增專案存取記號

進一步瞭解

上層主題: 記事本和 Script