Datenquelle erstellen

Eine Datenquelle ist ein Repository oder ein System, das Daten zur Verwendung in Anwendungen oder Systemen speichert und bereitstellt. Es handelt sich dabei um Speicherorte, die Daten zur Verwendung in KI-Workflows bereitstellen. Sie dient als Grundlage für die Einspeisung von Informationen in die Datenpipeline. Sie können zwischen verschiedenen Optionen wählen, darunter Amazon S3 und IBM Storage Scale file system.

Vorbereitende Schritte

Informationen zu dieser Task

  • IBM Fusion Content-Aware Storage (CAS ) hat keine direkte Schnittstelle zu S3 Speicheranbietern. Es greift über das Dateisystem IBM Storage Scale S3 auf den Speicher S3 zu und bietet bei aktivierter Active File Management (AFM)-Funktion eine zwischengespeicherte Kopie des Inhalts von S3.
  • Es werden bis zu 25 CAS-Datenquellen unterstützt. Jede Datenquelle kann eine der folgenden sein:
    • Ein externer S3 Bucket, der ein IBM Storage Scale AFM Fileset verwendet, um den Inhalt von S3 aufzunehmen.
    • Ein Dateiset, das sich auf dem an CAS angeschlossenen Dateisystem IBM Storage Scale befindet (ohne AFM).
  • Die folgenden Einschränkungen gelten für Änderungsbenachrichtigungen für Dateisets, die sich im IBM Storage Scale-Dateisystem befinden, das von IBM Fusion Global Data Platform Service (ohne AFM) remote gemountet wird:
    • Bis zu 10 Millionen Dateien pro Datensatz
    • Bis zu 100 Millionen Dateien insgesamt überwacht
  • Es wird nur ein unabhängiger Dateisatz unterstützt.

Vorgehensweise

  1. Gehen Sie im Menü zu Content-aware storage > Data source.
  2. Klicken Sie auf der Seite Datenquellen auf Datenquelle verbinden.
  3. Geben Sie den Namen der Datenquelle ein.
  4. Wählen Sie den Speichertyp und klicken Sie auf Weiter.
    Die verfügbaren Speichertypen sind IBM Cloud, IBM Storage Skalieren, AWS, S3 Konform.
  5. Geben Sie die folgenden Details auf der Seite Verbindungsdetails ein.
    Die Seite mit den Verbindungsdetails hängt von der Auswahl des Speichertyps ab.
    • IBM Cloud, AWS, oder S3 Konform
      • Geben Sie den Endpunkt ein.

        Sie bezieht sich auf die Adresse URL, über die Sie auf den Eimer und seinen Inhalt zugreifen können. Weitere Informationen über Endpunktregeln finden Sie in der Dokumentation AWS.

      • Geben Sie den Namen des S3 Bucket ein.

        Weitere Informationen zu den Richtlinien für die Benennung von Buckets finden Sie in der Dokumentation AWS.

      • Geben Sie unter AWS die Region ein. Es ist die Region Amazon Web Services, in der sich der Eimer befindet.
      • Eingabe des Zugangsschlüssels und des geheimen Zugangsschlüssels

        Dies sind die Sicherheitsdaten, die für den Zugriff auf den Inhalt des Buckets erforderlich sind.

      • Geben Sie im Abschnitt Zertifikatseinstellungen den geheimen Namen für das Zertifikat ein.

        Dieser Parameter ist wahlfrei. SSL-gesicherte Objektspeicherpositionen erfordern Zertifikate für die Authentifizierung. Erstellen Sie ein OpenShift TLS-Geheimnis im Namespace ibm-storage-fusion-ns oder Ihrem Fusion-Namespace. Geben Sie den geheimen Namen für die Anmeldeinformationen an.

    • IBM Storage Scale

      Betreten Sie den Pfad. Es ist der Kreuzungsweg.

  6. Wählen Sie im Abschnitt Caching filesystem das Dateisystem aus, in dem der Cache dieser Datenquelle gespeichert werden soll.
    Wenn nur ein entferntes Dateisystem erkannt wird, wird es automatisch ausgewählt und dieses Feld steht nicht zur Auswahl.
  7. Klicken Sie auf Verbinden, um die Informationen zu übermitteln, damit CAS für die Datenquelle aktiviert werden kann.

Nächste Schritte

Bestimmen Sie für die Datenquelle vom Typ IBM Storage Scale den Gruppeneigentümer, der Lese- und Ausführungsrechte für den Verbindungspfad hat, damit CAS die Dateien lesen und das Verzeichnis anzeigen kann.
Melden Sie sich bei Ihrem Scale-Cluster an, um die Berechtigung zu überprüfen. Wenn Ihr Junction-Pfad beispielsweise /gpfs/gpfs3/my-data/ lautet, führen Sie den folgenden Befehl aus, um den Pfad zu ändern:
cd /gpfs/gpfs3/
ls -la
Beispielausgabe:
drwxr-x--- 2 root cas 4096 Mai 22 19:50 my-data
[ root@tc11scale1 gpfs3 ]# getent group cas | cut -d : -f3
310
Wenn der Eigentümer der Gruppe nicht root ist, führen Sie den folgenden Befehl aus, um die Anmerkung zu der zuvor erstellten Datenquelle hinzuzufügen. In diesem Beispiel ist der Eigentümer der Gruppe cas.
oc annotate DataSource datasource-name group-id='310' --overwrite

Hier sind datasource-name und 310 Beispielwerte, die sich je nach dem Namen der Datenquelle und der in Scale eingestellten GID ändern können.