Datenquelle erstellen
Eine Datenquelle ist ein Repository oder ein System, das Daten zur Verwendung in Anwendungen oder Systemen speichert und bereitstellt. Es handelt sich dabei um Speicherorte, die Daten zur Verwendung in KI-Workflows bereitstellen. Sie dient als Grundlage für die Einspeisung von Informationen in die Datenpipeline. Sie können zwischen verschiedenen Optionen wählen, darunter Amazon S3 und IBM Storage Scale file system.
Vorbereitende Schritte
- Überprüfen Sie, ob die manuelle Einrichtung für den Zugriff auf Kafka für den mit dieser Datenquelle verbundenen Cluster konfiguriert ist. Weitere Informationen zur Konfiguration finden Sie unter Manuelles Einrichten der Verbindung zu Kafka broker. Sie müssen die Konfiguration jedes Mal vornehmen, wenn Sie das Zertifikat des Kafka -Brokers erneuern.
- Die Voraussetzungen für die Datenquelle vom Typ S3 finden Sie unter Voraussetzungen für die Datenquelle vom Typ S3.
Informationen zu dieser Task
- IBM Fusion Content-Aware Storage (CAS ) hat keine direkte Schnittstelle zu S3 Speicheranbietern. Es greift über das Dateisystem IBM Storage Scale S3 auf den Speicher S3 zu und bietet bei aktivierter Active File Management (AFM)-Funktion eine zwischengespeicherte Kopie des Inhalts von S3.
- Es werden bis zu 25 CAS-Datenquellen unterstützt. Jede Datenquelle kann eine der folgenden sein:
- Ein externer S3 Bucket, der ein IBM Storage Scale AFM Fileset verwendet, um den Inhalt von S3 aufzunehmen.
- Ein Dateiset, das sich auf dem an CAS angeschlossenen Dateisystem IBM Storage Scale befindet (ohne AFM).
- Die folgenden Einschränkungen gelten für Änderungsbenachrichtigungen für Dateisets, die sich im IBM Storage Scale-Dateisystem befinden, das von IBM Fusion Global Data Platform Service (ohne AFM) remote gemountet wird:
- Bis zu 10 Millionen Dateien pro Datensatz
- Bis zu 100 Millionen Dateien insgesamt überwacht
- Es wird nur ein unabhängiger Dateisatz unterstützt.
Vorgehensweise
Nächste Schritte
Melden Sie sich bei Ihrem Scale-Cluster an, um die Berechtigung zu überprüfen. Wenn Ihr Junction-Pfad beispielsweise /gpfs/gpfs3/my-data/ lautet, führen Sie den folgenden Befehl aus, um den Pfad zu ändern:
cd /gpfs/gpfs3/ls -laBeispielausgabe:drwxr-x--- 2 root cas 4096 Mai 22 19:50 my-data [ root@tc11scale1 gpfs3 ]# getent group cas | cut -d : -f3 310
Wenn der Eigentümer der Gruppe nicht root ist, führen Sie den folgenden Befehl aus, um die Anmerkung zu der zuvor erstellten Datenquelle hinzuzufügen. In diesem Beispiel ist der Eigentümer der Gruppe
cas.oc annotate DataSource datasource-name group-id='310' --overwriteHier sind datasource-name und 310 Beispielwerte, die sich je nach dem Namen der Datenquelle und der in Scale eingestellten GID ändern können.