Festlegen von Größenbeschränkungen für Dateien in externen Vektorspeichern

Sie können benutzerdefinierte Dateigrößenbeschränkungen für Dokumente in externen Vektorspeichern festlegen, die zur Verankerung Foundation-Modell -Prompts mit Kontextinformationen verwendet werden.

Vorbereitende Schritte

Sie müssen ein Clusteradministrator sein.

Vorgehensweise

Sie können die Standard-Dateigrößenbeschränkungen für Dokumente ändern, die in externen Vektorspeichern wie Elasticsearch und gespeichert watsonx.data™ Milvus sind.

Festlegen von Dateigrößenbeschränkungen für den Cluster
Bearbeiten Sie die watsonxaiifm benutzerdefinierte Ressource, um die Größenbeschränkung in Megabyte (MB), Kilobyte (KB) oder Gigabyte (GB) für jeden Dateityp festzulegen, der in einem Vektordatenspeicher gespeichert wird. Die Dateigrößenbeschränkungen gelten für den gesamten Cluster.

Die folgende Tabelle beschreibt, welche Attribute Sie in Ihrer benutzerdefinierten Ressource festlegen können, um Größenbeschränkungen für verschiedene Dateitypen anzugeben:

Dateityp Benutzerdefiniertes Ressourcenattribut
CSV csv_file_type_limit
DOKUMENTE doc_file_type_limit
HTML html_file_type_limit
JSON json_file_type_limit
PPTX pptx_file_type_limit
PDF-Datei pdf_file_type_limit
TXT txt_file_type_limit
YAML yaml_file_type_limit
XLS xls_file_type_limit
XML xml_file_type_limit
Führen Sie beispielsweise den folgenden Befehl aus, um Größenbeschränkungen für PDF- und HTML-Dateien in Ihrem Vektordatenspeicher festzulegen:
oc patch watsonxaiifm watsonxaiifm-cr \
--namespace=${PROJECT_CPD_INST_OPERANDS} \
--type=merge \
--patch='{"spec":{"file_limits": {"pdf_file_type_limit": "50MB", "html_file_type_limit": "20MB"}}}'
Achtung: Wenn Sie die Dateigrößenbeschränkungen für Ihren Cluster überschreiben und dann den watsonxaiifm Operator während eines Service-Upgrades neu starten, werden die Einstellungen auf Cluster-Ebene entfernt und die Standard-Dateigrößenbeschränkungen angewendet. Sie müssen alle Konfigurationen zur Überschreibung der Dateigrößenbeschränkung auf Cluster-Ebene erneut anwenden.
Festlegen von Dateigrößenbeschränkungen für ein Projekt
Verwenden Sie die Asset-Datei-API, um die Größenbeschränkung für jeden Dateityp festzulegen, der in Ihrem Vektordatenspeicher gespeichert ist. Einzelheiten zu den API-Methoden finden Sie unter „Daten und KI – Gemeinsame Kern-Software-APIs “.
Hinweis: Wenn Sie sowohl die Dateigrößenbeschränkung auf Cluster-Ebene als auch auf Projekt-Ebene festlegen, haben die Einstellungen auf Projekt-Ebene Vorrang und werden auf Ihre Installation angewendet.
Überprüfen Sie die folgenden Anforderungen für die Konfiguration der Dateigrößenbeschränkung auf Projektebene:
  • Die Konfiguration zur Überschreibung der Dateigrößenbeschränkung muss ausschließlich im JSON-Format bereitgestellt werden. Ein ungültiges JSON-Format führt dazu, dass die Konfiguration zur Überschreibung der Dateigröße nicht korrekt festgelegt wird.
  • Wenn Sie für einen bestimmten Dateityp kein Limit festlegen, wird die Einstellung auf Cluster-Ebene für diesen Dateityp verwendet.
Die folgende Tabelle beschreibt, welche Attribute Sie in Ihrer JSON-Konfigurationsdatei festlegen können, um Größenbeschränkungen für verschiedene Dateitypen anzugeben:
Dateityp JSON-Konfigurationsattribut
CSV WX_MIME_TYPE_CSV
DOKUMENTE WX_MIME_TYPE_DOC
HTML WX_MIME_TYPE_HTML
JSON WX_MIME_TYPE_JSON
PPTX WX_MIME_TYPE_PPTX
PDF-Datei WX_MIME_TYPE_PDF
TXT WX_MIME_TYPE_TXT
YAML WX_MIME_TYPE_YAML
XLS WX_MIME_TYPE_XLS
XML WX_MIME_TYPE_XML
  1. Sie können Dateigrößenbeschränkungen für mehrere Projekte gleichzeitig in einer einzigen Konfigurationsdatei festlegen. Führen Sie die folgende Anfrage aus, um die Standardwerte zu überschreiben und benutzerdefinierte Dateigrößenbeschränkungen festzulegen, die in einer JSON-Konfigurationsdatei angegeben sind:

    curl --location --request PUT '<cluster_url>/v2/asset_files/config/override_config.json?account_id=999&root=true' \
    --header 'Authorization: Bearer ${ACCESS_TOKEN}' \
    --form 'file=@"/Users/<user_system_name>/Documents/override_config.json"'
    Wichtig: Wenn Sie den Befehl „Asset cURL Files API“ ausführen, müssen Sie für jedes Projekt, für das Sie die Dateigrößenbeschränkungen ändern möchten, entsprechende Beschränkungen festlegen. Um die Überschreibungseinstellungen für bestehende Projekte beizubehalten und die Konfiguration für neue Projekte zu aktualisieren, stellen Sie sicher, dass Sie die Konfiguration für die vollständige Liste der betroffenen Projekte in Ihrem Arbeitsbereich in der JSON-Konfigurationsdatei angeben. Einstellungen werden für alle Projekte gelöscht, die nicht in der Konfigurationsdatei enthalten sind.
    Die folgende Datei ist ein Beispiel, override_config.json das benutzerdefinierte Größenbeschränkungen für PDF- und TXT-Dateitypen für zwei Projekte festlegt:
    {
        "project_overrides": {
            "<watsonx project ID 1>": {
                "vector_indexes": {
                   "WX_MIME_TYPE_PDF": "10MB",
                   "WX_MIME_TYPE_TXT": "10MB",
                   "WX_MIME_TYPE_CSV": "10MB",
                   "WX_MIME_TYPE_HTML": "10MB",
                   "WX_MIME_TYPE_JSON": "10MB",
                   "WX_MIME_TYPE_XLS": "10MB",
                   "WX_MIME_TYPE_PPTX": "10MB",
                   "WX_MIME_TYPE_DOC": "10MB"
    	     }
    	 },
            "<watsonx project ID 2>": {
                "vector_indexes": {
                   "WX_MIME_TYPE_PDF": "10MB",
                   "WX_MIME_TYPE_TXT": "10MB",
                   "WX_MIME_TYPE_CSV": "10MB",
                   "WX_MIME_TYPE_HTML": "10MB",
                   "WX_MIME_TYPE_JSON": "10MB",
                   "WX_MIME_TYPE_XLS": "10MB",
                   "WX_MIME_TYPE_PPTX": "10MB",
                   "WX_MIME_TYPE_DOC": "10MB"
    	     }
    	 }
        }
    }
    Weitere Informationen zum Abrufen der watsonx™ Projekt-ID finden Sie unter Projekt-ID suchen.
  2. Optional: Führen Sie den folgenden Befehl aus, um zu überprüfen, ob Ihre Einstellungen für die Dateigrößenbeschränkung korrekt angewendet wurden:
    curl --location --request GET 'https://<cluster_url>/v2/asset_files/config/override_config.json?account_id=999&root=true' \
    --header 'Authorization: Bearer ${TOKEN}'
    Die Einstellungen können bis zu 15 Minuten dauern, bis sie wirksam werden.

Nächste Schritte

Um mit der Indizierung Ihrer Dokumente durch Hinzufügen der Dateien zu Vektordatenspeichern zu beginnen, lesen Sie den Abschnitt Hinzufügen vektorisierter Dokumente.