Festlegen von Größenbeschränkungen für Dateien in externen Vektorspeichern
Sie können benutzerdefinierte Dateigrößenbeschränkungen für Dokumente in externen Vektorspeichern festlegen, die zur Verankerung Foundation-Modell -Prompts mit Kontextinformationen verwendet werden.
Vorbereitende Schritte
Sie müssen ein Clusteradministrator sein.
Vorgehensweise
Sie können die Standard-Dateigrößenbeschränkungen für Dokumente ändern, die in externen Vektorspeichern wie Elasticsearch und gespeichert watsonx.data™ Milvus sind.
- Festlegen von Dateigrößenbeschränkungen für den Cluster
- Bearbeiten Sie die
watsonxaiifmbenutzerdefinierte Ressource, um die Größenbeschränkung in Megabyte (MB), Kilobyte (KB) oder Gigabyte (GB) für jeden Dateityp festzulegen, der in einem Vektordatenspeicher gespeichert wird. Die Dateigrößenbeschränkungen gelten für den gesamten Cluster.Die folgende Tabelle beschreibt, welche Attribute Sie in Ihrer benutzerdefinierten Ressource festlegen können, um Größenbeschränkungen für verschiedene Dateitypen anzugeben:
Führen Sie beispielsweise den folgenden Befehl aus, um Größenbeschränkungen für PDF- und HTML-Dateien in Ihrem Vektordatenspeicher festzulegen:Dateityp Benutzerdefiniertes Ressourcenattribut CSV csv_file_type_limitDOKUMENTE doc_file_type_limitHTML html_file_type_limitJSON json_file_type_limitPPTX pptx_file_type_limitPDF-Datei pdf_file_type_limitTXT txt_file_type_limitYAML yaml_file_type_limitXLS xls_file_type_limitXML xml_file_type_limitoc patch watsonxaiifm watsonxaiifm-cr \ --namespace=${PROJECT_CPD_INST_OPERANDS} \ --type=merge \ --patch='{"spec":{"file_limits": {"pdf_file_type_limit": "50MB", "html_file_type_limit": "20MB"}}}'Achtung: Wenn Sie die Dateigrößenbeschränkungen für Ihren Cluster überschreiben und dann denwatsonxaiifmOperator während eines Service-Upgrades neu starten, werden die Einstellungen auf Cluster-Ebene entfernt und die Standard-Dateigrößenbeschränkungen angewendet. Sie müssen alle Konfigurationen zur Überschreibung der Dateigrößenbeschränkung auf Cluster-Ebene erneut anwenden. - Festlegen von Dateigrößenbeschränkungen für ein Projekt
- Verwenden Sie die Asset-Datei-API, um die Größenbeschränkung für jeden Dateityp festzulegen, der in Ihrem Vektordatenspeicher gespeichert ist. Einzelheiten zu den API-Methoden finden Sie unter „Daten und KI – Gemeinsame Kern-Software-APIs “.Hinweis: Wenn Sie sowohl die Dateigrößenbeschränkung auf Cluster-Ebene als auch auf Projekt-Ebene festlegen, haben die Einstellungen auf Projekt-Ebene Vorrang und werden auf Ihre Installation angewendet.Überprüfen Sie die folgenden Anforderungen für die Konfiguration der Dateigrößenbeschränkung auf Projektebene:
- Die Konfiguration zur Überschreibung der Dateigrößenbeschränkung muss ausschließlich im JSON-Format bereitgestellt werden. Ein ungültiges JSON-Format führt dazu, dass die Konfiguration zur Überschreibung der Dateigröße nicht korrekt festgelegt wird.
- Wenn Sie für einen bestimmten Dateityp kein Limit festlegen, wird die Einstellung auf Cluster-Ebene für diesen Dateityp verwendet.
Dateityp JSON-Konfigurationsattribut CSV WX_MIME_TYPE_CSVDOKUMENTE WX_MIME_TYPE_DOCHTML WX_MIME_TYPE_HTMLJSON WX_MIME_TYPE_JSONPPTX WX_MIME_TYPE_PPTXPDF-Datei WX_MIME_TYPE_PDFTXT WX_MIME_TYPE_TXTYAML WX_MIME_TYPE_YAMLXLS WX_MIME_TYPE_XLSXML WX_MIME_TYPE_XMLSie können Dateigrößenbeschränkungen für mehrere Projekte gleichzeitig in einer einzigen Konfigurationsdatei festlegen. Führen Sie die folgende Anfrage aus, um die Standardwerte zu überschreiben und benutzerdefinierte Dateigrößenbeschränkungen festzulegen, die in einer JSON-Konfigurationsdatei angegeben sind:
curl --location --request PUT '<cluster_url>/v2/asset_files/config/override_config.json?account_id=999&root=true' \ --header 'Authorization: Bearer ${ACCESS_TOKEN}' \ --form 'file=@"/Users/<user_system_name>/Documents/override_config.json"'Wichtig: Wenn Sie den Befehl „Asset cURL Files API“ ausführen, müssen Sie für jedes Projekt, für das Sie die Dateigrößenbeschränkungen ändern möchten, entsprechende Beschränkungen festlegen. Um die Überschreibungseinstellungen für bestehende Projekte beizubehalten und die Konfiguration für neue Projekte zu aktualisieren, stellen Sie sicher, dass Sie die Konfiguration für die vollständige Liste der betroffenen Projekte in Ihrem Arbeitsbereich in der JSON-Konfigurationsdatei angeben. Einstellungen werden für alle Projekte gelöscht, die nicht in der Konfigurationsdatei enthalten sind.Die folgende Datei ist ein Beispiel,override_config.jsondas benutzerdefinierte Größenbeschränkungen für PDF- und TXT-Dateitypen für zwei Projekte festlegt:
Weitere Informationen zum Abrufen der watsonx™ Projekt-ID finden Sie unter Projekt-ID suchen.{ "project_overrides": { "<watsonx project ID 1>": { "vector_indexes": { "WX_MIME_TYPE_PDF": "10MB", "WX_MIME_TYPE_TXT": "10MB", "WX_MIME_TYPE_CSV": "10MB", "WX_MIME_TYPE_HTML": "10MB", "WX_MIME_TYPE_JSON": "10MB", "WX_MIME_TYPE_XLS": "10MB", "WX_MIME_TYPE_PPTX": "10MB", "WX_MIME_TYPE_DOC": "10MB" } }, "<watsonx project ID 2>": { "vector_indexes": { "WX_MIME_TYPE_PDF": "10MB", "WX_MIME_TYPE_TXT": "10MB", "WX_MIME_TYPE_CSV": "10MB", "WX_MIME_TYPE_HTML": "10MB", "WX_MIME_TYPE_JSON": "10MB", "WX_MIME_TYPE_XLS": "10MB", "WX_MIME_TYPE_PPTX": "10MB", "WX_MIME_TYPE_DOC": "10MB" } } } }- Optional: Führen Sie den folgenden Befehl aus, um zu überprüfen, ob Ihre Einstellungen für die Dateigrößenbeschränkung korrekt angewendet wurden:
Die Einstellungen können bis zu 15 Minuten dauern, bis sie wirksam werden.curl --location --request GET 'https://<cluster_url>/v2/asset_files/config/override_config.json?account_id=999&root=true' \ --header 'Authorization: Bearer ${TOKEN}'
Nächste Schritte
Um mit der Indizierung Ihrer Dokumente durch Hinzufügen der Dateien zu Vektordatenspeichern zu beginnen, lesen Sie den Abschnitt Hinzufügen vektorisierter Dokumente.