Arbeiten mit unstrukturierten Daten
Mit Werkzeugen für unstrukturierte Daten können Sie Metadaten für unstrukturierte Dokumente importieren, diese Dokumente transformieren, Entitäten und Einbettungen generieren, Dokumentensätze und Dokumentenbibliotheken erstellen, die dann in Ihren KI-Projekten verwendet werden können.
- Cloudplattformen
- Einige Funktionen sind möglicherweise nicht in allen Regionen und auf allen Cloud-Plattformen verfügbar. Siehe Regionale Verfügbarkeit.
Die Kuratierung unstrukturierter Daten und die Integration unstrukturierter Daten sind unter watsonx.data und Data Fabric verfügbar.
Voraussetzungen
Um die Integration unstrukturierter Daten nutzen zu können, müssen die folgenden Dienste bereitgestellt werden:
- watsonx.data-Integration
- watsonx.ai-Runtime
- watsonx.data
Um die Funktionen zur Kuratierung unstrukturierter Daten nutzen zu können, ist außerdem „ watsonx.data intelligence “ erforderlich.
Sie müssen ein Projekt in der watsonx.data oder Data Fabric eingerichtet haben, um mit unstrukturierten Datenbeständen zu arbeiten:
- Verknüpfen Sie eine Instanz des watsonx.ai Runtime-Dienstes mit dem Projekt. Gehen Sie in den Projekteinstellungen zu Dienste & Integrationen und verknüpfen Sie den Dienst.
- Konfigurieren Sie die Projekteinstellungen für die Integration unstrukturierter Daten.
- Fügen Sie Verbindungen zu den Datenquellen hinzu, aus denen Sie Daten importieren möchten, sowie zu den Datenbanken, in denen Sie die generierten Einbettungen, Entitäten und Dokumentensätze speichern möchten. Weitere Informationen finden Sie unter Unterstützte Konnektoren für die Kuration unstrukturierter Daten.
- Richten Sie die Anmeldeinformationen für die Aufgabe ein.
- Vergewissern Sie sich, dass Sie und andere Benutzer, die mit unstrukturierten Daten arbeiten wollen, den erforderlichen Zugang haben:
- Zum Erstellen, Bearbeiten oder Löschen von Projekt-Assets jeglicher Art und zum Ausführen von Flüssen zur Kuration unstrukturierter Daten oder zur Integration unstrukturierter Daten ist die Rolle Admin oder Editor im Projekt erforderlich.
- Zum Hinzufügen, Bearbeiten oder Löschen von Dokumentenklassen aus einem Kurations-Asset für unstrukturierte Daten benötigen Benutzer außerdem die Berechtigung Dokumentenklassen verwalten. Siehe Benutzerrollen und Berechtigungen.
Werkzeuge für unstrukturierte Daten
Für die Arbeit mit unstrukturierten Daten können Sie die folgenden Tools verwenden:
Kuratierung unstrukturierter Daten : Verwenden Sie dieses Tool, um Analyse- und Verarbeitungsabläufe für unstrukturierte Daten zu erstellen und auszuführen, auch ohne viel Erfahrung in der Entwicklung von ETL-Abläufen für RAG und analytische Abfragen. Importieren Sie Metadaten und analysieren Sie diese Dokumente, um Schlüsselaspekte für die Gruppierung zu ermitteln, und verarbeiten Sie die gruppierten Dokumente optional weiter, um Dokumentensätze für RAG vorzubereiten oder strukturierte Informationen für komplexe Abfragen zu extrahieren.
Führen Sie eine Kuratierung unstrukturierter Daten durch, um herauszufinden, welche Art von Dokumenten sich in einer Datenquelle befindet, und identifizieren Sie die Dokumente, die für Ihren Anwendungsfall geeignet sind. Nach der ersten Analyse wählen Sie die Dokumentensätze aus, die Sie weiter bearbeiten möchten.
Integration unstrukturierter Daten : Verwenden Sie dieses Tool, um unstrukturierte Datenumwandlungsflüsse flexibel zu erstellen, die Ihren Anforderungen entsprechen. Verwenden Sie Daten aus verschiedenen Quellen, entscheiden Sie, welche Schritte Sie einbeziehen und konfigurieren Sie diese, egal ob Sie Metadaten importieren, die Datenqualität verbessern, Entitäten extrahieren, Daten anreichern oder Vektoreinbettungen erzeugen möchten.
Dokumentenbibliothek : Erstellen Sie Sammlungen von Dokumentensätzen, die Sie dann in Ihren AI-Projekten wiederverwenden können.
Unstrukturierte Vermögensarten
Dokumentgruppe
Ein Dokumentensatz enthält strukturierte Informationen über einen Satz von Dokumenten, einschließlich ihres Zwecks, Inhalts und ihrer Verwendung. Dieser Asset-Typ wird während der Kuratierung unstrukturierter Daten oder als Output der Integrationsflüsse für unstrukturierte Daten erstellt. Ein Dokumentensatz enthält Informationen über den Lebenszyklus der Dokumente: über ihre Quelle, wie sie transformiert wurden und welche Derivate entstanden sind (extrahierte Entitäten, Vektoreinbettungen).
Dokumentensätze können in Katalogen veröffentlicht oder in Dokumentenbibliotheken gruppiert werden, die Sie dann in Ihren AI-Projekten wiederverwenden können.
Kuratierung unstrukturierter Daten
Ein Unstructured Data Curation Asset stellt die Konfiguration von Unstructured Data Integration Flows zur Analyse und Verarbeitung unstrukturierter Daten dar. Sie ermöglicht auch den Zugriff auf die verfügbaren Dokumentenklassen. Weitere Informationen finden Sie unter Erstellen von Kurationsflüssen für unstrukturierte Daten.
Integrationsfluss unstrukturierter Daten
Ein Fluss zur Integration unstrukturierter Daten stellt eine Pipeline konfigurierbarer Schritte dar, die definieren, welche Daten verarbeitet werden, welche Operatoren die Daten transformieren und welche Ausgabe als Ergebnis erzeugt wird. Wenn ein Ablauf fertig ist, können Sie einen Job konfigurieren, um die Läufe zu planen. Weitere Informationen finden Sie unter Erstellen von Datenaufbereitungsflüssen.