Dokumentklassen
Eine Dokumentenklasse definiert, wie strukturierte Daten aus Dokumenten zu extrahieren und den Zieldatenbanktabellen zuzuordnen sind.
Dokumentklassen werden verwendet, um Text in Ihren Dokumenten zu klassifizieren und festzustellen, ob die Daten in Ihrem Dokument einer bestimmten Dokumentdomäne entsprechen. Für jede Domäne definiert eine Dokumentklasse eine Reihe von Schlüssel-Wert-Paaren für die Textextraktion. Der extrahierte Text kann vektorisiert und in eine Vektordatenbank geschrieben werden, um ihn mit Basismodellen zu verwenden, beispielsweise in RAG-Lösungen. Der Text kann auch in eine strukturierte Datenbanktabelle, beispielsweise eine Ent itätstabelle, geschrieben werden, um komplexe KI-Abfragen auszuführen oder für Governance-Anwendungsfälle zu verwenden.
- Erforderliche Berechtigungen
- Um benutzerdefinierte Dokumentenklassen zu erstellen, müssen Sie zusätzlich zur Rolle Admin oder Editor im Projekt die Berechtigung Dokumentenklassen verwalten haben.
Vordefinierte Dokumentenklassen
Auf der Grundlage dieser vordefinierten Dokumentenklassen können Sie Text aus Ihren Dokumenten klassifizieren oder extrahieren:
- ACORD-Versicherungsformular
- Kontoauszüge
- Frachtbrief
- Geschäftslizenzen und Genehmigungen
- Erklärung des Klägers
- Kontoauszüge von Kreditkarten
- Zollformular
- Empfangsquittung
- Diplom / Zertifizierung
- Führerschein
- Spesenberichte
- Finanzbericht
- I-9 Formular
- Erstantragsformular für Einkommensersatzleistungen/Prämienbefreiung
- Versicherungsanspruch
- Rechnung
- Lebensversicherung Autorisierungsformular
- Hypothek/Darlehen Dokument
- Nationale ID-Karte
- Reisepass
- Formular für die Patientenaufnahme
- Bestellung
- Beleg
- Überweisung/Zahlungsavis
- Steuerformulare ( W-9, 1099, 941, 1120)
- Abschriften
- Rechnung eines Versorgungsunternehmens
- W-4 Formular
Details zur Dokumentenklasse
Wenn Sie eine Dokumentenklassendefinition anzeigen, können Sie die folgenden Informationen sehen.
Allgemein
Dieser Abschnitt enthält eine Beschreibung der Dokumentenklasse und listet, falls vorhanden, zusätzliche Anweisungen zur Eingabeaufforderung auf. Sie können beide Felder bearbeiten.
Wenn Sie eine benutzerdefinierte Dokumentenklasse erstellen, fügen Sie Schlüsselwörter in die Beschreibung ein, die zur Identifizierung der Dokumente beitragen. In den vordefinierten Dokumentenklassen finden Sie Beispiele. Als zusätzliche Anweisungen geben Sie Hinweise, die auf eine gesamte Dokumentseite angewendet werden können, um die Genauigkeit der Extraktion zu verbessern, z. B. „Ignorieren Sie Anweisungstexte und handschriftliche Notizen“ Diese zusätzlichen Hinweise helfen der KI dabei, Informationen genauer zu extrahieren.
Im Dokumentklassen-Editor können Sie diese Felder auf der Registerkarte „Details“ finden und bearbeiten.
In der JSON-Datei sind diese Felder im Document Objekt definiert.
Datenabgleich und Datenextraktion
In diesem Abschnitt werden die Felder aufgelistet, die für diese Dokumentenklasse extrahiert werden können, eine Beschreibung für jedes Feld, ein Beispielwert für ein Feld und alle Extraktionsanweisungen, die für ein Feld definiert sein können. Einige Dokumentklassen verfügen über zusätzliche Feldsätze für Felder, die innerhalb eines Dokuments logisch gruppiert sind und mehrfach vorkommen können. Eine Rechnung enthält z. B. Einzelposten, z. B. mehrere Einträge für gekaufte Produkte. Diese Einzelposten können in einer Tabelle oder einer Liste gruppiert werden. Solche Feldsätze werden in separaten Tabellen beschrieben.
Im Dokumentklassen-Editor können Sie diese Felder auf der Registerkarte „Dokumentfelder“ finden und bearbeiten. Derzeit können Sie im Editor keine Feldsätze erstellen. Sie können jedoch vorhandene Feldsätze bearbeiten.
In der JSON-Datei sind diese Feldsätze als DocumentField Objekte definiert.
Zieltabelle
In diesem Abschnitt wird das Layout der Zielentitätstabelle definiert:
- Der Name der Spalte in der Zieltabelle.
- Eine Beschreibung des Inhalts der Spalte.
- Der Datentyp der Spalte, z. B. String oder Datum.
- Welche extrahierten Daten sollen der Spalte zugeordnet werden, und welche zusätzlichen Informationen wie beispielsweise Ländereinstellungen?
- Jede Transformation, die auf die Quelldaten angewandt wird, wie z. B. die Normalisierung von Daten, um sie einheitlich zu machen, oder die Umwandlung von Zeichenketten in Zahlen. Eine Transformation ist nicht erforderlich, wenn die Quelldaten direkt zugeordnet werden können, z. B. Namen oder Adressen.
Im Dokumentklassen-Editor können Sie diese Felder auf der Registerkarte „Zieltabelle“ finden und bearbeiten.
In der JSON-Datei sind die Spalten als Column Objekte in einem TargetTables Objekt definiert.
Benutzerdefinierte Dokumentenklassen
Wenn die vordefinierten Dokumentenklassen Ihre Anforderungen nicht vollständig erfüllen oder die Daten, die Sie analysieren und verarbeiten möchten, nicht abdecken, können Sie eigene Datenklassen erstellen:
- Arbeiten Sie mit dem Dokumentklassen-Editor, um eine vorhandene Dokumentklasse zu aktualisieren oder eine neue zu erstellen.
- Exportieren Sie die JSON-Datei eines vorhandenen Dokuments und bearbeiten Sie die JSON-Datei oder verwenden Sie sie als Vorlage, wenn Sie eine neue Dokumentklasse erstellen. Importieren Sie anschließend die JSON-Datei. Eine neue Dokumentklasse muss bestimmte Anforderungen erfüllen. Siehe Schema-Anforderungen.
Weitere Informationen zum Aktualisieren oder Erstellen von Dokumentklassen finden Sie unter Verwalten von Dokumentklassen.
Sprachunterstützung
Die vordefinierten Dokumentklassen sind in englischer Sprache verfügbar, können jedoch Dokumente in jeder Sprache klassifizieren. Um sicherzustellen, dass nachgelagerte Anwendungen wie der Abrufdienst „ watsonx.data “ bei Abfragen in einer anderen Sprache als Englisch genaue Ergebnisse liefern, stellen Sie die Dokumentklassen in der erforderlichen Sprache bereit.
Sie können die gesamte Dokumentklasse in einer anderen Sprache als Englisch erstellen oder nur die Definition der Ausgabetabelle übersetzen.
Erstellen Sie die gesamte Dokumentklasse in einer anderen Sprache oder übersetzen Sie eine der vordefinierten Dokumentklassen.
Wichtig: Übersetzen Sie dasdocument_typeFeld nicht. Dieses Feld muss auf Englisch bleiben.Erstellen Sie eine Dokumentklasse, in der der
target_tablesAbschnitt und die Spalten in diesem Abschnitt in einer anderen Sprache verfasst sind. Alle anderen Felder sind in englischer Sprache definiert. Sie können auch die Definition der Ausgabetabelle in einer vorhandenen Dokumentklasse übersetzen.