Extrahieren von Daten

Wenn eine Extraktion nötig ist, wird der Bereich "Extraktionsergebnisse" gelb dargestellt und die Nachricht Schaltfläche "Extrahieren" drücken, um Konzepte zu extrahieren wird unter der Symbolleiste in diesem Bereich angezeigt.

Eventuell müssen Sie extrahieren, wenn Sie noch keine Extraktionsergebnisse haben, linguistische Ressourcen geändert haben und die Extraktionsergebnisse aktualisieren müssen oder eine Sitzung neu geöffnet haben, in der Sie die Extraktionsergebnisse nicht gespeichert haben (Tools > Optionen).

Anmerkung: Wenn Sie den Quellenknoten für Ihren Stream ändern, nachdem Extraktionsergebnisse mit der Option Arbeit der Sitzung verwenden... im Cache gespeichert wurden, müssen Sie eine neue Extraktion ausführen, sobald die interaktive Workbenchsitzung gestartet wird, damit Sie aktualisierte Extraktionsergebnisse erhalten.

Wenn Sie eine Extraktion durchführen, erscheint ein Fortschrittsanzeiger, der den Status der Extraktion anzeigt. Währenddessen liest die Extraktionsengine alle Textdaten, identifiziert die relevanten Terme und Muster, extrahiert sie und weist sie einem Typ zu. Dann versucht die Engine, synonyme Terme unter einem Leitausdruck, einem Konzept, zu gruppieren. Wenn der Vorgang abgeschlossen ist, werden die resultierenden Konzepte, Typen und Muster im Bereich "Extraktionsergebnisse" angezeigt.

Der Extraktionsprozess liefert eine Reihe von Konzepten und Typen und, sofern aktiviert, Textlinkanalysemuster (TLA-Muster). Sie können diese Konzepte und Typen im Bereich "Extraktionsergebnisse" in der Kategorie- und Konzeptansicht betrachten und dort mit ihnen arbeiten. Extrahierte TLA-Muster können Sie in der Textlinkanalyseansicht anzeigen.

Anmerkung: Die für den Extraktionsprozess benötigte Zeit steht in direkter Beziehung zur Größe Ihres Datasets. Sie haben jederzeit die Möglichkeit, einen vorgeordneten Stichprobenknoten einzufügen oder die Konfiguration Ihres Computers zu optimieren.

So extrahieren Sie Daten:

  1. Wählen Sie in den Menüs Tools > Extrahieren aus. Alternativ können Sie auf die Symbolleistenschaltfläche Extrahieren klicken.
  2. Wenn Sie das Dialogfeld "Extraktionseinstellungen" immer anzeigen lassen, wird es angezeigt, damit Sie Änderungen vornehmen können. Weitere Informationen zu Deskriptoren für jede Einstellung finden Sie in diesem Thema.
  3. Klicken Sie auf Extrahieren, um die Extraktion zu starten. Sobald die Extraktion beginnt, öffnet sich die Statusanzeige. Nach der Extraktion werden die Ergebnisse im Bereich "Extraktionsergebnisse" dargestellt. Standardmäßig werden die Konzepte in Kleinbuchstaben angezeigt und in absteigender Reihenfolge entsprechend der Dokumentanzahl (Dokumentspalte) sortiert.

Sie können die Ergebnisse überprüfen, indem Sie sie mithilfe der Optionen in der Symbolleiste unterschiedlich sortieren und filtern oder die Ansicht wechseln (Konzepte, oder Typen). Sie können die Extraktionsergebnisse auch optimieren, indem Sie mit den linguistischen Ressourcen arbeiten. Weitere Informationen finden Sie im Thema Optimieren von Extraktionsergebnissen.

Potenzielle Extraktionsprobleme

Mehrere interaktive Workbenchsitzungen können zu einer Reaktionsverlangsamung führen. SPSS Modeler Text Analytics und SPSS Modeler verwenden beim Starten einer interaktiven Workbenchsitzung eine allgemeine Java-Laufzeit-Engine gemeinsam. Je nach Anzahl der interaktiven Workbenchsitzungen, die Sie während einer SPSS Modeler-Sitzung öffnen (sogar wenn Sie dieselbe Sitzung öffnen und schließen), kann die Auslastung des Systemspeichers zu einer Verlangsamung der Anwendung führen. Dieser Effekt kann besonders verstärkt werden, wenn Sie große Datenmengen verarbeiten oder einen Computer mit weniger als der empfohlenen RAM-Größe von 4 GB verwenden. Wenn Ihr Computer langsam antwortet, wird empfohlen, die gesamte Arbeit zu speichern, SPSS Modeler zu beenden und die Anwendung erneut zu starten. Wenn Sie SPSS Modeler Text Analytics auf einem Computer mit weniger als dem empfohlenen Speicher ausführen, tritt bei Java möglicherweise ein Speicherengpass auf und Java wird beendet, insbesondere, wenn Java mit großen Datasets oder über einen längeren Zeitraum eingesetzt wird. Wenn Sie mit umfangreichen Daten arbeiten, wird dringend empfohlen, mindestens auf die empfohlenen Speichereinstellung zu aktualisieren (oder SPSS Modeler Text Analytics Server zu verwenden).

Für deutschen, englischen, italienischen, niederländischen, portugiesischen und spanischen Text

Das Dialogfeld "Extraktionseinstellungen" enthält einige grundlegende Extraktionsoptionen.

Musterextraktion für Textlinkanalyse aktivieren. Gibt an, dass Sie TLA-Muster aus Ihren Textdaten extrahieren möchten. Diese Option setzt außerdem voraus, dass TLA-Musterregeln in einer Ihrer Bibliotheken in dem Ressourceneditor vorhanden sind. Diese Option kann die Extraktionsdauer erheblich verlängern. Weitere Informationen finden Sie im Thema Untersuchen von Textlinkanalysen.

Interpunktionsfehler korrigieren. Diese Option normalisiert Text mit Interpunktionsfehlern (zum Beispiel ungeeignete Verwendung) während der Extraktion, um die Extrahierbarkeit von Konzepten zu verbessern. Diese Option ist besonders nützlich bei kurzem Text und niedriger Textqualität (wie dies beispielsweise bei offenen Antworten bei Umfragen, E-Mails und CRM-Daten der Fall ist) oder wenn der Text viele Abkürzungen enthält.

Rechtschreibung korrigieren für Mindestwortzeichenlänge von [n] Diese Option wendet ein Fuzzy-Gruppierungsverfahren an, das hilft, häufig falsch geschriebene Wörter oder ähnlich geschriebene Wörter unter einem Konzept zu gruppieren. Der Algorithmus für Fuzzy-Gruppierung entfernt alle Vokale (außer dem ersten) und doppelte/dreifache Konsonanten temporär aus extrahierten Wörtern und vergleicht sie, um festzustellen, ob sie gleich sind, sodass Modellierung und Modellierung zusammen gruppiert werden würden. Wenn jedoch jeder Term einem anderen Typ (ausschließlich des Typs <Unknown>) zugewiesen ist, wird das Fuzzy-Gruppierungsverfahren nicht angewendet.

Sie können auch die minimal erforderliche Zahl von Stammzeichen definieren, bevor Fuzzy-Gruppierung eingesetzt wird. Die Anzahl der Stammzeichen in einem Term berechnet sich aus der Summe aller Zeichen abzüglich aller Zeichen, die Beugungsendungen und - bei zusammengesetzten Termen - Determinatoren und Präpositionen bilden. So würde beispielsweise der Term Aufgaben durch die Form "Aufgabe" mit 7 Stammzeichen gezählt werden, da der Buchstabe n am Ende des Worts eine Beugung darstellt (Pluralform). Gleichermaßen werden für Apfelmus 8 Stammzeichen ("Apfelmus") gezählt und Hersteller von Autos zählt als 14 Stammzeichen ("Hersteller Auto"). Diese Zählmethode dient nur zur Überprüfung, ob die Fuzzy-Gruppierung angewendet werden soll, hat jedoch keinen Einfluss auf den Abgleich der Wörter.

Anmerkung: Wenn sich herausstellt, dass bestimmte Wörter später falsch eingruppiert werden, können Sie einzelne Wortpaare aus dem Verfahren ausschließen, indem Sie sie auf der Registerkarte "Erweiterte Ressourcen" im Bereich Fuzzy-Gruppierung: Ausnahmen explizit deklarieren. Weitere Informationen finden Sie im Thema Fuzzy-Gruppierung.

Uniterme extrahieren Diese Option extrahiert einzelne Wörter (Uniterme), solange das Wort nicht bereits Teil eines zusammengesetzten Worts ist und es entweder ein Nomen oder eine nicht erkannte Wortart ist.

Nicht linguistische Entitäten extrahieren Diese Option extrahiert nicht linguistische Entitäten wie beispielsweise Telefonnummern, Personalausweisnummern, Uhrzeiten, Datumsangaben, Währungen, Ziffern, Prozentsätze, E-Mail-Adressen und HTTP-Adressen. Sie können bestimmte Typen von nicht linguistischen Entitäten im Abschnitt Nicht linguistische Entitäten: Konfiguration der Registerkarte "Erweiterte Ressourcen" ein- bzw. ausschließen. Durch Inaktivierung unnötiger Entitäten vergeudet die Extraktionsengine keine Verarbeitungszeit. Weitere Informationen finden Sie im Thema Konfiguration.

Großbuchstabenalgorithmus Diese Option extrahiert einfache und zusammengesetzte Terme, die sich nicht in den integrierten Wörterbüchern befinden, solange der erste Buchstabe des Terms in Großbuchstaben geschrieben ist. Diese Option ist eine gute Möglichkeit, die geeignetsten Substantive zu extrahieren.

Teilweise und vollständige Personennamen, wenn möglich, gruppieren Diese Option gruppiert Namen, die zusammen im Text unterschiedlich erscheinen. Diese Funktion ist nützlich, da Namen zu Beginn des Texts oft in voller Länge angegeben werden und später nur noch mit einer Kurzform auf sie verwiesen wird. Diese Option versucht, jeden Uniterm mit dem Typ <Unknown> mit dem letzten Wort aller zusammengesetzten Terme abzugleichen, die dem Typ <Person> zugeordnet sind. Wird beispielsweise doe gefunden und anfänglich dem Typ <Unknown> zugeordnet, überprüft die Extraktionsengine, ob ein zusammengesetzter Term vom Typ <Person> als letztes Wort doe enthält, z. B. john doe. Diese Option wird nicht auf Vornamen angewendet, da sie in den meisten Fällen nicht als Uniterme extrahiert werden.

Maximale Füllwörter in zusammengesetzten Konzepten Diese Option gibt die maximale Anzahl von Füllwörtern an, die für die Anwendung des Permutationsverfahrens vorhanden sein müssen. Dieses Permutationsverfahren gruppiert ähnliche Wortfolgen, die sich nur durch die enthaltenen Füllwörter (zum Beispiel von und der) unabhängig von der Beugung unterscheiden. Nehmen wir zum Beispiel an, dass Sie diesen Wert auf höchstens zwei Wörter eingestellt haben und sowohl Unternehmen des Vertreters als auch Vertreter des Unternehmens extrahiert wurden. In diesem Fall würden beide extrahierte Terme in der endgültigen Konzeptliste zusammen gruppiert, da beide Terme als gleich betrachtet werden, wenn des ignoriert wird.

Beim Gruppieren von Multitermen Ableitung verwenden Wenn Sie große Datenmengen verarbeiten, wählen Sie diese Option aus, um Multiterme mithilfe von Ableitungsregeln zu gruppieren.

Indexoption für Konzeptkarte. Gibt an, dass Sie den Kartenindex zur Zeit der Extraktion erstellen möchten, damit die Konzeptkarten später schneller dargestellt werden können. Um die Indexeinstellungen zu bearbeiten, klicken Sie auf Einstellungen. Weitere Informationen finden Sie im Thema Erstellen von Konzeptkartenindizes.

Dieses Dialogfeld vor dem Start einer Extraktion immer anzeigen Legen Sie fest, ob Sie das Dialogfeld "Extraktionseinstellungen" bei jeder Extraktion anzeigen möchten, ob Sie es nie anzeigen möchten (außer beim Aufruf über das Menü "Tools") oder ob Sie bei jeder Extraktion gefragt werden möchten, ob Sie Änderungen an den Extraktionseinstellungen vornehmen wollen.