Stichprobenziehung weiter oben im Stream zur Zeitersparnis
Bei einer großen Datenmenge kann die Verarbeitung Minuten oder Stunden in Anspruch nehmen, insbesondere bei einer interaktiven Workbenchsitzung. Je größer der Umfang der Daten, desto mehr Zeit nehmen Extraktion und Kategorisierung in Anspruch. Damit Sie effizienter arbeiten, können Sie einen Ihrem Textminingknoten vorgeordneten IBM® SPSS Modeler-Stichprobenknoten hinzufügen. Ziehen Sie mithilfe dieses Stichprobenknotens eine Zufallsstichprobe mit einem kleineren Subset von Dokumenten oder Datensätzen für die ersten paar Durchläufe.
Eine kleinere Stichprobe ist häufig absolut ausreichend, um die Bearbeitung der Ressourcen festzulegen und die meisten, wenn nicht sogar alle, Kategorien zu erstellen. Und wenn Sie das kleinere Dataset ausgeführt haben und die Ergebnisse Ihren Vorstellungen entsprechen, können Sie dasselbe Verfahren anwenden, um Kategorien für das gesamte Dataset zu erstellen. Im Anschluss können Sie nach Dokumenten oder Datensätzen suchen, die nicht in die von Ihnen definierten Kategorien fallen, und nach Bedarf Anpassungen vornehmen.