Lectura de texto de origen

Los datos para la minería de textos pueden residir en cualquiera de los formatos estándar que utiliza IBM® SPSS Modeler, incluyendo bases de datos u otros formatos "rectangulares" que representen datos en filas y columnas, o en formatos de documentos, como Microsoft Word, Adobe PDF, o HTML, que no se ajustan a esta estructura.

Para leer en texto en documentos que no se ajustan a la estructura de datos estándar, incluyendo Microsoft Word, Microsoft Excel y Microsoft PowerPoint, además de Adobe PDF, XML, HTML y otros, el nodo Lista de archivos puede utilizarse para generar una lista de documentos o carpetas como entrada para el proceso de minería de textos. Para obtener más información, consulte Nodo Lista de archivos.
Para leer en texto en canales de información web, como ser blogs en formato RSS o HTML, el nodo de canal de información web se puede utilizar para formatear los datos del canal de información web para entrada en el proceso de minería de textos. Para obtener más información, consulte Nodo canal de información web.
Para leer en texto desde cualquiera de los formatos de datos estándar utilizados por SPSS Modeler como, por ejemplo, una base de datos con uno o más campos para comentarios de clientes, se puede utilizar cualquiera de los nodos de origen de SPSS Modeler. .Si desea obtener más información, consulte la documentación del nodo SPSS Modeler.
Cuando procese grandes cantidades de datos, que puede incluir texto en varios idiomas diferentes, utilice el nodo de idioma para identificar el idioma utilizado en un campo específico. Para obtener más información, consulte Nodo de idioma.