Añadir un clasificador
Puede crear un clasificador con el asistente Crear clasificador.
A continuación se describen los pasos del asistente.
Crear clasificador
Especifique el nombre y la descripción del clasificador. Seleccione el tipo de clasificador en la lista desplegable.
Añadir un conjunto de datos a la colección
Puede seleccionar un conjunto de datos existente que ya se ha definido en la lista desplegable. Como alternativa, puede crear un conjunto de datos cargando un archivo CSV o rastreando el sistema de archivos.
- Cargar CSV
- Para obtener instrucciones sobre la carga de un archivo CSV, consulte Importadores.
- Sistema de archivos
- Antes de rastrear el sistema de archivos, debe proporcionar acceso a IBM Watson Explorer oneWEX. Para obtener más información, consulte Proporcionar acceso al sistema de archivos local desde Watson Explorer oneWEX. Puede seleccionar varios directorios a rastrear. Los subdirectorios también se rastrearán.
Después de crear un conjunto de datos, se rastrean sus datos. Cuando el rastreo ha finalizado, puede pasar al paso siguiente.
Datos de entrenamiento
Especifique quién proporciona los datos de entrenamiento para la formación del clasificador. Seleccione una colección existente o seleccione *Nueva colección* para crear una nueva colección. La colección debe incluir etiquetas de verdad terreno.
Las páginas Añadir un conjunto de datos a la colección y Datos de entrenamiento se fusionan en una sola página Datos de entrenamiento.
La página Datos de entrenamiento tiene la opción de:
- Crear una nueva colección
- Esta opción es la misma que si se selecciona la opción Nueva colección en la página Datos de entrenamiento anterior. Una vez que haya seleccionado esta opción, el contenido de la página Añadir un conjunto de datos a la colección se mostrará para que elija o cargue datos. Cuando esta opción está seleccionada, tendrá que trabajar con las páginas detalladas para especificar opciones de colección. Nota: una colección creada para este clasificador será visible en la lista Colecciones.
- Utilizar una colección existente
- Esta opción es la misma que si se selecciona una colección en la página Datos de entrenamiento anterior. Cuando esta opción está seleccionada, se omiten las páginas después de la sección Valores de multietiquetado supervisado y se muestra la página Confirmar.
Campos
Si selecciona Crear una nueva colección en la página Datos de entrenamiento y especifique los datos y, a continuación, verá la página Campo, para configurar los campos de colección. Especifique las opciones del campo de colección para el archivo CSV. Consulte Adición rápida de colección con CSV.
Se ha añadido Campo de respuesta al panel Correlaciones de campo. También se ha añadido una columna Etiquetas de respuesta al panel Vista previa de documento de muestra para confirmar la selección. El Campo de respuesta también se puede seleccionar en la página Valor de multietiquetado supervisado.
Valor de multietiquetado supervisado
Especifique campos para el entrenamiento y predicción de aprendizaje automático. Los campos siguientes son necesarios.
- Campo de respuesta
- Especifica el campo que debe utilizarse como campo de respuesta.
- Campo pronosticado
- Especifica el campo al que el clasificador asigna su valor predicho.
- Plantilla de colección
- Especifica el nombre y la descripción de la plantilla de colección generada por este clasificador. Debe especificar esta plantilla para crear una colección para clasificación.
Configurar campos de colección
Seleccione los campos de título, cuerpo e indicación de fecha y hora que, normalmente, son utilizados por las aplicaciones y los campos de metadatos para configurar inicialmente esta colección. Para usos avanzadas, puede configurar los campos con mayor detalle después de crear una colección.
Puede configurar los campos siguientes.
- Campo de cuerpo
- Especifica datos de contenido de texto no estructurado que deben analizarse. Para una colección de análisis, el proceso de mejora enriquece este campo para analizar documentos en etapas posteriores. Para una colección de búsqueda, el campo se tokeniza para mejorar la precisión de la búsqueda.
- Campo de título
- Especifica el título del documento. Los títulos de documento se utilizan de diversas formas en IBM Watson Explorer Content Miner. Por ejemplo, la vista Documentos contiene una columna Título. Tanto en las colecciones de análisis como en las de búsqueda, este campo se tokeniza para mejor la precisión de la búsqueda.
- Campo de fecha
- Especifica la fecha del documento. La fecha del documento se utiliza en la vista Documentos como columna FECHA, y también se utiliza en vistas de análisis de bases de series temporales, como por ejemplo Series temporales, Tema y Tendencias.
- Facetas de metadatos
- Seleccione los campos que desea utilizar como facetas para el análisis. No puede seleccionar un campo de cuerpo o de título. Los campos seleccionados aquí se tratan como valores de
faceta y se visualizarán en el árbol Faceta. Puede utilizar estos valores de faceta en las vistas de análisis de
Watson Explorer Content Miner. Este es un paso muy importante, porque Watson Explorer Content Miner requiere facetas para los procesos de
análisis de texto.Nota: Independientemente de si selecciona o no estos campos, IBM Watson Explorer oneWEX utilizará todos los campos de faceta de metadatos.
Mejorar la colección
La mejora es un proceso para generar anotaciones a partir de contenido de texto no estructurado. Aquí solo se listan las anotaciones existentes, pero puede crear y aplicar otras más tarde. Las mejoras seleccionadas aquí se aplican a campos de texto analizables (campos de cuerpo y título en colecciones habituales).
- Anotadores
- Seleccione los anotadores que deben habilitarse para esta colección. Los anotadores seleccionados mejoran el contenido del texto del cuerpo. El anotador Categoría léxica está seleccionado de forma predeterminada. Si desea más información, consulte c_ee_adm_annotators.html#c_ee_adm_annotators.
- Clasificadores
- Seleccione los módulos de clasificador que deben habilitarse para esta colección. Los clasificadores seleccionados se utilizan para clasificar los resultados en categorías. Para obtener más información, consulte Clasificadores.
- Identificación de idioma
- Especifique cómo se determina un idioma utilizado en el proceso de mejora aplicado al contenido de texto. Seleccione la detección automática o un idioma específico. Se admiten los idiomas siguientes.
- Árabe, checo, danés, alemán, inglés, español, francés, hebreo, italiano, japonés, coreano, holandés, polaco, portugués, ruso, eslovaco, turco, chino
Esta página solo se muestra cuando se selecciona la opción Crear una nueva colección en la página Datos de entrenamiento. Especificar las facetas para el análisis
Una faceta es una unidad de análisis. Puede analizar el contenido no estructurado con facetas y diversas
estadísticas. Para que el análisis sea satisfactorio es muy importante especificar etiquetas significativas para cada
faceta.
Puede comprobar y confirmar las facetas disponibles generadas por anotadores, clasificadores y campos de metadatos seleccionados en los pasos anteriores. Puede modificar estas facetas.
Esta página no está disponible, pero puede seguir configurando las facetas de la colección desde la página de edición de colecciones. Confirmar
Confirme la configuración. Si desea cambiar estos valores, retroceda para modificar los pasos del asistente.