Ambiente de trabalho de análise de texto

A partir de um nó de mineração de texto, você pode optar por iniciar a sessão do Text Analytics Workbench quando o fluxo for executado. O Text Analytics Workbench é uma sessão interativa onde você pode explorar os resultados da extração e ajustar a configuração do nó Text Mining.

A mineração de texto é um processo iterativo no qual os resultados da extração são revisados de acordo com o contexto dos dados do texto, ajustados para produzir novos resultados e, em seguida, reavaliados. Quando você executa o nó Text Mining, o mecanismo de extração lê os dados de texto, identifica os conceitos relevantes e atribui um tipo a cada um deles.

Quando o nó Text Mining terminar de ser executado, o Text Analytics Workbench será aberto para que você possa revisar os resultados da extração. O Text Analytics Workbench está organizado em guias. Em cada guia, você pode se concentrar em diferentes áreas do processo de mineração de texto.

Conceitos: Os conceitos são palavras e frases importantes que foram identificadas e extraídas dos seus dados de texto. Eles também são chamados de resultados de extração. Esses conceitos são agrupados em tipos. Você pode usar esses conceitos para explorar seus dados e criar suas categorias. Você pode gerenciar os conceitos na guia Conceitos.
Links de texto: Você pode extrair padrões dos seus dados de texto se tiver regras de análise de links de texto (TLA) nos seus recursos linguísticos. Por exemplo, seu modelo de recurso já possui algumas regras TLA. Esses padrões podem ajudar a descobrir relacionamentos interessantes entre conceitos em seus dados. Também é possível usar esses padrões como descritores em suas categorias. Você pode gerenciar esses padrões na guia Links de texto.
Categorias: Usando descritores (como resultados de extração, padrões e regras) como definição, você pode criar manualmente ou automaticamente um conjunto de categorias. Os documentos e registros são atribuídos a essas categorias com base no fato de conterem ou não parte da definição da categoria. Você pode gerenciar categorias na guia Categorias.
Recursos: O processo de extração depende de um conjunto de parâmetros e definições de recursos linguísticos para controlar como o texto é extraído e tratado. Você pode ajustar esses recursos linguísticos (como modelos e bibliotecas) na guia Editor de recursos.

Figura 1. Ambiente de trabalho de análise de texto

Você pode usar a bancada de trabalho para realizar as seguintes tarefas de mineração de texto:

Extraia conceitos-chave dos seus dados de texto
Construir categorias
Explore padrões na análise de links de texto (TLA)
Gerar nuggets do modelo de categoria
Salve os recursos que você ajustou ou utilizou durante o processo de extração como um pacote de análise de texto (TAP).