Guia Editor de recursos

A análise de texto captura de forma rápida e precisa os conceitos-chave dos dados de texto, utilizando um processo de extração. Esse processo depende de recursos linguísticos para determinar como grandes quantidades de dados textuais não estruturados são analisados e interpretados.

Você pode usar a guia Editor de recursos para visualizar os recursos linguísticos usados no processo de extração. Esses recursos são armazenados na forma de modelos e bibliotecas, que são usados para extrair conceitos, agrupá-los por tipos, descobrir padrões nos dados de texto e outros processos. A Análise de Texto oferece vários modelos de recursos pré-configurados e, em alguns idiomas, você também pode usar os recursos em pacotes de análise de texto.

Na guia Editor de recursos, você trabalha com termos e tipos para identificar os conceitos a serem extraídos de um documento. Esses termos técnicos são definidos da seguinte forma.

Conceitos
Os conceitos são palavras e frases importantes que foram identificadas e extraídas dos seus dados de texto. Eles também são chamados de resultados de extração. Esses conceitos são agrupados em tipos. Você pode usar esses conceitos para explorar seus dados e criar suas categorias.
Termos
Termos são as palavras específicas que compõem um conceito. Os termos são palavras isoladas, como airport ou, location e expressões como airport pick-up. São usados para identificar conceitos no texto. Os termos podem ser formas plurais ou singulares de palavras, partes de palavras maiores, sinônimos ou variações ortográficas.
Tipos
Os tipos são agrupamentos semânticos de conceitos. Quando os conceitos são extraídos, eles são designados a um tipo para ajudar a agrupar conceitos semelhantes. Por exemplo, alguns dos tipos padrão são <Location>, <Organization>, <Person> <Positive>, e <Negative>.
Figura 1. Guia Editor de recursos
Guia Editor de recursos no Text Analytics Workbench

Você pode usar a guia Editor de recursos para personalizar e ajustar os recursos linguísticos. Você também pode usar os controles para gerenciar como os termos são correspondidos com os dados de texto e definir regras para a análise de links de texto (TLA).

Painel de termos/sinônimos

O painel Termos/sinônimos mostra todas as bibliotecas que são usadas como recursos linguísticos durante o processo de extração. Se você deseja personalizar como termos específicos são agrupados em conceitos, é possível editar os termos nas bibliotecas. Você também pode adicionar termos às bibliotecas. Por exemplo, se seus dados de texto forem específicos de um campo ou disciplina, você pode adicionar quaisquer termos técnicos que possam estar faltando.

Bibliotecas e modelos personalizados

Como esses recursos podem não se adequar perfeitamente ao contexto dos seus dados, você pode criar e gerenciar seus próprios recursos para um contexto ou domínio específico na guia Editor de recursos.

Você pode salvar quaisquer alterações feitas em uma biblioteca ou modelo como um recurso do projeto, que poderá ser reutilizado em outros fluxos. Você também pode importar bibliotecas ou modelos personalizados, caso gerencie seus recursos usando arquivos locais.

Agrupamento difuso e agrupamento por inflexão

Você pode usar técnicas de agrupamento difuso e agrupamento por inflexão ao analisar dados de texto. A técnica de agrupamento difuso agrupa palavras com erros ortográficos comuns ou palavras com grafias semelhantes, e a técnica de agrupamento por inflexão agrupa variantes flexionadas de palavras com base na raiz.

Se você perceber que duas palavras com grafia semelhante foram agrupadas incorretamente ao ativar esses recursos, é possível excluir as palavras dessas técnicas de agrupamento. Você pode adicionar os pares incorretamente correspondidos na seção Exceções na guia Recursos avançados.

Observação: você não pode usar as técnicas de agrupamento difuso e agrupamento de inflexão ao trabalhar com dados de texto escritos em chinês ou japonês. O agrupamento difuso funciona removendo vogais e consoantes duplas, que não existem nessas línguas. Da mesma forma, a técnica de agrupamento por inflexão não funciona de maneira eficaz, pois essas línguas não utilizam a inflexão para número e gênero da mesma forma que as línguas indo-europeias.