Análise de Texto no InfoSphere Warehouse, Parte 1: Visão Geral da Arquitetura e Exemplo de Extração de Informações com Expressões Regulares

Obtenha insights de negócios a partir de dados não estruturados

Informações não estruturadas representam a fonte de informações maior, mais atual e com crescimento mais rápido disponível atualmente. Essas informações existem em muitas origens diferentes, como registros de centrais de atendimento, relatórios de reparo, revisões de produtos, e-mails e muitas outras. Os recursos de análise de texto do IBM® InfoSphere™ Warehouse podem ajudá-lo a desvendar o valor oculto desse dado não estruturado. Esta série de artigos cobre a arquitetura geral e as oportunidades de negócios de análise de dado não estruturado com os recursos de análise de texto do InfoSphere Warehouse. A integração desse recurso com os relatórios do IBM Cognos® possibilita que pessoas da empresa explorem os resultados da análise de texto. Este primeiro artigo introduz a arquitetura básica do recurso de análise de texto no InfoSphere Warehouse e inclui um exemplo técnico mostrando como extrair conceitos do texto usando expressões regulares.

Stefan Abraham, Software Engineer, IBM

Stefan Abraham photographStefan Abraham é Engenheiro de Software do IBM Research & Development Lab Boeblingen, Alemanha. Ele trabalha com componentes de análise de texto e com mineração de dados relacionados a componentes UI no InfoSphere Warehouse.



Benjamin G. Leonhardi, Software Engineer, IBM

Author Photo: Benjamin LeonhardiBenjamin Leonhardi é engenheiro de software para mineração de dados do InfoSphere Warehouse no IBM Research & Development Lab em Boeblingen, Alemanha. Ele trabalha com visualização de mineração, mineração de texto e soluções para relatórios de mineração.



Simone Daum, Software Engineer, IBM

Simone Daum photoSimone Daum é Engenheira de Software do IBM Research & Development Lab Boeblingen, Alemanha. Ela trabalha com conjuntos de ferramentas para preparação de dados para mineração de dados e com análise de texto no InfoSphere Warehouse.



12/Mai/2014

Introdução

Em uma pesquisa de opinião recente de TDWI, foi perguntado aos profissionais de gerenciamento de dados: "Quais tipos de dados e sistemas de origem alimentarão seu armazém de dados daqui a três anos?" Eles responderam que esperam um aumento muito grande de dado não estruturado. Incluindo e-mail, transcrições de centrais de atendimento, documentos de sistemas de gerenciamento de conteúdo e conteúdo público de fóruns ou blogs. (Consulte a seção Recursos para obter um link para a pesquisa de opinião.)

Esta série de artigos descreve como a tecnologia de análise de texto pode transformar esse dado textual não estruturado em informações significativas que podem ser usadas em aplicativos de Business Intelligence. O dado não estruturado pode melhorar a qualidade de analíticos de BI existentes ou, em alguns casos, pode ser o ativador chave para novos tipos de insight.

Cenários de Negócios de Amostra

A seguir estão dois exemplos de cenários de negócios que ilustram o valor da tecnologia de análise de texto:

  • Reduza a rotatividade de clientes identificando clientes descontentes o quanto antes: Empresas do setor de telecomunicação já possuem modelos analíticos de previsão elaborados para rotatividade do cliente. No entanto, esses modelos são predominantemente baseados no uso de dados estruturados. A inclusão de informações de dado não estruturado poderia aprimorar esses modelos de previsão de forma significativa. Por exemplo, uma empresa poderia detectar clientes insatisfeitos que fazem referência explícita a um concorrente em uma chamada de serviço. Ao incluir isso no modelo de rotatividade, a empresa poderia configurar processos para acionar ação imediata ao primeiro sinal de descontentamento do cliente.
  • Melhore a qualidade dos sistemas de aviso antecipado: Relatórios de problemas internos, e-mail de clientes ou transcrições da central de atendimento podem fornecer informações importantes sobre problemas emergentes do produto. Hoje, as empresas tentam captar esses insights usando um conjunto fixo de categorias em taxonomias do problema. Essas taxonomias geralmente sofrem com problemas de granularidade. Se as taxonomias contiverem somente categorias de alto nível, a empresa não pode capturar a razão real de um problema. No entanto, se as taxonomias tentarem captar todos os problemas possíveis, elas se tornam muito desajeitas para serem usadas pelo pessoal da linha de frente, como os funcionários da central de atendimento. A razão real para um defeito está frequentemente escondida em comentários do técnico ou em logs da central de atendimento. Portanto, por exemplo, uma empresa pode conseguir detectar que há um problema com um determinado produto, mas não perceber que uma peça específica está causando o problema. Portanto, a empresa perde a oportunidade de tomar as ações apropriadas, como emitir uma rechamada do produto ou verificar outros produtos que usam a peça problemática. Usando a análise de termos frequentes disponível no InfoSphere Warehouse, a empresa poderia criar um relatório mostrando termos correlacionados extraídos de reclamações de clientes para um determinado modelo do produto. Isso poderia fornecer insight para prováveis pontos problemáticos.

Em ambos os cenários acima, o texto é o tipo principal de dado não estruturado. As empresas também podem ter a necessidade de analisar texto semiestruturado (como conteúdo XML) ou outros tipos de dados (como áudio e vídeo). No entanto, os autores dessa série de artigos veem que o grosso do conteúdo que é relevante para os aplicativos de hoje vem como texto de formato livre de anotações de técnicos, comentários de clientes através de aplicativos CRM ou de e-mail ou de trechos de serviços de notícias. Assim, optamos por focar estes artigos em texto de formato livre.

Tarefas de Extração de Informações

A tarefa básica por trás da análise de texto é Extração de Informações (IE). Extração de Informações é uma área de processamento de idioma natural que refere-se ao exame de texto não estruturado para a extração de conceitos (chamados de entidades) e relacionamentos entre esses conceitos.

Tarefas relevantes de extração de informações são:

  • Named Entity Recognition (NER): reconhecer e extrair entidades denominadas. Por exemplo, nomes de pessoas ou locais, expressões monetárias e indicadores de problemas.
  • Detecção de Relacionamento: detectar relacionamentos baseados em entidades denominadas. Por exemplo, a peça X causa o problema Y.
  • Resolução de correferência: identificar expressões em um documento que fazem referência à mesma entidade. Por exemplo, o hotel denominado "Best Hotel" no texto a seguir: Gostei de minha estadia no Best Hotel. Ele possui quartos muito claros. O hotel também possui…

Reconhecimento de Entidade Denominada Baseado em Lista e Baseados em Regras

Uma abordagem para Named Entity Recognition é a extração baseada em lista de entidades. Isso incluiria a extração de coisas, como nomes de funcionários (por exemplo, do servidor LDAP da empresa) ou nomes de produtos e seus atributos. Alguns domínios já possuem vocabulário oficial do domínio. Por exemplo, Systematized Nomenclature of Medicine-Clinical Terms (SnoMed CT) para o segmento de mercado de saúde.

Uma vantagem de extração baseada em lista é que as listas de palavras frequentemente vêm de fontes confiáveis, o que significa que sua criação e manutenção pode ser automatizada até certo ponto. Por exemplo, toda vez que o nome de um novo produto for incluído, ele pode acionar uma atualização de lote. Além disso, os resultados da extração são imediatamente válidos para o usuário final. Frequentemente, os termos da lista têm variantes e acrônimos diferentes que precisam ser incluídos na lista pelo especialista do domínio.

Alguns tipos de entidades, como números de telefones ou expressões monetárias, podem ser listadas de forma exaustiva. Para essas entidades, a extração baseada em regra é a abordagem adequada. Uma vantagem de regras é a generalização—uma regra pode cobrir uma ampla gama de entidades. Outra vantagem é que regras podem levar em conta o contexto do documento. Isso é crucial para tarefas como detecção de opinião, em que uma palavra de negação, como "não", inverte o sentimento de uma frase inteira.

O principal desafio para regras é a complexidade das mesmas—usuários precisam de ajuda para criar e manter regras. As pessoas com o conhecimento apropriado do domínio frequentemente não são técnicas. Portanto, o uso de ferramentas de configuração que ocultam a complexidade da linguística e de linguagens de regras desses usuários são necessárias.

Visão Geral do Artigo e da Série

O restante deste artigo apresenta de forma resumida a arquitetura básica do InfoSphere Warehouse e seus recursos de análise de texto. Mostra, então, um exemplo simples passo a passo de como usar o InfoSphere Warehouse para extrair conceitos usando expressões regulares.

Os artigos futuros da série descreverão outros recursos de análise de texto disponíveis do InfoSphere Warehouse e mostrarão como esses resultados podem ser usados em produtos de software de relatórios, como o IBM Cognos 8 BI.


Arquitetura do IBM InfoSphere Warehouse

O InfoSphere Warehouse é a solução de armazém da IBM baseada no IBM DB2® para armazenamento de dados. Este artigo foca os recursos analíticos de texto do InfoSphere Warehouse, mas o produto também inclui uma ampla gama de outras ferramentas para tarefas de gerenciamento e análise de armazém, como processamento analítico on-line (OLAP), gerenciamento de desempenho e gerenciamento de carga de trabalho.

Figura 1. Arquitetura do InfoSphere Warehouse

Conforme mostrado no diagrama de arquitetura acima, os principais componentes do InfoSphere Warehouse são:

  • O servidor de banco de dados DB2 contém os dados de armazém estruturados e não estruturados (mais frequentemente, texto).
  • O Design Studio é uma plataforma de ferramentas usada por analistas de negócios e administradores de armazém para projetar regras de carga de trabalho, fluxos de transformação de dados e fluxos analíticos para mineração de dados e análise de texto. Por exemplo, um analista de negócios pode criar um fluxo analítico para extrair informações estruturadas de e-mail de clientes ou relatórios da central de atendimento. Esses fluxos podem ser então implementado no Console de Administração do InfoSphere Warehouse. Além disso, o Design Studio fornece ferramentas para melhor entender os dados, criar recursos, como dicionários ou regras de expressões regulares usados nos fluxos analíticos, e muito mais.
  • O Console de Administração é usado para gerenciar e monitorar o armazém. Após implementar fluxos que foram projetados no Design Studio, é possível executar, planejar e monitorar os mesmos. Por exemplo, você pode planejar uma análise semanal de novos relatórios da central de atendimento para identificar clientes que provavelmente vão mudar de fornecedor ou executar uma procura em anotações recentes de técnicos com a intenção de localizar problemas em potencial do produto.

Analítica Não Estruturada no InfoSphere Warehouse

O InfoSphere Warehouse usa o Unstructured Information Management Architecture (UIMA) para a análise de dado não estruturado. UIMA é uma plataforma aberta, escalável e extensível para criar, integrar e implementar soluções de análise de texto. UIMA é software livre e fornece uma base comum para a indústria e a área acadêmica. Componentes baseados no UIMA que são usados para extrair entidades, como nomes, opiniões ou relacionamentos, são chamados de Anotadores ou Mecanismos de Analise do UIMA.

O InfoSphere Warehouse fornece operadores e ferramentas para reconhecimento de entidade denominada baseado em dicionário e baseados em expressão regular. Para outras tarefas de análise de texto, um operador de análise de texto genérico está disponível e pode ser usado para executar anotadores compatíveis com o Apache UIMA em fluxos analíticos:

  • Entendimento de dados é importante para a extração de informações bem-sucedida dos dados de texto, portando, o InfoSphere Warehouse fornece o recurso de Exploração de Dados para localizar colunas com informações de texto relevantes (visualização Estatísticas de Texto) e para procurar pelo texto (visualização Conteúdo de Amostra). Para uma análise mais profunda, é possível usar o recurso Extração de Termos Frequentes para extrair os termos mais frequentes que ocorrem na coluna de texto juntamente com a visualização avançada, como uma visualização em nuvem. A Extração de Termos Frequentes é um recurso importante para a criação eficiente de dicionários que possam ser usados na análise baseada em dicionário.
  • Análise baseada em dicionário é a extração de palavras-chave do texto. Exemplos de entidades que podem ser extraídas são nomes, empresas e produtos. Também é possível extrair todas as entidades contidas em uma lista. O InfoSphere Warehouse suporta análise baseada em dicionário de colunas de texto através do operador Consulta de Dicionário. O operador Consulta de Dicionário é baseado em tecnologia do IBM LanguageWare. Ele suporta processamento de idioma natural, como redução à raiz da palavra e tokenização em diversos idiomas. Dicionários podem ser criados e mantidos com o Editor de Dicionário no InfoSphere Warehouse. O InfoSphere Warehouse também inclui um Editor de Taxonomia que categoriza entradas de dicionário em uma árvore de taxonomia para serem usadas em mineração de dados e OLAP. A análise baseada em dicionário será demonstrada em detalhes em outro artigo desta série.
  • Análise baseada em regra é a extração de informações de texto através das regras de expressões regulares. Expressões regulares são ideais para extrair conceitos, como números de telefone ou de cartão de crédito, datas, etc. O InfoSphere Warehouse suporta análise baseada em regra através do operador Consulta de Expressão Regular. O operador usa arquivos de regras contendo regras de expressão regular para extrair conceitos de colunas de texto. É possível criar e modificar esses arquivos de regras com o editor de Expressões Regulares. Um exemplo detalhado disso é fornecido neste artigo.
  • Além dos métodos de análise de texto comuns acima, o InfoSphere Warehouse permite o uso de anotadores compatíveis com o Apache UIMA . Eles podem ser importados para um projeto de Warehousing de Dados do InfoSphere Warehouse e podem ser usados no operador Analisador de Texto. Por exemplo, para extrair conceitos de níveis mais altos, como relacionamentos ou opiniões. Anotadores avançados do UIMA estão disponíveis em soluções IBM customizadas, IBM Research, outras empresas e universidades. Também é possível criá-los desde o início usando o UIMA SDK. (Consulte a seção Recursos para obter um link para obter informações adicionais sobre o UIMA)

Usando o InfoSphere Warehouse Design Studio para Análise de Texto

A Figura 2 mostra o InfoSphere Warehouse Design Studio.

Figura 2. InfoSphere Warehouse Design Studio


O Design Studio é a plataforma de ferramentas integrada do InfoSphere Warehouse. É baseado na tecnologia Eclipse. O Design Studio permite salvar seu trabalho em projetos. É possível ver todos os seus projetos no Explorador de Projetos, que aparece do lado esquerdo da interface do Design Studio. O projeto padrão para todo o trabalho do armazém de dados é o Projeto de Warehousing de Dados. Esse projeto contém uma pasta Análise de Texto que contém os recursos analíticos de texto, como dicionários, arquivos de regras, taxonomias, etc.

A extração de informações é realizada por operadores de Texto nos fluxos de transformação de dados (fluxos de dados e fluxos de mineração). Com o conceito importante desses fluxos, é possível fazer uma amostragem, juntar e modificar tabelas. Os operadores de texto podem, então, extrair informações estruturadas de colunas de texto e incluem as mesmas na saída como novas colunas contendo conceitos localizados, como nomes, qualificações, datas, etc.

A Figura 3 representa um cenário onde conceito em texto de formato livre são, primeiramente, anotados e, posteriormente, gravados em uma tabela de banco de dados juntamente com informações estruturadas existentes.

Figura 3. Informações Não Estruturadas para Estruturas

Extraindo Informações de Texto Usando Padrões: Um Exemplo

Para dados de origem, este exemplo usa a coleta de documentos World Factbook que é produzida pela United States Central Intelligence Agency. Esses documentos contêm informações sobre todos os países do mundo, incluindo a área do país em quilômetros quadrados e sua localização geográfica em longitude e latitude.

Primeiro, vamos criar um arquivo de regras de expressão regular para extrair os conceitos de área e o local dos documentos de texto. Vamos usar, então, esse arquivo de regras em um fluxo de mineração para extrair os conceitos de colunas de texto em tabelas do banco de dados relacional.

Expressões Regulares para Correspondência de Padrão

Uma expressão regular é um padrão de caracteres que descreve um conjunto de cadeias de caracteres. O InfoSphere Warehouse usa a sintaxe de expressão regular de Java™. As regras de expressão regular podem consistir em:

  • Cadeias de caracteres literais a, b, c ...
  • Classes de caracteres, como [abc], o que significa que a, b ou c pode estar nessa posição
  • Classes de caracteres predefinidas, como dígitos \d, que é equivalente a [0-9]
  • Quantificadores que permitem especificar o número de ocorrências de subpadrões. Por exemplo, a* é a letra "a" zero ou diversas vezes, a+ é a letra "a" pelo menos uma vez, a{3} é "aaa", a{1,3} é a letra "a" pelo menos uma vez, mas no máximo três vezes.
  • Grupos são subpadrões na expressão regular que estão entre parênteses. Por exemplo, a expressão regular A(B(C)) possui os subgrupos (B(C)) e (C).

Para obter uma descrição completa da sintaxe da expressão regular, consulte a documentação do InfoSphere Warehouse ou a documentação de Java (consulte Recursos).
Se não estiver familiarizado com expressões regulares ou não lembrar das construções de expressões regulares, é possível usar o Construtor de Expressões Regulares disponível com o Editor RegEx no InfoSphere Warehouse.

Se quisesse criar uma expressão regular para corresponder a um número de telefone dos EUA internacional (por exemplo, 001-555-7323), você procuraria uma cadeia de caracteres iniciada por "001", seguida por um hífen, seguido por pelo menos um número, seguido por um hífen, seguido novamente por pelo menos um número. A expressão regular para isso seria:

(001)-(\d+)-(\d+)

O exemplo a seguir mostra como usar as expressões regulares para extrair conceitos, como coordenadas e áreas de texto.

Explorando Texto em Tabelas de Banco de Dados

Para executar uma análise de texto nas tabelas de banco de dados, você explora primeiramente as informações disponíveis para selecionar as colunas de texto relevantes para a análise. Com a visualização Exploração de Dados do InfoSphere Warehouse, é possível procurar amostras de tabelas do banco de dados, procurar o conteúdo de colunas de texto grandes e determinar o comprimento médio de cadeias de caracteres de texto.

A seguir, estão instruções sobre como usar a visualização Exploração de Dados para explorar o conteúdo de uma tabela denominada FACTBOOK. A tabela pode ser localizada no banco de dados de amostra DWESAMP enviado com o InfoSphere Warehouse.

  1. No InfoSphere Warehouse Data Source Explorer, navegue até a tabela FACTBOOK no banco de dados DWESAMP e esquema CIA. Clique com o botão direito do mouse na tabela e selecione Distribuição e Estatísticas -> Exploração de Dados no menu de contexto.

    A visualização Exploração de Dados na Figura 4 mostra uma amostra de cinquenta linhas aleatórias das 275 linhas da tabela. Cada linha contém o nome do país e uma coluna denominada TEXT com informações sobre o país. Abaixo da tabela, é possível selecionar uma das colunas de texto da tabela para exibir o conteúdo completo. Isso permite inspecionar quantidades ainda maiores de texto que podem estar na coluna. Na lista suspensa, selecione a coluna TEXT.

    Figura 4. A Visualização Exploração de Dados Mostrando Conteúdo de Amostra da Tabela FACTBOOK
  2. Para visualizar informações sobre uma país específico, selecione a linha apropriada na tabela de conteúdo de amostra.
  3. Role para baixo na descrição do texto de um país para localizar as informações sobre sua localização geográfica e sua área em quilômetros quadrados. Por exemplo, selecionando Alemanha, conforme mostrado na Figura 4, você veria as seguintes informações: Coordenadas geográficas: 51 00 N, 9 00 L Referências do mapa: Europa Área: total: 357.021 km² água: 7.798 km² terra: 349.223 km²

    Verificando a tabela de conteúdo de amostra, é possível ver que as coordenadas geográficas de um país e a área sempre são fornecidas no mesmo formato. A tarefa de extrair conceitos nesse formato pode ser facilmente tratada com as regras de expressão regular.

Criando um Arquivo de Regras com Expressões Regulares para Localização e Área

Com arquivos de regras, é possível definir conceitos como números de telefone ou localizadores uniformes de recursos. Esses conceitos são chamados de tipos. Para localizar esses conceitos no texto, é possível especificar regras que definem um padrão para corresponder a esses conceitos.

Um tipo de conceito pode ter recursos. Por exemplo, considerando um número do telefone que consiste em um código do país, um código de área e um número de ramal, é possível criar o tipo número de telefone e especificar os recursos código do país, código de área e número de ramal.

Com o editor de regras RegEx, tipos de conceitos e seus recursos são definidos e depois regras são designadas com padrões de expressões regulares para esses tipos. Quando um padrão corresponde a uma parte do texto, uma anotação é criada para o tipo associado. É possível configurar os valores de recursos de uma anotação designando um subpadrão da regra de expressão regular —um grupo de correspondências—para o recurso.

Quando o arquivo de regras é usado no operador Consulta de Expressão Regular em um fluxo de mineração ou um fluxo de dados, os recursos podem ser mapeados para colunas de uma tabela relacional, que denota os conceitos extraídos.

Crie um Projeto de Armazém de Dados:

  1. Clique com o botão direito do mouse no Explorador de Projetos e selecione Novo -> Projeto de Armazém de Dados no menu de contexto.
  2. No assistente a seguir, digite o nome do projeto, por exemplo, Analíticas de Texto.
  3. Clique em Concluir.

Crie um novo arquivo de regras:

  1. Na pasta Análise de Texto, clique com o botão direito do mouse na pasta Regras e selecione Novo -> Regras no menu de contexto. Isso exibe o diálogo Novas Regras.
  2. Selecione o Projeto Warehousing de Dados que foi criado anteriormente.
  3. Especifique Factbook_Concepts como o nome do arquivo de regras e clique em Concluir. Isso exibe o editor RegEx.

Crie um tipo denominado Coordenadas:

  1. Na seção Tipos, o tipo Factbook_Concepts é exibido como o tipo inicial. Exclua esse tipo e crie um novo tipo. Denomine o novo tipo Coordenadas. Isso cria automaticamente uma regra com o mesmo nome.
  2. Expanda o tipo Coordenadas. A pasta Recursos está vazia e a pasta Regras contém a regra denominada Coordenadas, mas nenhum padrão de expressão regular está definido ainda.
  3. A primeira regra criada deve extrair o tipo de conceito Coordenadas com os recursos longitude e latitude do CIA.FACTBOOK. Por exemplo:
    Coordenada geográficas: 51 00 N, 9 00 L

    No editor RegEx, para o tipo Coordenadas, selecione a pasta Recursos e clique em Novo Recurso.

  4. No diálogo Novo Recurso, digite longitude no campo de entrada, aceite o tipo de dados padrão Cadeia de Caracteres e clique em OK.
  5. Repita a etapa anterior para incluir outro recurso denominado latitude com o tipo de dados Cadeia de Caracteres.

    Conforme mostrado na Figura 5, a seção Tipos agora deve ter uma definição para o tipo denominado Coordenadas com dois recursos denominados longitude e latitude.

    Figura 5. O Tipo Coordenadas com os Recursos Longitude e Latitude
  6. Especifique o padrão da expressão regular para a regra:
    1. Expanda a pasta Regras na árvore e clique na regra Coordenadas para selecioná-la.
    2. A seção Regra de Teste do editor RegEx, que é mostrada na Figura 6, é usada para testar sua regra em um conjunto de fragmentos de texto de amostra. Você insere um exemplo do texto que deseja localizar no campo de texto Entrada. O campo Correspondido mostra, então, as partes da regras que poderiam ser correspondidas no texto no campo de texto Entrada.

      Insira o seguinte trecho de texto no campo de texto Entrada:

      Coordenada geográficas: 51 00 N, 9 00 L
      Figura 6. A Seção Regra de Teste do Editor RegEx
    3. A seção Regra do editor RegEx, que é mostrada na Figura 7, é onde você realmente insere a expressão regular.

      Insira o padrão da expressão regular a seguir no campo de entrada da seção Regra:

      Coordenadas geográficas: ([0-9]{1,2} [0-9]{1,2} [SN]), ([0-9]{1,3} [0-9]{1,2} [LO])
      Figura 7. A Seção Regra do Editor RegEx

      A regra acima especifica 1-2 dígitos, seguidos por um espaço em branco, seguido por 1-2 dígitos, seguidos por S ou N (para sul ou norte), seguido por uma vírgula, seguido por 1-3 dígitos, seguidos por um espaço em branco, seguido por 1-2 dígitos, seguido por L ou O (para leste ou oeste).

      Como alternativa, é possível você mesmo tentar construir o padrão da expressão regular, usando o Construtor de Expressão Regular. O Construtor de Expressão Regular fornece assistência de sintaxe para a anotação de expressão regular.

    4. Nesta etapa, você designa subpadrões para os recursos longitude e latitude para que seja possível extrair esses conceitos separadamente.

      A regra contém dois subpadrões ou grupos de correspondências entre parênteses. O primeiro subpadrão (Subpadrão1) denota a latitude (51 00 N) e o segundo subpadrão (Subpadrão2) denota a longitude (9 00 L). Para ver todas essas informações, clique no painel Correspondido da seção Regra de Teste e role para baixo usando a tecla seta para baixo.

      Na seção Recursos, selecione a entrada para latitude e clique em Incluir referência de subpadrão. Agora, o diálogo Incluir Referência de Subpadrão mostrado na Figura 8 pode ser visto. Para cada opção listada no diálogo, a parte da expressão regular que define o subpadrão é exibida em negrito.

      Figura 8. Diálogo para Incluir uma Referência de Subpadrão

      Selecione Subpadrão1.

      Volte à seção de recursos, selecione a entrada para longitude e clique em Incluir referência de subpadrão. No diálogo Incluir Referência de Subpadrão, selecione Subpadrão2.

      Conforme mostrado na Figura 9, a seção Recursos não deve mostrar o subpadrão designado para cada recurso.

      Figura 9. A Seção Recursos do Editor RegEx

Crie um tipo denominado Área:

  1. A segunda regra criada deve extrair o tipo de conceito Área. Por exemplo:
    Área: total: 357.021 km² água: 7.798 km² terra: 349.223 km²

    Inicie clicando em Novo Tipo e inserindo Área como o nome do tipo. Isso cria automaticamente uma regra com o nome Área.

  2. Clique em Novo Recurso e insira valor como o nome do recurso.
  3. Altere o tipo de dado do novo recurso denominado valor para Inteiro.
  4. Insira a seguinte expressão regular
    Área: total: ([0-9]{1,3}(,[0-9]{1,3})*) km²
  5. Use o seguinte trecho de texto para testar sua regra:
    Área: total: 357.021 km² água: 7.798 km² terra: 349.223 km²
  6. Designe Subpadrão1 para o recurso denominado valor.
  7. Salve o arquivo de regras clicando na área do editor e pressionando Ctrl+S.

Criando um Fluxo com um Operador Consulta de Expressão Regular

O operador Consulta de Expressão Regular é baseado nos arquivos de regras. Os arquivos de regras contêm padrões de expressões regulares que permitem extrair conceitos, como números de telefone ou endereços de e-mail de tabelas de banco de dados. Com o operador Consulta de Expressão Regular, é possível localizar as seções de texto que correspondem as expressões contidas nos arquivos de regras selecionados.

Crie um fluxo de mineração vazio:

  1. Clique com o botão direito do mouse na pasta Fluxos de Mineração em seu projeto de Warehousing de Dados e selecione Novo -> Fluxo de Mineração no menu de contexto.
  2. No assistente Novo Fluxo de Mineração de Dados do Arquivo, digite um nome para o fluxo de mineração. Por exemplo, RegExLookup.
  3. Faça a seleção para trabalhar com um banco de dados e clique em Avançar.
  4. Na página Selecionar Conexão, selecione o banco de dados DWESAMP e clique em Concluir.

    Isso abre o editor de Fluxo de Mineração.

Defina o fluxo de mineração:

  1. O lado direito do editor de Fluxo de Mineração contém uma paleta com operadores. Esses operadores podem ser usados para construir um fluxo de mineração, arrastando e soltando os mesmos na tela do editor.

    Localize a seção Origens e Destinos da paleta. Selecione um operador Origem da Tabela e arraste-o para a tela do editor.

  2. No diálogo de seleção de tabela, expanda o esquema CIA, selecione a tabela FACTBOOKS e clique em Concluir.
  3. Na seção Operadores de Texto, arraste um operador Consulta de Expressão Regular para a tela.

    Agora é possível ver a visualização Propriedades do operador abaixo da tela. (No entanto, se a área do editor for maximizada, não será possível ver essa visualização até o tamanho do editor ser reduzido.)

  4. Na tela, use uma operação arrastar simples para conectar a porta de saída do operador Tabela de Origem à porta de entrada do operador Consulta de Expressão Regular.
  5. Na página Configurações da visualização Propriedades, selecione a coluna de texto de entrada TEXT na lista de colunas de texto de entrada.
  6. Na página Resultado de Análise, use o ícone Incluir Nova Porta (mostrada na Figura 10) para incluir duas novas portas de saída.
    Figura 10. Incluir Nova Porta da Página Resultado de Análise

    Para a primeira porta de saída (Saída):

    1. Selecione a guia Saída na página de resultados de análise.
    2. Selecione Factbook_Concepts como o arquivo de regras a ser usado na análise de texto.
    3. Selecione Coordenadas na lista suspensa de tipos de anotações.
    4. Exclua as colunas denominadas início e fim na tabela Colunas de Resultados. Essas colunas contêm a posição início e fim do conceito localizado no texto. Essas informações não são necessárias para essa análise.

    Para a segunda porta de saída (Saída1):

    1. Selecione a guia Saída1 na página de resultados de análise.
    2. Selecione Factbook_Concepts como o arquivo de regras a ser usado na análise de texto.
    3. Selecione Área na lista suspensa de tipos de anotações.
    4. Exclua as colunas denominadas início e fim na tabela Colunas de Resultados.

    A Figura 11 mostra a página Resultados de Análise completa

    Figura 11. A Página Resultados de Análise
  7. Na página Colunas de Saída da Visualização Propriedades, selecione a coluna denominada COUNTRY na lista de colunas disponíveis e mova-a para a lista de colunas de saída à direita. Agora, é possível relacionar os conceitos extraídos com a chave COUNTRY, pois essa coluna também está contida na saída do operador.
  8. Crie as tabelas que recebem os resultados de análise:
    1. Clique com o botão direito do mouse na primeira porta de saída (Saída) do operador Consulta de Expressão Regular e selecione Criar tabela adequada no menu de contexto. Insira COUNTRY_COORDINATES para o nome da tabela, CIA para o esquema e clique em Concluir.
    2. Clique com o botão direito do mouse na segunda porta de saída (Saída1) e selecione Criar tabela adequada no menu de contexto. Insira COUNTRY_AREA para o nome da tabela, CIA para o esquema e clique em Concluir.
  9. Por fim, salve o fluxo de mineração clicando na área do editor e pressionando Ctrl+S.

A Figura 12 mostra o fluxo de mineração concluído. Agora está pronto para ser executado.

Figura 12. O Fluxo de Mineração Concluído

Execute o fluxo de mineração:

  1. O processo de execução analisa as colunas de origem na tabela CIA.FACTBOOK usando seu arquivo de regras e grava os resultados nas tabelas de destino COUNTRY_COORDINATES e COUNTRY_AREA que acabaram de ser criadas.

    Para executar o fluxo de mineração, selecione Fluxo de Mineração -> Executar no menu e clique em Executar no assistente.

  2. Após executar o fluxo de mineração, é possível explorar o conteúdo das tabelas de destino.

    Clique com o botão direito do mouse na tabela COUNTRY_COORDINATES e selecione Conteúdo de amostra da tabela de banco de dados no menu de contexto. Isso faz com que o conteúdo da amostra seja mostrado na visualização Saída de Dados, conforme mostrado na Figura 13.

    Figura 13. O Conteúdo de Amostra da Tabela COUNTRY_COORDINATES Mostrando a Longitude e a Latitude Extraídas

Conclusão e Perspectiva

Este artigo descreve a arquitetura básica do InfoSphere Warehouse e, especificamente, análise de texto. Também descreveu algumas possibilidades referentes a como os resultados da análise de texto pode ser usada para criar novos insights. Um exemplo passo a passo demonstrou como construir uma tarefa de extração de entidade denominada simples, usando expressões regulares. Os próximos artigos da série mostrarão como executar outras tarefas, como extrair entidades denominadas usando dicionários e como usar o IBM Cognos 8 BI para visualizar e analisar os resultados da análise de texto juntamente com dados estruturados já existentes.

Recursos

Aprender

Obter produtos e tecnologias

Discutir

Comentários

developerWorks: Conecte-se

Los campos obligatorios están marcados con un asterisco (*).


Precisa de um ID IBM?
Esqueceu seu ID IBM?


Esqueceu sua senha?
Alterar sua senha

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


A primeira vez que você entrar no developerWorks, um perfil é criado para você. Informações no seu perfil (seu nome, país / região, e nome da empresa) é apresentado ao público e vai acompanhar qualquer conteúdo que você postar, a menos que você opte por esconder o nome da empresa. Você pode atualizar sua conta IBM a qualquer momento.

Todas as informações enviadas são seguras.

Elija su nombre para mostrar



Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

Los campos obligatorios están marcados con un asterisco (*).

(Escolha um nome de exibição de 3 - 31 caracteres.)

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


Todas as informações enviadas são seguras.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Information Management
ArticleID=423692
ArticleTitle=Análise de Texto no InfoSphere Warehouse, Parte 1: Visão Geral da Arquitetura e Exemplo de Extração de Informações com Expressões Regulares
publish-date=05122014