Avançar para a área de conteúdo

ir para o conteúdo principal

developerWorks Brasil  >  Information Management  >

Análise de texto no InfoSphere Warehouse, Parte 2: Extração de informações baseadas em dicionário combinada com geração de relatório do IBM Cognos

Obtenha insights dos negócios a partir de dados não estruturados

developerWorks
Opções de documento

Opções de documento que necessitam de JavaScript não são exibidas


Classificar esta página

Ajude-nos a melhorar este conteúdo


Nível: Intermediário

Stefan Abraham, Software Engineer, IBM
Simone Daum, Software Engineer, IBM
Benjamin G. Leonhardi, Software Engineer, IBM

09/Jul/2009

As informações não estruturadas representam a fonte de informações maior, mais atualizada e de mais rápido crescimento disponível hoje. Essas informações existem em muitas fontes diferentes, como registros de central de atendimento, relatórios de reparos, críticas de produtos, e-mails, e muitas outras. Os recursos de análise de texto do IBM InfoSphere™ Warehouse podem ajudá-lo a descobrir o valor oculto desses dados não estruturados. Esta série de artigos abrange a arquitetura geral e as oportunidades comerciais da análise de dados não estruturados por meio dos recursos de análise de texto do InfoSphere Warehouse. A integração desse recurso com a geração de relatórios do IBM Cognos® possibilita que pessoas em toda a empresa aproveitem os resultados da análise de texto.

O primeiro artigo desta série deu uma visão geral dos recursos de análise de texto do InfoSphere Warehouse e mostrou como usar expressões regulares para extrair conceitos de texto de formato livre. Este segundo artigo mostra como usar dicionários para extração de conceitos e como usar taxonomias para estruturá-los. Ele explica também como apresentar os resultados em um relatório interativo Cognos.

Introdução

Na extração de informações, uma tarefa comum é a extração de conceitos, como pessoas, produtos ou endereços de e-mail, dos textos. Se esses conceitos não tiverem certo padrão (como os padrões de números de telefone e endereços de e-mail), é possível usar dicionários para alistar todos os termos que você gostaria de extrair. É possível usar taxonomias para estruturar as entradas dos dicionários em categorias de vários níveis.

No InfoSphere Warehouse, os conceitos extraídos podem ser armazenados de volta no banco de dados e, posteriormente, serão disponibilizados para outras ferramentas analíticas comerciais, como aplicativos de mineração de dados ou ferramentas de geração de relatórios.

O IBM Cognos 8 Business Intelligence fornece um conjunto completo de recursos de inteligência de negócios, incluindo geração de relatórios, análise, painéis e pontuações. O Cognos 8 Reporting é capaz de usar informações estruturadas de muitas fontes de dados, e pode ser usado para propagar os resultados de análise de texto para um público amplo.

As seções a seguir explicam os recursos de extração baseada em dicionário do InfoSphere Warehouse e mostram como você pode criar taxonomias para estruturar os conceitos em dicionários. Você terá uma visão geral resumida do IBM Cognos 8 e como ele se integra aos recursos de análise de texto do InfoSphere Warehouse.

Por fim, em um exemplo passo a passo, veremos como combinar os componentes de análise de texto do InfoSphere Warehouse e do Cognos 8 BI para criar um relatório que destaque as habilidades mais frequentemente solicitadas em ofertas de trabalhos de TI.

Entendendo a extração de conceitos baseada em dicionário no InfoSphere Warehouse

O InfoSphere Warehouse contém um ótimo conjunto de ferramentas para extrair conceitos de texto baseado em dicionários. Com a ajuda de um editor de dicionário, é possível primeiro criar um dicionário e depois usar o operador de busca dele para incluir a extração de conceito em um fluxo. Os dicionários do InfoSphere Warehouse são muito mais do que simples listas de palavras. Uma entrada de dicionário consiste em uma forma base e múltiplas variantes opcionais. As variantes podem incluir acrônimos, abreviaturas, sinônimos ou qualquer outra variação ou associação da forma base.


Figura 1. Amostras de entrada do dicionário País mostrando a forma base e suas variantes
Forma baseVariantes
... ...
Alemanha RFA
Sri Lanka Ceilão
Estados Unidos da América EUA
... ...

Analise o dicionário País na Figura 1 e o seguinte texto: Sri Lanka era conhecido como Ceilão até 1972. Fazer uma busca com o dicionário nesse texto resultaria nas seguintes duas anotações:

  1. Anotação:

    tipo:País
    forma base:Sri Lanka
    id:17
    começo:0
    fim:9
    texto abrangido:Sri Lanka


  2. Anotação:

    tipo:País
    forma base:Sri Lanka
    id:17
    começo:23
    fim:29
    texto abrangido:Ceilão


O tipo das anotações criadas por uma busca de dicionário é derivada do nome do dicionário. Os atributos de começo e fim denotam o início e o término do termo correspondente por meio de um número de caracteres. O atributo forma base da anotação é a forma base da entrada de dicionário correspondente, enquanto texto abrangido mostra o termo correspondente como ele ocorre no texto. Pode ser a própria forma base ou uma variante dela ou até mesmo uma flexão gramatical deles, como mostrado na lista a seguir. O id das anotações mostram o ID interno da entrada de dicionário correspondente. Esse ID é usado internamente para ligar as entradas de dicionário com entradas de taxonomia, como mostrado mais adiante neste artigo.

Como mencionado acima, o InfoSphere Warehouse não faz apenas uma busca caractere a caractere das formas base e suas variantes. Antes da busca, o texto é pré-processado com as seguintes subtarefas:

  • Segmentação de texto

    Divide o texto em palavras ou símbolos individuais. Em geral, isso é feito com base em caractere em branco entre as palavras. Contudo, idiomas como chinês ou japonês não tem limitadores de palavras como esse. Portanto, a análise sintática de texto nesses idiomas exige a identificação de limites das palavras, o que pode ser uma tarefa muito difícil. O InfoSphere Warehouse usa regras e dicionários lexicais específicos do idioma para segmentação de texto. Esses dicionários lexicais internos estão disponíveis em mais de 20 idiomas. É preciso escolher o idioma e o texto a ser analisado como opção no operador de busca de dicionário.

  • Derivação de raiz

    Durante a segmentação de texto, cada palavra ou símbolo é determinada para o dicionário lexical. Essas palavras são chamadas de vocabulário interno. A derivação de raiz localiza formas derivadas das palavras do vocabulário interno com base em flexão gramatical, incluindo conjugações verbais, como escrever, escrevi e escrito, ou formas dos substantivos, como rato e ratos. Durante a busca no dicionário, as flexões das formas base e variantes são localizadas. Se uma entrada de dicionário consiste em múltiplos termos, cada termo individual pode ser flexionado.

    A derivação de raiz não é aplicada a palavras do vocabulário externo. Assim, é preciso incluir manualmente todas as variações esperadas nas variantes do dicionário. Além de dicionários lexicais usados durante buscas no dicionário, também há dicionários internos especiais de flexão. Esses dicionários o ajudam durante a criação do seu dicionário a fim de determinar se uma palavra faz parte do vocabulário interno ou externo. É possível escolher o idioma do dicionário na seção Detectar flexões automaticamente no editor de dicionário. A seção mostra todas as flexões que serão localizadas durante a busca. A Figura 2 mostra uma entrada de dicionário escrever com as variantes rabiscar e escr. Com português selecionado como idioma, é possível ver as flexões de escrever e rabiscar, enquanto escr pertence ao vocabulário externo. Mas você talvez queira incluir escr no seu dicionário, porque é uma abreviatura comum em textos que você vai analisar.



    Figura 2. Detalhes de uma entrada de dicionário e a seção Flexões detectadas automaticamente do editor de dicionário
    Details of a dictionary entry and the automatically detected inflections section of the dictionary editor

  • Como lidar com letras maiúsculas e minúsculas

    O operador Busca no Dicionário localiza as seguintes grafias das palavras do vocabulário interno:

    • Letras maiúsculas iniciais, como Cliente
    • Letras maiúsculas, como CLIENTE
    • Letras maiúsculas e minúsculas, como cLiente

    Esse comportamento também se aplica a palavras do vocabulário externo se forem digitadas em letras minúsculas no dicionário, como ipod. Se não forem inseridas palavras do vocabulário externo em minúsculas, a palavra só será localizada se for grafada exatamente como se encontra no seu dicionário. Assim, se você incluir a palavra iPod no dicionário, ela só será localizada se a grafia for exatamente essa. O editor de dicionário não mostra as variações de um termo em maiúsculas e minúsculas detectadas automaticamente, mas é possível ver na seção de flexões se elas se encontram no vocabulário interno ou externo do idioma selecionado.

Para possibilitar o processamento de idioma natural, é preciso especificar o idioma do texto no operador de busca de dicionário. Se desejar executar uma busca em múltiplos dicionários ao mesmo tempo, é possível criar múltiplas portas de saída para o operador, cada qual para um dicionário.

Pode-se criar dicionários manualmente ou as entradas podem ser importadas de arquivos simples, tabelas de banco de dados ou outros dicionários. Eles também podem ser criados a partir de resultados de extração de termos frequentes. Essa extração mostra os padrões mais frequentes de substantivos, verbos ou outras classes gramaticais. Na visualização de resultados, é possível marcar todas as palavras interessantes e exportá-las para um dicionário. Isso talvez poupe tempo na criação do dicionário.



Voltar para parte superior


Usando taxonomias para estruturar as entradas de dicionário

Pode-se usar taxonomias para estruturar ou categorizar as entradas de dicionário. Na Figura 3, é possível ver um exemplo de taxonomia em que os países são categorizados em diferentes continentes.


Figura 3. Editor de taxonomia
The taxonomy editor

É possível criar níveis, como continentes no exemplo, e atribuir as entradas do dicionário arrastando-as e soltando-as. Os níveis também podem conter subníveis de qualquer profundidade.

Se for criada uma taxonomia a partir de um dicionário, apenas as formas base serão importadas para ela, mas suas variantes também serão levadas em conta, porque as anotações são categorizadas na taxonomia pelo id de anotação, que identifica a entrada de dicionário. Esse ID também é usado para identificar uma entrada de taxonomia. Após incluir uma entrada no dicionário ou na taxonomia, é possível sincronizar novamente os dois recursos.

Os níveis de uma taxonomia podem ser utilizados para expandir ou recolher itens em um relatório. Para disponibilizar a taxonomia em uma ferramenta de geração de relatórios, exporte-a para uma tabela de banco de dados. Cada nível de taxonomia é exportado em uma coluna da tabela. A Figura 4 mostra a tabela da taxonomia da Figura 2.


Figura 4. Amostra de conteúdo da tabela com a taxonomia exportada
Sample contents of the table with the exported taxonomy


Voltar para parte superior


Usando o IBM Cognos 8 Business Intelligence

O IBM Cognos 8 Business Intelligence fornece um conjunto completo de recursos de inteligência de negócios. Ele se baseia em uma arquitetura orientada a serviços flexível. Os recursos principais incluem geração de relatórios, análise, painéis e pontuações.

A geração de relatórios é usada para agregar dados relevantes sobre processos de negócios e distribuí-los para as pessoas que mais se beneficiam dessas informações específicas. No ambiente Análise Avançada, isso significa transferir os resultados para as pessoas que mais se beneficiam dos insights gerados sobre os negócios.

Os componentes do Cognos 8 necessários para criar e publicar relatórios comerciais são os seguintes:

  • Cognos Connection é o portal Web e ponto de entrada para a funcionalidade do Cognos 8. A partir dali, o usuário pode gerenciar, organizar e exibir o conteúdo existente, como relatórios ou painéis. Os estúdios de criação baseado na Web, como o Report Studio, podem ser abertos a partir do Cognos Connection a fim de criar novos recursos ou editar os existentes. Também são usados para administrar o servidor Cognos, incluindo mudanças em restrições de acesso, importação de conteúdo, ou alteração na lista de pessoas a quem o relatório é enviado.

  • Cognos Framework Manager é a ferramenta de modelagem para as fontes de dados usadas no Cognos 8. Os dados da maioria dos bancos de dados e de outras fontes, como serviço da Web, por exemplo, podem ser acessados nos relatórios Cognos descrevendo a camada de metadados no Framework Manager. As tabelas de banco de dados, visualizações e procedimentos armazenados podem ser incluídos em um pacote Cognos como assunto de consulta. O Framework Manager é usado para importar e consolidar as informações disponíveis em diferentes fontes de dados da empresa, de forma que as informações possam ser usadas de forma coerente nas ferramentas do Cognos 8 BI, como o Report Studio. Note que os próprios dados são mantidos na fonte de dados, e são acessados à medida que o relatório é criado. O Cognos Report Studio é um dos estúdios de criação baseado na Web do Cognos 8 BI. É usado para criar e editar relatórios sofisticados sobre os dados descritos no Framework Manager. Fornece enorme funcionalidade, incluindo pesquisa detalhada, avisos e uma biblioteca de mapeamento abrangente.

O seguinte processo disponibiliza dados no relatório:

  1. No Framework Manager, o modelador de dados cria os metadados Cognos que descrevem os dados no banco de dados a partir da perspectiva de negócios, incluindo relações entre tabelas e nomes comerciais dos valores.

  2. Após os metadados serem modelados, são implementados como pacote no armazenamento de conteúdo do Cognos 8. Dali, podem ser acessados por meio do Cognos Connection e estúdios de criação.

  3. O designer de relatório entra no Cognos Connection e cria um novo relatório no pacote implementado. Após o relatório ser criado, o grupo de destino e o formulário de distribuição (como e-mail ou portal Web) podem ser administrados.

O recurso de criar relatórios a partir de fontes de dados relacionais é a chave da integração do InfoSphere Warehouse Text Analysis com o IBM Cognos.



Voltar para parte superior


Entendendo a arquitetura de integração

O conteúdo dos relatórios Cognos consiste em conjuntos de resultados entregues por uma fonte de dados relacionais, conforme descrito acima. O conteúdo de determinado relatório é determinado por uma consulta de SQL dinâmica a uma ou mais fontes de dados. Visto que o InfoSphere Warehouse Text Analysis lê as informações de tabelas de banco de dados e grava os resultados de volta nas tabelas de resultados de banco de dados, os resultados podem ser facilmente acessados com o Cognos 8 BI para criar relatórios a partir deles. Em contraste com o InfoSphere Warehouse Data Mining, não é fácil criar execuções de análise de texto parametrizadas dinâmicas, visto que o tempo de execução da análise de texto não está no banco de dados e, portanto, não tem API SQL. Mas é fácil consumir as tabelas de resultados que contêm os resultados de análise de texto, como qualquer outra tabela de banco de dados no relatório Cognos.

A próxima seção lhe dá um exemplo passo a passo desse tipo de integração: a análise de texto é usada para extrair informações estruturadas de uma tabela de banco de dados que contenha informações não estruturadas. Os resultados são armazenados no banco de dados e consumidos pelo relatório Cognos a fim de propagar as informações para um público mais amplo.



Voltar para parte superior


Extraindo informações de texto usando dicionários: Exemplo

Neste exemplo faça de conta que você é um dos gerentes da JK Superstore. É preciso definir a estratégia de TI dessa empresa e determinar se as habilidades dos seus funcionários ainda estão atualizadas. Portanto, você quer tentar descobrir as tendências atuais no mercado de trabalho de TI analisando as ofertas de trabalho anunciadas na Internet por 8 grandes empresas de TI: Sigratech, Mics System, JTS World, Netrum, Tersa, Vernacle, Quantech e Coratech.

Seu interesse é em que habilidades (incluindo linguagens de programação) são solicitadas por essas empresas. Além dessa, é possível fazer consultas mais sofisticadas, incluindo que habilidades têm uma tendência de aumento ao longo do tempo, separadas por empresa.

Para alcançar esse objetivo, primeiro crie um dicionário que contenha uma lista das habilidades que deseja extrair do texto da oferta de emprego. Depois, crie uma taxonomia usando as entradas de dicionário, o que permite obter uma visão resumida das habilidades mencionadas. Depois, é possível criar um fluxo que analise a tabela que contém as ofertas de trabalho por meio do operador Busca no Dicionário. Esse operador vai criar um conjunto de resultados que contém o número de identificação do trabalho e a habilidade mencionada. Esse conjunto de resultados pode então ser ligado à taxonomia criada para obter a tabela final que conterá as informações estruturadas existentes, incluindo o nome da empresa, a oferta de trabalho ou/e as novas informações estruturadas sobre as habilidades mencionadas. A tabela pode então ser acessada no IBM Cognos 8 BI para criar relatórios. Por fim, é possível criar um relatório que mostre as categorias de habilidades e as habilidades detalhadas mencionadas nas ofertas de emprego e que empresas solicitaram essas habilidades.

Entendendo os dados

Para executar uma análise do texto nas tabelas de banco de dados, primeiro explore as informações disponíveis para selecionar as colunas de texto relevantes para a análise. Com a Visualização de Exploração de Dados, é possível navegar por amostras das tabelas de banco de dados, explorar o conteúdo de grandes colunas de texto ou determinar o comprimento médio de sequências de texto.

No exemplo, use a Visualização de Exploração de Dados para explorar o conteúdo da tabela JOBS. A tabela é encontrada no banco de dados de amostra DWESAMP, enviado com o InfoSphere Warehouse.

No Explorador de Fonte de Dados, navegue até a tabela JOBS no banco de dados DWESAMP e esquema TXTANL. Dê um clique à direita na tabela e selecione Distribuição e Estatísticas > Exploração de Dados no menu popup.

A tabela deve conter quatro colunas:

  • COMPANY_NAME: o nome da empresa
  • TIME: a data da oferta
  • ID: um número que identifica a oferta
  • JOB_DESC: a descrição do trabalho em texto de formato livre

Para exibir diferentes ofertas de trabalho, selecione as linhas apropriadas na tabela de conteúdo de amostra.

Role a descrição do texto de uma oferta de trabalho para localizar as informações sobre as habilidades necessárias. Olhando essas habilidades enumeradas, é possível ver que essa tarefa de extrair conceitos pode ser gerenciada melhor com dicionários ou listas de palavras.

Amostra de projeto de análise de texto

O exemplo neste artigo usa o exemplo de projeto de análise de texto disponível no DesignStudio do InfoSphere Warehouse. Selecione Arquivo > Novo > Exemplo no menu. No assistente Novo Exemplo, expanda a pasta Exemplos do Data Warehouse e selecione Amostra de Análise de Texto. Clique em Avançar. Especifique um nome para o projeto e conclua o assistente. Essa amostra de projeto contém o dicionário it_skills para uso no exemplo deste artigo.

Criando o dicionário e a taxonomia para as habilidades mencionadas na oferta de trabalho

O operador Busca no Dicionário processa o texto usando um dicionário. Um dicionário é uma lista de palavras ou expressões definidas pelo usuário. Para cada termo, é possível incluir algumas variantes. Por exemplo, Java™, JAVA e J2EE serão reconhecidas como uma única referência. Para este exemplo, projete um dicionário que descreva o intervalo de habilidades de TI. Uma taxonomia é uma classificação hierárquica feita por meio de níveis. Use o editor de taxonomia para criar uma taxonomia que será exportada como tabela e usada posteriormente na construção do relatório. A taxonomia conterá os termos do dicionário it_skills e terá a aparência daquela mostrada na Figura 5.


Figura 5. Taxonomia de habilidades
The skills taxonomy
  1. Para criar um Projeto no Data Warehouse, dê um clique com o botão direito do mouse em Explorador de Projeto e selecione Novo > Projeto do Data Warehouse.

  2. No assistente que aparece, digite o nome do projeto, como Análise de Texto e clique em Concluir.

  3. Para criar e preencher o dicionário, expanda o projeto Análise de Texto criado.

  4. Dê um clique com o botão direito do mouse na pasta Análise de Texto e clique em Novo > Dicionário.

  5. Na janela resultante, digite um nome para o dicionário, como habilidades e clique em Concluir. O Editor de Dicionário aparece na Visualização de Editor. No lado esquerdo do editor, aparece uma visualização do dicionário, incluindo cada termo e uma amostra de suas variantes. Do lado direito do editor fica a área de edição.

  6. Adicione qualquer termo adicional e suas variantes.

  7. Para adicionar uma nova entrada ao dicionário, do lado direito digite Windows® como forma base e acrescente as variantes Microsoft Windows, XP e Windows XP Professional.

  8. Para ver se algumas das flexões são abrangidas automaticamente, na parte esquerda, selecione English como idioma para busca de flexão. Aparecerão flexões como Microsoft Corporation Windows e Windows XP professionals, que serão abrangidas automaticamente. Obs.: Para se certificar de encontrar todas as ocorrências dos termos especificados, e visto que esses termos não são conhecidos pelo dicionário subjacente, escreva os termos com todas as letras minúsculas. Isso assegura que termos como Windows ou xp também ocorram no resultado.

    Em vez de inserir todas as entradas e suas variantes manualmente, em geral é possível iniciar com uma análise de termos frequentes para ver os termos frequentes e decidir que termos adicionar ao seu dicionário. Esse processo de identificar os termos corretos pode tomar muito tempo. Em vez de criar o dicionário do zero usando os termos frequentes, use o dicionário de amostra it_skills da amostra de projeto de análise de texto.

    Se quiser começar com termos frequentes a fim de localizar os termos de vocabulário externo, como j2ee ou db2, o padrão Não Identificado deve ser adicionado à lista de padrões de termo a localizar, o que, por sua vez, detecta mais termos, tornando a análise muito demorada.

  9. Para importar entradas para o dicionário, clique no botão superior esquerdo do editor de dicionário.

  10. Selecione dicionário como fonte de importação, navegue até o projeto AmostraAnaliseTexto e selecione o dicionário it_skills.

  11. Clique em Concluir para importar as entradas.

  12. Saia da janela Mesclagem clicando em OK.

  13. Pressione CTRL+S para salvar o dicionário.

Para criar e exportar a taxonomia, execute estas etapas:

  1. Para criar a taxonomia, no projeto Análise de Texto do Explorador de Projeto, dê um clique com o botão direito do mouse na pasta Análise de Texto e clique em Novo > Taxonomia.

  2. No assistente Criar Taxonomia, especifique um nome para sua taxonomia, como skills_tax e clique em Avançar.

  3. Selecione Criar taxonomia a partir da fonte de importação, marque Dicionário e clique em Avançar.

  4. Navegue na subárvore do seu projeto Análise de Texto, selecione o dicionário it_skills e clique em Concluir. Abre-se o editor de taxonomia. À esquerda fica o quadro "Termos não designados" com os termos importados do dicionário. À direita fica o quadro "Árvore de taxonomia" onde é possível criar sua classificação.

  5. Para definir a taxonomia, crie o primeiro nível. Na árvore de taxonomia, dê um clique com o botão direito do mouse em Raiz e clique em Adicionar nível para adicionar um novo membro ao nível selecionado.

  6. Adicione cinco níveis: Banco de Dados, Desenvolvimento/Programação, Sistemas Operacionais, Orientado para Web e Outros.

  7. Atribua os termos não-designados às categorias criadas colocando o cursor na primeira categoria e usando os botões de seta para atribuir termos a essa categoria. Também é possível usar o recurso de arrastar e soltar para atribuir um termo a uma categoria.

    A taxonomia final é mostrada na Figura 6.


Figura 6. Editor de taxonomia com habilidades atribuídas a determinadas categorias
The taxonomy editor with assigned skills to defined categories
  1. Pressione CTRL+S para salvar a taxonomia.

  2. Clique no botão Exportar Taxonomia.

Figura 7. Exportar taxonomia
Export Taxonomy
  1. Na página de taxonomias disponíveis, confirme se a sua taxonomia está selecionada e se Exportar a taxonomia para tabela está marcado.

  2. Clique em Avançar e selecione o banco de dados DWESAMP.

  3. Clique em Avançar para especificar a nova tabela.

  4. Selecione TXTANL como esquema de tabela e SKILLS_TAX como novo nome da tabela.

  5. Clique em Avançar para ver informações detalhadas sobre a tabela a ser criada.

  6. Clique em Avançar. A página Exibir Formato de Tabela resume a tabela de taxonomia que será criada, mostrando uma amostra do conteúdo, como se vê na Figura 8.

Figura 8. Amostra de conteúdo da tabela de taxonomia
Sample content of the taxonomy table
  1. Clique em Concluir para criar e preencher a tabela.

Criando uma tabela adequada para geração de relatórios

O operador Busca no Dicionário se baseia em dicionários que contêm listas de palavras que extraem conceitos, incluindo nomes, produtos ou até habilidades mencionadas nas colunas de texto do banco de dados. Com o operador Busca no Dicionário, é possível localizar as seções de texto que contêm os termos no dicionário selecionado.

  1. Para criar um fluxo de mineração vazio, dê um clique com o botão direito do mouse sobre a pasta Fluxos de Mineração no projeto Data Warehousing e selecione Novo > Fluxo de Mineração.

  2. No assistente, digite o nome do fluxo de mineração, como AnaliseTrabalhos.

  3. Especifique o trabalho em comparação com o banco de dados e clique em Avançar.

  4. Selecione o banco de dados DWESAMP e clique em Concluir. Abre-se o editor Fluxo de Mineração.

Para definir o fluxo de mineração, à direita do editor, pode-se ver uma paleta com os operadores. Com esses operadores, é possível criar um fluxo de mineração arrastando e soltando-os na tela do editor.

Para criar o fluxo de mineração, execute as seguintes etapas:

  1. Na paleta, localize a seção Fontes e Destinos.

  2. Selecione o operador Fonte da Tabela e arraste-o para a tela do editor.

  3. Na janela da caixa de diálogo de seleção de tabela, expanda o esquema TXTANL e selecione a tabela JOBS.

  4. Clique em Concluir.

  5. Na seção Operadores de Texto, arraste um operador Busca no Dicionário para a tela. Abre-se a visualização Propriedades do operador abaixo da tela. Obs.: Se sua área do editor estiver maximizada, não será possível exibir essa visualização até que o tamanho do editor seja reduzido.

  6. Na tela, conecte a porta de saída do operador Tabela Fonte com a porta de entrada do operador Busca no Dicionário usando uma simples operação de arrastar.
  7. Selecione o operador Busca no Dicionário e especifique as propriedades na visualização Propriedades.

  8. Na página Configurações de Dicionário, selecione a coluna de entrada de texto JOB_DESC da lista e mude o idioma do texto para English (United States).

  9. Na página Resultados da Análise, selecione habilidades como dicionário e como tipo de anotação.

  10. Exclua BEGIN, END e COVEREDTEXT das colunas de tabelas resultantes visto que essas informações não serão necessárias nessa análise.

  11. Renomeie a coluna BASEFORM restante como SKILL para exibir as formas base especificadas no dicionário.

  12. Renomeie a coluna ID como SKILL_ID para mostrar a identificação exclusiva da forma base. A

    Figura 9 mostra a página Resultados da Análise completa.


Figura 9. Página Resultados da Análise
The Analysis Results page
  1. Na página Colunas de Saída da Visualização Propriedades, selecione as colunas ID, COMPANY_NAME e TIME na lista de colunas disponíveis e mova-as para a lista de colunas de saída à direita. Agora, é possível relacionar os conceitos extraídos com o ID da chave, porque essa coluna também está contida na saída do operador.

  2. Coloque um Operador DISTINCT na tela. Se for localizado um conceito, uma nova linha será criada na tabela de destino. Se um conceito ocorre múltiplas vezes na linha de texto original, será criada outra linha na tabela de destino, apontando para a mesma entrada original.

    Para remover as entradas duplicadas e evitar contá-las múltiplas vezes posteriormente, use o Operador DISTINCT da seção Transformações Avançadas da paleta de editor. Conecte a porta de entrada do Operador DISTINCT com a porta de saída do operador Busca no Dicionário.

Junte a tabela resultante à tabela de taxonomia para permitir análise de valor mais alto executando as seguintes etapas:

  1. Arraste um novo Operador Fonte da Tabela para a tela e selecione a tabela TXTANL.SKILLS_TAX, para onde foi exportada a taxonomia. Se a tabela não estiver disponível na lista, atualize o modelo de banco de dados selecionando Fluxo de Mineração > Atualizar Banco de Dados na barra de menus.

  2. Coloque um Operador Juntar Tabela da seção de paleta Transformações na tela.

  3. Conecte a primeira porta de entrada com a porta de saída resultante do Operador DISTINCT e conecte a segunda porta de entrada com a porta de saída do Operador Fonte da Tabela (TXTANL.SKILLS_TAX).

  4. Especifique a condição do operador Juntar Tabela conectando as tabelas usando um número exclusivo de termo, que é o SKILL_ID no conjunto de resultados da análise de texto e TERM_ID na tabela de taxonomia. A condição resultante se parece a esta, com outros nomes para as tabelas virtuais: "IN_09_0"."SKILL_ID" = "IN1_09_1"."TERM_ID".

  5. Configure as colunas resultantes para o operador Juntar Tabela.

  6. Na página Selecionar Lista da visualização Propriedades, remova todas as colunas que não são necessárias para a criação de relatório. Mantenha as seguintes colunas no resultado de exemplo: COMPANY_NAME, TIME, ID, SKILL e LEVEL1_NAME, que pode ser renomeada para SKILL_CAT.

Crie a tabela que receberá os resultados da análise executando as seguintes etapas:

  1. Clique com o botão direito do mouse sobre a porta de saída (Interna) do operador JOIN e selecione Criar tabela adequada no menu de contexto. Especifique o nome da tabela SKILL_REPORT e o esquema TXTANL.

  2. Clique em Concluir.

  3. Salve o fluxo de mineração clicando na área do editor e pressionando Ctrl+S.

Agora, o fluxo de mineração estará pronto para execução, como mostrado na Figura 10.


Figura 10. Fluxo de mineração completo
The complete mining flow

Depois, execute seu fluxo de mineração. Com isso, serão analisadas as colunas de origem na tabela TXTANL.JOBS usando seu dicionário. Depois, junte o resultado com a taxonomia exportada e grave esse conjunto de dados na tabela de destino TXTANL.SKILL_REPORT recém-criada. Execute as seguintes etapas:

  1. No menu, selecione Fluxo de Mineração > Executar.

  2. No assistente, clique no botão Executar.

  3. Explore o conteúdo da tabela de destino clicando com o botão direito do mouse sobre a tabela SKILL_REPORT e selecionando Distribuição e Estatísticas > Exploração de Dados. A amostra de conteúdo é mostrada na visualização Exploração de Dados, como se vê na Figura 11.

Figura 11. Amostra de conteúdo da tabela SKILL_REPORT mostrando as habilidades extraídas
Sample contents of the table SKILL_REPORT

Essa tabela pode então ser usada no Cognos 8 BI para criar um relatório.



Voltar para parte superior


Criando um relatório Cognos com as habilidades extraídas

Nesta seção, vamos criar um relatório Cognos que mostra os resultados da análise de texto extraídos na seção anterior. O relatório consiste em uma página principal que lhe dá uma visão geral das habilidades e suas respectivas categorias. A partir dessa visão geral, pode-se expandir a lista de ofertas de trabalho que contêm as habilidades selecionadas e suas respectivas categorias. Também é possível selecionar uma oferta de trabalho na lista de visões gerais a fim de ver a descrição completa dela. Os dados serão lidos a partir da tabela SKILL_REPORT criada neste artigo.

Importando os dados de habilidades para o Cognos

Para usar a tabela SKILL_REPORT que contém os resultados da análise no relatório, é preciso importá-la para os metadados Cognos por meio do Cognos Framework Manager. Também é preciso importar a tabela JOBS original e criar um relacionamento entre os dois assuntos para exibir o texto completo da oferta de trabalho no relatório. Para simplificação da criação do relatório, crie um assunto de consulta conjunta SKILL_OVERVIEW que inclui a descrição do trabalho do assunto da consulta JOBS nas colunas do assunto de consulta SKILL_REPORT. Será esse o assunto de consulta que você usará no relatório.

Os assuntos de consulta que serão criados são:

  • SKILL_REPORT: A tabela que contém os resultados da análise de texto. Contém uma lista de todas as ocorrências de habilidades nas ofertas de trabalho e indica a categoria de habilidade à qual cada habilidade pertence.

  • JOBS: A tabela que contém a descrição completa do trabalho. Vamos criar um relacionamento com SKILL_REPORT por meio da coluna de ID, que contém o ID da oferta de trabalho.

  • SKILL_OVERVIEW: O assunto da consulta que contém todas as informações da tabela SKILL_REPORT junto com as descrições de trabalho da tabela JOBS.

Primeiro é preciso criar um projeto no Cognos Framework Manager que seja conectado ao banco de dados de amostra DWESAMP do InfoSphere Warehouse.

Para criar o projeto, execute as seguintes etapas:

  1. Abra o Cognos Framework Manager.

  2. Clique no link Criar novo projeto.

  3. Especifique o nome como MetadadosDicTextoe clique em OK.

  4. Selecione English como idioma e clique em OK.

  5. Para criar metadados a partir da tabela DB2, selecione uma Fonte de Dados comum e clique em Avançar.

  6. Selecione o banco de dados DWESAMP e clique em Avançar.

  7. Selecione o objeto de dados que deseja importar como metadados. Expanda o esquema TXTANL e a pasta de tabela, e selecione as tabelas JOBS e SKILL_REPORT.

  8. Clique em Avançar.

  9. Use as configurações padrão e clique em Importar.

  10. Clique em Concluir.

Agora temos um projeto do Framework Manager que contém os dois assuntos de consulta JOBS e SKILL_REPORT. Para criar um relatório que junte as informações entre esses assuntos, é preciso criar um relacionamento entre eles. O exemplo usa a coluna de ID como chave de junção.

Para criar um relacionamento entre SKILL_REPORT e JOBS, execute as seguintes etapas:

  1. Selecione Criar Relacionamento no menu de contexto do assunto de consulta SKILL_REPORT.

  2. Para o assunto de consulta à esquerda, selecione a coluna de ID do assunto SKILL_REPORT, e determine a cardinalidade para 1..n, porque é possível haver múltiplas habilidades em uma oferta de trabalho.

  3. Para o assunto de consulta à direita, adicione o assunto de consulta JOBS, selecione a coluna de ID e configure a cardinalidade para 1..1, porque há exatamente uma linha para cada oferta de trabalho.

  4. Clique em OK.

Para facilitar a criação de relatórios Cognos usando informações de ambas as tabelas, crie um novo assunto de consulta que contenha todas as colunas da tabela SKILL_REPORT junto com o item de consulta de descrição de trabalho do assunto de consulta JOBS.

Para criar o assunto de consulta SKILL_OVERVIEW, execute as seguintes etapas:

  1. Crie um novo assunto de consulta no espaço de nomes DWESAMP clicando com o botão direito do mouse sobre DWESAMP e selecionando Criar > Assunto de Consulta.

  2. Mude o nome para SKILL_OVERVIEW sem mudar as outras configurações e clique em OK.

  3. Adicione todos os itens de consulta do assunto de consulta SKILL_REPORT e o item de consulta JOB_DESC do assunto de consulta JOBS.

  4. Clique em OK.

Criamos assim os assuntos de consulta necessários para o relatório Cognos. Agora, é possível implementar um pacote TXTARTICLE que contenha os assuntos de consulta do projeto para o Cognos Content Store.

Para criar e implementar o pacote, execute as seguintes etapas:

  1. Vá até a Visualização Projeto e dê um clique com o botão direito do mouse sobre a pasta Pacotes.

  2. Selecione Criar > Pacote.

  3. No campo de nome, digite TXTARTICLE e clique em Avançar.

  4. Clique em Avançar.

  5. Adicione DB2 à lista Conjuntos de Funções Disponíveis e clique em Concluir.

  6. Clique em Sim para continuar com o processo de publicação.

  7. Na parte "Selecionar local de publicação" do assistente Publicar, clique em Avançar para usar os padrões.

  8. Clique em Avançar sem especificar as propriedades de segurança.

  9. Clique em Publicar.

  10. Clique em Concluir na caixa de diálogo que o informar que o seu pacote foi publicado com êxito.

O pacote resultante se parecerá ao da Figura 12.


Figura 12. Recursos criados no Framework Manager
The created resources in the Framework Manager

Clique aqui para ver a Figura 12 em tamanho maior.

Criando um relatório de habilidades com o Cognos Report Studio

Esta seção descreve como criar um relatório de habilidades que exiba os resultados da análise de texto. O Cognos Report Studio é um aplicativo totalmente baseado na Web, e pode ser acessado a partir do Cognos Connection. O relatório terá quatro páginas interligadas. Em relatórios Cognos, é possível fazer isso adicionando links para outros relatórios. Se também forem usadas variáveis ou parâmetros, é possível adicionar uma poderosa funcionalidade de pesquisa completa ao relatório. Cada relatório Cognos pode conter parâmetros que podem ser usados em consultas parametrizadas. O usuário pode selecioná-los manualmente na execução do relatório ou outro relatório pode adicioná-los por meio de definições de pesquisa completa. No exemplo, aprenderemos a exibir uma lista de ofertas de trabalho com a definição de pesquisa completa para ver a descrição do trabalho na oferta selecionada.

As páginas de relatório incluem:

  • VisaoGeralHabilidade: Essa página dá uma visão geral das habilidades encontradas em todas as ofertas de trabalho. Serão exibidas com uma tabela com as categorias de habilidades e as habilidades em linhas e o número das ofertas de trabalho que contêm as habilidades em colunas. Será possível pesquisar detalhadamente todas as ofertas de trabalho com uma habilidade ou categoria de habilidade. Isso é feito ligando a página ao relatório HabilidadesTrabalho e CategoriaTrabalho.

  • HabilidadesTrabalho: Essa página contém uma lista que mostra todas as ocorrências da habilidade selecionada em todas as ofertas de trabalho. A habilidade é uma variável de entrada da página de relatório. Será possível pesquisar detalhadamente a descrição de trabalho da oferta de trabalho. Isso é feito ligando à página de relatório DescricaoTrabalho.

  • CategoriaTrabalho: Essa página é idêntica à página HabilidadesTrabalho, exceto por uma categoria de habilidade. Já criamos as categorias de habilidade usando o Editor de Taxonomia na seção DesignStudio. A CategoriaTrabalho usa a categoria de habilidade como variável de entrada.

  • DescricaoTrabalho: Essa página de relatório exibe a descrição do trabalho em determinada oferta de trabalho. Ela usa o ID de oferta de trabalho como variável de entrada.

O relatório combinado lhe possibilita ver o número de ofertas de trabalho para determinada habilidade ou categoria de habilidade. Pode-se expandir as ofertas de trabalho que contêm ocorrências da habilidade e ver o texto da oferta de trabalho. Agora, vamos criar as quatro páginas do relatório, começando com o relatório DescricaoTrabalho, porque ele não faz referência a um dos outros relatórios.

Para criar a página de DescricaoTrabalho, execute as seguintes etapas:

  1. No Cognos Connection, abra o Report Studio.

  2. Em Selecione um explorador de pacote, clique no pacote TXTARTICLE publicado no Framework Manager.

  3. Na caixa de diálogo de boas-vindas, clique em Criar um novo relatório ou modelo.

  4. Selecione o modelo Lista e clique em OK.

    No canto superior esquerdo, aparece a visualização Objetos que podem ser Inseridos com três guias. Os assuntos de consulta do seu pacote se encontram na guia Fontes. As consultas criadas estão na guia Itens de Dados. A guia Caixa de Ferramentas contém os widgets do relatório.

  5. Abra a guia Fontes. Deve aparecer seu pacote TXTARTICLE com o assunto de consulta SKILL_OVERVIEW.

  6. Arraste os itens de consulta ID, TIME, COMPANY_NAME e JOB_DESC para a lista da página de relatório.

  7. Adicione um filtro ao relatório para exibir apenas uma oferta de trabalho selecionando a lista e clicando no ícone Filtros na barra de ferramentas ou selecionando Dados > Filtros no menu.

  8. No assistente, adicione um filtro Detalhes usando o ícone Adicionar.

  9. Na janela Expressão de Filtro de Detalhes, adicione o seguinte à Definição de Expressão: [DWESAMP].[SKILL_OVERVIEW].[ID] = ?JOBID?

    O Cognos detecta automaticamente a palavra-chave ?JOBID? rodeada pelo ? como parâmetro e a adiciona à lista de parâmetros do relatório.

  10. Confirme o filtro clicando em OK.

  11. Mude o texto de cabeçalho do relatório, se necessário, e salve seu relatório como JobDescription.

Figura 13. O Cognos Report Studio com o relatório DescricaoTrabalho
The Cognos Report Studio with the JobDescription report

Clique aqui para ver a Figura 13 em tamanho ampliado.

A segunda página de relatório que criamos é a página HabilidadesTrabalho. Nessa página, exibimos uma lista de todas as ocorrências de habilidades filtradas por variável de entrada de habilidade. Acrescentaremos também o recurso de abrir a página de relatório DescricaoTrabalho que acabamos de criar para as ofertas de trabalho no relatório.

Para criar a página de relatório HabilidadesTrabalho, execute as seguintes etapas:

  1. Crie um novo relatório para o mesmo pacote. É possível fazer isso selecionando Arquivo > Novo no Report Studio.

  2. Na lista de modelos, selecione Lista.

  3. No assunto de consulta SKILLS_OVERVIEW na visualização Objetos que podem ser Inseridos, arraste os seguintes itens de consulta para a lista do relatório: ID, COMPANY_NAME, TIME, SKILL, e JOB_DESC.

  4. Adicione um filtro ao relatório para exibir apenas as ocorrências de uma habilidade específica. Como feito no relatório DescricaoTrabalho, adicione um filtro Detalhe à lista usando a seguinte Definição de Expressão: [DWESAMP].[SKILL_OVERVIEW].[SKILL]= ?SKILL?

    Assim, acrescentamos um parâmetro de entrada SKILL ao relatório.

  5. Confirme o filtro clicando em OK.

    A descrição de trabalho completa é mostrada em cada coluna, que pode ser bem longa.

  6. Selecione a coluna JOB_DESC (não o cabeçalho e sim a coluna abaixo dele) e navegue até o campo Item de Dado > Expressão na Visualização Propriedades na parte inferior esquerda.

  7. Abra a Definição de Expressão clicando no botão ... à direita da propriedade.

  8. Insira a seguinte expressão: substring([DWESAMP].[SKILL_OVERVIEW].[JOB_DESC], 1, 50) + ' ...'

    Isso mostrará apenas os primeiros 50 caracteres da descrição de trabalho seguidos por ... para indicar que se trata apenas de um trecho.

  9. Clique em OK.

Para possibilitar que o usuário clique em um dos campos de descrição de trabalho e veja a descrição inteira, adicione uma definição de pesquisa completa à lista executando as seguintes etapas.

  1. Selecione a coluna JOB_DESC (não o cabeçalho e sim a coluna abaixo dele) e selecione Definições de Pesquisa Completa no menu de contexto acessado clicando com o botão direito do mouse.

  2. Adicione uma nova definição de pesquisa completa.

  3. Na guia Relatório de Destino das propriedades, selecione o relatório DescricaoTrabalho como relatório de destino.

  4. Selecione Executar o relatório como ação.

  5. Selecione a caixa de opção Abrir em nova janela.

  6. Adicione um novo parâmetro vinculado com o botão Editar abaixo da lista de parâmetros.

  7. Na janela Parâmetros, selecione Passar o valor do item de dados como método para vincular o parâmetro JOBID do relatório DescricaoTrabalho com um valor na linha da lista.

  8. Selecione o item de consulta de ID como fonte do item de dados e clique em OK.

  9. Mude o texto de cabeçalho do relatório, se necessário, e salve seu relatório como HabilidadesTrabalho.

Figura 14. O Cognos Report Studio com o relatório HabilidadesTrabalho
The Cognos Report Studio with the JobsSkill report

Clique aqui para ver a Figura 14 em tamanho ampliado.

O relatório CategoriaTrabalho é similar ao relatório HabilidadesTrabalho, mas mostra todas as ocorrências de determinada categoria de habilidade. Use as mesmas etapas usadas para criar o relatório HabilidadesTrabalho, mudando apenas aquelas destacadas nesta seção. Tudo que não é explicado em detalhes nesta seção precisa ser feito como no relatório HabilidadesTrabalho, acima. Para criar o relatório CategoriaTrabalho, execute as seguintes etapas:

  1. Crie um novo relatório para o mesmo pacote selecionando Arquivo > Novo no Report Studio.

  2. Na lista de modelos, selecione Lista.

  3. Adicione à lista os seguintes itens de consulta do assunto de consulta VisaoGeral_Hab: ID, COMPANY_NAME, TIME, SKILL, JOB_DESC.

  4. Nesse relatório, queremos filtrar por categoria de habilidade em vez de por habilidade, adicionando um filtro de detalhe à lista por meio da seguinte Definição de Expressão: [DWESAMP].[SKILL_OVERVIEW].[SKILL_CAT] = ?CATEGORY?

    Isso adiciona o parâmetro de entrada CATEGORY ao relatório.

  5. Mude a expressão da coluna JOB_DESC para mostrar apenas os primeiros 50 caracteres, conforme descrito acima.

  6. Como no relatório HabilidadesTrabalho, adicione a definição de pesquisa completa ao relatório DescricaoTrabalho na coluna JOB_DESC.

  7. Mude os cabeçalhos de relatório e coluna, conforme necessário, e salve seu relatório como CategoriaTrabalho.

Figura 15. O Cognos Report Studio com o relatório CategoriaTrabalho
The Cognos Report Studio with the JobsCategory report

Clique aqui para ver a Figura 15 em tamanho ampliado.

O relatório VisaoGeralHabilidade mostra todas as categorias de habilidades e habilidades em uma tabulação cruzada junto com o número de ofertas de todas as habilidades. Também vamos adicionar o recurso de pesquisa completa aos relatórios HabilidadesTrabalho e CategoriaTrabalho criados acima. Para criar a página de relatório VisaoGeralHabilidade, execute as seguintes etapas:

  1. Crie um novo relatório para o mesmo pacote selecionando Arquivo > Novo no Report Studio.

  2. Na lista de modelos, selecione Tabulação Cruzada.

  3. Da visualização Fontes, arraste os itens de consulta SKILL_CAT e SKILL do assunto de consulta SKILL_OVERVIEW para o campo de linhas da tabulação cruzada.

  4. Arraste o item de consulta ID do assunto de consulta SKILL_OVERVIEW para o campo colunas da tabulação cruzada.

  5. Para mostrar o número de requisições de trabalho que contêm uma habilidade, mude a função agregada das colunas de ID selecionando as colunas de ID da tabulação cruzada (selecione os cabeçalhos, não as linhas abaixo).

  6. Na visualização Propriedades na parte inferior esquerda, navegue até a propriedade Item de Dados > Agregar Função e mude-a para Contar Distintos.

    Para possibilitar que o usuário clique em uma das categorias de habilidades e veja o relatório CategoriaTrabalho dessa categoria, adicione uma definição de pesquisa completa à tabulação cruzada.

  7. Selecione a coluna SKILL_CAT e Definições de Pesquisa Completa no menu de contexto acessado clicando com o botão direito do mouse.

  8. Adicione uma nova Definição de Pesquisa Completa.

  9. Na guia Relatório de Destino das propriedades, selecione o relatório CategoriaTrabalho como relatório de destino.

  10. Selecione Executar o relatório.

  11. Selecione a caixa de opção Abrir em nova janela.

  12. Adicione um novo parâmetro vinculado usando o botão Editar abaixo da lista de parâmetros.

  13. Na caixa de diálogo Parâmetros, selecione Passar o valor do item de dados como método para vincular o parâmetro CATEGORY do relatório DescricaoTrabalho com um valor na linha da lista.

  14. Selecione o item de consulta de SKILL_CAT como fonte do item de dados e clique em OK.

  15. Para adicionar uma definição de pesquisa completa à coluna SKILL, repita as etapas acima nessa coluna. Dessa vez, selecione o relatório HabilidadesTrabalho em vez do relatório CategoriaTrabalho. O parâmetro do relatório HabilidadesTrabalho deve ser SKILL e a fonte de item de dados deve ser o item de consulta SKILL.

  16. Mude os cabeçalhos de relatório e coluna, conforme necessário, e salve seu relatório como VisaoGeralHabilidade.

Figura 16. O Cognos Report Studio com o relatório VisaoGeralHabilidade
The Cognos Report Studio with the SkillOverview report

Clique aqui para ver a Figura 16 em tamanho ampliado.

Assim, acabamos de criar tudo que é necessário para o relatório de habilidades. Quando o relatório VisaoGeralHabilidade é executado, ele mostra as categorias de habilidade e as habilidades encontradas nas ofertas de trabalho, como mostrado na Figura 17.


Figura 17. Relatório de visão geral de habilidades
The skill overview report

O relatório de habilidades também mostra o número de ofertas de trabalho para cada habilidade. O usuário pode então clicar em uma categoria de habilidade ou habilidade para ver uma lista de todas as ocorrências dessa habilidade ou categoria de habilidade nas ofertas de trabalho, como se vê na Figura 18.


Figura 18. A lista de ofertas de trabalho com uma categoria de habilidade, no caso, Desenvolvimento
The job offering list for a skill category in this case Development

Nessa lista, a oferta de trabalho pode ser selecionada para se ver toda a descrição do trabalho, como se vê na Figura 19.


Figura 19. Descrição de trabalho da oferta de trabalho selecionada
The job description for the selected job offering


Voltar para parte superior


Conclusão

Este artigo descreveu como é possível usar dicionários para extrair conceitos e taxonomias para agregar os resultados. Além disso, vimos como esse resultado pode ser usado com o Cognos 8 BI e como criar um relatório significativo usando informações estruturadas preexistentes junto com novos conceitos extraídos.

O próximo artigo da série vai avançar além dos recursos de análise de texto fornecidos dentro do InfoSphere Warehouse. Usando o operador analisador de texto e um anotador compatível com o Apache UIMA, veremos como criar e integrar uma tarefa de análise de texto definida pelo usuário em fluxos de transformação de dados.



Recursos

Aprender

Obter produtos e tecnologias

Discutir


Sobre os autores

Stefan Abraham photograph

Stefan Abraham é Engenheiro de Software do IBM Research & Development Lab Boeblingen, Alemanha. Ele trabalha com componentes de análise de texto e com mineração de dados relacionados a componentes UI no InfoSphere Warehouse.


Simone Daum photo

Simone Daum é Engenheira de Software do IBM Research & Development Lab Boeblingen, Alemanha. Ela trabalha com conjuntos de ferramentas para preparação de dados para mineração de dados e com análise de texto no InfoSphere Warehouse.


Author Photo: Benjamin Leonhardi

Benjamin Leonhardi é engenheiro de software para mineração de dados do InfoSphere Warehouse no IBM Research & Development Lab em Boeblingen, Alemanha. Ele trabalha com visualização de mineração, mineração de texto e soluções para relatórios de mineração.




Avalie esta página


Reserve um instante para completar este formulário para nos ajudar a servi-lo melhor.



 


 


Não
são úteis
Extremamente
úteis
 






Voltar para parte superior