Configurando e Usando o IBM InfoSphere DataStage e o QualityStage Operations Console em um Ambiente de Grade ou de Nós Múltiplos

Uma descrição detalhada sobre como configurar e visualizar informações de nós múltiplos no Operations Console

O IBM ® InfoSphere® DataStage® e o QualityStage® Operations Console é um aplicativo da web que permite que os componentes do mecanismo do DataStage de uma instalação do Information Server sejam monitorados em tempo real. Isso fornece uma visão completa de todas as execuções de tarefas do DataStage nesse sistema, tanto no tempo presente quanto no histórico. Também inclui o monitoramento de métricas principais do sistema operacional como uso da CPU, memória livre e espaço em disco. Essas métricas podem ser reunidas para todos os nós de um ambiente de grade ou de diversos nós. Este artigo descreve em detalhes como configurar o Operations Console para reunir as métricas de todos os nós e como visualizá-las na UI do console.

Geoff McClean, Senior Software Developer, IBM

Geoff McClean participava da equipe de desenvolvimento original do DataStage durante sua concepção e atualmente é desenvolvedor de software senior para componentes principais do desenvolvimento do InfoSphere DataStage e do QualityStage e de ferramentas de produção, parte do conjunto IBM InfoSphere Information Server. Ele supervisionou a implementação dos serviços de gerenciamento do banco de dados, de manipulação de eventos e de rastreamento de recursos do IBM InfoSphere DataStage e doQualityStage Operations Console.



Len Greenwood, DataStage Core Architect, IBM

Len GreenwoodLen Greenwood foi membro da equipe de desenvolvimento que produziu a primeira versão do DataStage em 1996, antes de ser adquirido da Ascential Software pela IBM em 2005. Ele agora forma um suporte principal do conjunto IBM InfoSphere Information Server. Ele trabalhou nas áreas relacionadas de integração de dados e metadados durante os últimos 15 anos e atualmente é o principal arquiteto de produtos dos componentes principais das ferramentas de desenvolvimento e de produção DataStage e QualityStage. Recentemente ele projetou o esquema de banco de dados que forma a base do Information Server Operations Console, usado para monitorar a atividade no nível do mecanismo do DataStage.



Arron Harden, Senior Software Engineer, IBM

Arron HardenArron Harden é engenheiro de software senior do IBM InfoSphere DataStage e QualityStage. Permanecendo com o produto DataStage após várias fusões e aquisições, trabalha no DataStage há mais de 12 anos, passou a fazer parte da IBM com a aquisição da Ascential Software Inc em 2005. Depois de trabalhar um ano em Boston, atualmente trabalha no escritório da IBM Milton Keynes, Reino Unido. Na sua função mais recente, foi o desenvolvedor líder do componente aplicativo da web do DataStage e QualityStage Operations Console, escrito com o Dojo Toolkit.



Eric Jacobson, Senior Software Engineer, IBM

Eric Jacobson é engenheiro de software senior do grupo Parallel Engine do produto IBM InfoSphere DataStage e Quality Stage. Tem sido contribuidor importante do Parallel Engine desde 2003 e finalmente passou a fazer parte da IBM quando da aquisição da Ascential Software em 2005. Fez contribuições importantes para a estrutura do Parallel Engine em áreas que incluem consulta, conversão e importação, além do foco no desempenho. Atualmente trabalha na integração do DataStage e Hadoop, entregando recentemente a primeira fase disso, o que possibilita ler e gravar arquivos no sistema de arquivos distribuído Hadoop através do novo Big Data File Stage.



31/Ago/2012

Visão geral da configuração

Por padrão, as métricas do sistema operacional são reunidas no nó do mecanismo do DataStage, onde ocorre a execução de tarefas do DataStage. Esses resultados podem ser visualizados na UI do Operations Console. Em um sistema em que a execução da tarefa ocorre em um único nó do mecanismo do DataStage, esse caso padrão irá fornecer todas as métricas relevantes do sistema ao executar a tarefa. Em alguns ambientes, os nós são executados através de diversos nós — em um ambiente de grade, por exemplo. Nesse caso, o usuário também pode desejar ver as métricas do sistema de cada nó remoto no qual ocorre a execução das tarefas. Para que elas fiquem disponíveis ao Operations Console, este precisa ser configurado de forma que as métricas do sistema de outros nós sejam reunidas e armazenadas no banco de dados de operações.

Todos os parâmetros de configuração para reunir métricas do sistema estão especificados no arquivo DSODBConfig.cfg, que está instalado no diretório DSODB principal no sistema do mecanismo do DataStage (.../IBM/InformationServer/Server/DSODB).

O material de referência online do DSODB, desde o V8.7, incluindo descrição das atuais tabelas e colunas, pode ser localizado na referência do documento de esquema no Recursos .

Controlando a reunião de métricas do sistema

Antes de acessar os parâmetros de configuração individuais das métricas do sistema, existe um parâmetro de configuração de controle que permite ao usuário desligar toda a reunião de métricas do sistema. Isso pode ser usado, por exemplo, se um usuário desejar usar algum sistema diferente do Operations Console para reunir métricas do sistema. No entanto, isso significa que a métrica do sistema não pode ser visualizada através do Operations Console. Por padrão, esse parâmetro é configurado para coletar métricas do sistema.

Lista 1. Ativando monitoramento de recurso
# System Resource Monitor - enable/disable
# ========================================
# The following switches on the collection of system resource data if set to 1
# (the default), or switches it off if 0. If set to 0, all options below related to
# resource tracking are ignored.
# ResourceMonitor=1

Nós remotos

As métricas do sistema que serão reunidas em qualquer nó, menos o do mecanismo do DataStage, devem ser especificadas nesse arquivo de configuração.

Lista 2. Especificando os nomes dos nós
# The following specifies the name of a remote node whose resources are to be monitored.
# (The local system is always monitored if the resource tracker is running.)
# The name given for each node should match that used in Parallel Job config files.
# This property can be repeated any number of times to include multiple remote nodes.
# ResourceNode=xxxxxx

Para cada nó remoto a ser monitorado, deve ser incluída uma nova linha especificando o nome do host do nó. Esse nome deve correr corresponder ao fastname usado nos arquivos de configuração de tarefa paralela desse nó. A propriedade pode ser especificada qualquer número de vezes, uma vez para cada nó remoto. Por exemplo, para reunir métricas do sistema de três nós remotos (node1, node2, node3), as propriedades a seguir deverão ser especificadas.

Lista 3. Especificando diversos nomes de nó
ResourceNode=node1
ResourceNode=node2
ResourceNode=node3

Observe que o nome especificado é sem distinção entre maiúsculas e minúsculas.

Sistema de arquivos remoto e local

Por padrão, a métrica do sistema reunida não inclui informações de espaço em disco. No entanto, é possível um usuário especificar qualquer disco local ou remoto no qual verificar espaço em disco. Com essas opções definidas, espaço em disco é incluído no monitor do Operations Console. A propriedade usada para especificar o sistema de arquivos local é como indicado a seguir.

Lista 4. Especificando o sistema de arquivos local
# The following specifies a locally mounted file system to be monitored.
# This property can be repeated any number of times to specify multiple file systems.
# ResourceLocalFS=/localfilesystemA

Qualquer número de sistemas de arquivos locais pode ser especificado, com a propriedade repetida para cada um. Um exemplo para monitorar o sistema de arquivos local contendo /tmp seria: ResourceLocalFS=/tmp.

Para um sistema Windows, o nome do caminho do sistema de arquivos pode ser especificado com barras para frente ou invertidas e pode opcionalmente conter um prefixo de disco ('C:\tmp', por exemplo).

Semelhante ao sistema de arquivos local, o sistema de arquivos remoto pode ser monitorado.

Lista 5. Especificando sistema de arquivos remoto
# The following specifies a file system mounted on a remote node to be monitored.
# The remote node name must match that specified in the corresponding ResourceNode
# entry above.
# This property can be repeated any number of times to specify multiple file systems.
# ResourceRemoteFS=node1+/remotefilesystem

Essa propriedade é especificada como duas partes, separadas por um +. A primeira parte especifica o nó em que o sistema de arquivos existe; o nome do nó especificado deve ter uma entrada de propriedade RemoteNode correspondente com o mesmo nome. A segunda parte é o caminho do sistema de arquivos a monitorar nesse nó remoto; pode ser especificado qualquer número de vezes, uma vez para cada sistema de arquivos a monitorar. Por exemplo, a seguir é indicado como solicitar para monitorar dois sistemas de arquivos no nó remoto node1 e um no nó remoto node2.

Lista 6. Especificando diversos sistemas de arquivos remotos
ResourceRemoteFS=node1+/usr
ResourceRemoteFS=node1+/tmp
ResourceRemoteFS=node2+/tmp

Como acontece com as especificações do sistema de arquivos local, um caminho do Windows pode ser especificado com barras para frente ou invertidas e um prefixo de disco opcional, como: ResourceRemoteFS=node1+C:\tmp.

Configuração do nó remoto

Não é possível especificar nenhum nó remoto do qual coletar informações de recursos do sistema. Um nó remoto deve ser configurado com o mecanismo paralelo do Information Server de forma que tarefas paralelas possam ser executadas nesse nó. Do mesmo modo que na execução de tarefas paralelas em múltiplos nós, todos os nós devem ser de um tipo de plataforma semelhante.

Para que informações de recursos do nó remoto sejam amarradas à sua execução de tarefa paralela correspondente, o nome do nó especificado no arquivo DSODBConfig.cfg de um nó remoto deve ser o mesmo que o nome usado em um arquivo de configuração de tarefas paralelas dessa execução.

Números da porta ResTrackAppport

As informações de recursos do sistema são reunidas por um processo chamado ResTrackApp. ResTrackApp executa em um nó do mecanismo do DataStage e recebe em uma porta que aguarda que componentes do Operations Console solicitem informações dele. Quando nós remotos forem solicitados, é esse processo ResTrackApp que conecta aos nós remotos para obter informações de recursos do sistema. Para isso, conecta em uma versão de si mesmo em cada nó remoto, conectando via um número da porta.

Os números de porta local e remota usados pelo ResTrackApp têm o mesmo valor padrão de 13450. No entanto, um usuário pode especificar diferentes números de porta para o ResTrackApp que executa no nó do mecanismo do DataStage ou as conexões para os nós remotos. Essas propriedades no arquivo de configuração são como indicado a seguir.

Lista 7. Especificando números da porta do rastreador de recursos
# Resource Tracking - connections
# ===============================
# The following specifies the port number that the resource tracking application
# (ResTrackApp) will use on the local system. The default is 13450.
# ResourcePortNum=13450

# The following specifies the port number that the resource tracking application
# (ResTrackApp) will use on all remote nodes. The default is 13450.
# ResourceRemotePortNum=13450

A especificação de um número de porta 13800 para o mecanismo do DataStage e 13801 para conexões remotas seria feita como mostrado a seguir.

Lista 8. Especificando números de porta não padrão do rastreador de recursos
ResourcePortNum=13800

ResourceRemotePortNum=13801

Elementos da UI

As informações dos recursos do sistema podem ser visualizadas em vários lugares com a UI do Operations Console. Em alguns lugares, como na página inicial, as informações de recursos são mostradas para um nó de cada vez, mostrando as informações do nó do mecanismo do DataStage por padrão. Em outro vulgares, como na página de recurso de atividade, as informações de recursos de diversos nós podem ser exibidas simultaneamente.

Em um sistema em que as informações de recursos estão sendo coletadas somente do nó do mecanismo do DataStage, a UI não oferece qualquer opção de outros nós. Se estiverem sendo coletadas informações de mais de um nó, a UI mostrará o nó que está sendo exibido e incluirá listas suspensas que permitem ao usuário selecionar o nó do qual exibir informações.

Recursos do sistema operacional da página inicial

Por padrão, a página inicial do Operations Console mostra recursos do sistema operacional do nó do mecanismo do DataStage. Se mais informações estiverem sendo coletadas de diversos nós, a seção Operating System Resources mostrará o nó atual que está sendo visualizado em um controle suspenso no canto direito do tipo dessa área. O exemplo a seguir mostra um caso em que o nó que está sendo mostrado é o MK-Engine, que é também a máquina do mecanismo do DataStage, como representado entre parênteses (Figura 1).

Figura 1. Seletor de nó de cálculo da página inicial
Seletor de nó de cálculo da página inicial

A seleção da lista suspensa oferecerá uma lista de nós para escolher.

Figura 2. Lista suspensa do seletor de nó de cálculo da página inicial
Lista suspensa do seletor de nó de cálculo da página inicial

Desempenho da execução da tarefa

A visualização dos detalhes de uma execução da tarefa específica mostra detalhes de recursos do sistema durante essa execução. Se uma tarefa foi configurada para executar e diversos nós, ao mostrar os detalhes da execução da tarefa o usuário tem a opção de escolher o nó apropriado do qual mostrar detalhes. O gráfico pode mostrar detalhes somente de um nó de cada vez. Na seção em que o usuário pode selecionar quais recursos do sistema mostrar, haverá uma lista suspensa mostrando o nó selecionado e permitindo ao usuário alterar a seleção. O exemplo a seguir mostra a caixa de seleção de nó com os recursos do sistema do nó remoto IBM-Node1 sendo mostrados.

Figura 3. Seletor do nó de cálculo de desempenho da tarefa
Seletor do nó de cálculo de desempenho da tarefa

Recursos de atividade da tarefa

A guia Activity de nível superior inclui uma guia Resources que pode ser usada para mostrar recursos do sistema selecionados durante o intervalo de tempo da atividade especificada. O usuário pode escolher mostrar gráficos da CPU, espaço em disco, execuções da tarefa, memória e processos. Para esses, se foram coletados dados de mais do que apenas o nó do mecanismo do DataStage, o menu de seleção de cada categoria permitirá ao usuário selecionar na lista de nós que contém dados. Por exemplo, selecionar o gráfico da CPU do nó do mecanismo e outro nó exibirá os gráficos da CPU de ambos. O exemplo a seguir mostra a seleção de menu para mostrar dados da CPU tanto do nó do mecanismo MK-Engine quanto o nó remoto IBM-Node1, com os dois gráficos sendo exibidos.

Figura 4. Seletor do nó de cálculo de recursos de atividade
Seletor do nó de cálculo de recursos de atividade

Resolução de problemas

A UI não mostra o menu suspenso de seleção de nó e o nó atualmente selecionado.

O menu suspenso ou de seleção do nó remoto será exibido somente se os dados estiverem sendo coletados de mais do que apenas o nó do mecanismo do DataStage. Se um nó remoto foi configurado, mas o seletor ainda não estiver mostrado, pode haver um problema na configuração desse nó. Veja a seção a seguir.

Eu incluí a entrada ResourceNode no arquivo de configuração, mas o nó não aparece no menu suspenso de seleção de nó de recursos ou nos menus da UI.

Para um nó aparecer na lista, deve estar configurado corretamente. Deve ser verificado se:

  • a entrada ResourceNode=xxx do arquivo DSODBConfig.cfg do nó está especificada corretamente (sem distinção entre maiúsculas e minúsculas).
  • o DataStage PXEngine (Information Server 8.7 ou superior) foi configurado corretamente nesse nó remoto.
  • o nó remoto é do mesmo tipo de plataforma que o nó do mecanismo.
  • o número da porta remota (entrada ResourceRemotePortNum no arquivo DSODBConfig.cfg) já não está em uso nesse nó.

Incluí a entrada ResourceRemoteFS no arquivo de configuração, mas o sistema de arquivos remoto não aparece nos menus de recursos na UI.

Para um sistema de arquivos remoto aparecer nos menus de recursos, ele deve estar configurado corretamente. Deve ser verificado se:

  • A entrada ResourceRemoteFS do arquivo DSODBConfig.cfg tem uma entrada ResourceNode correspondente em que o nome do nó está especificado exatamente igual nas duas entradas.
  • As informações de recursos estão sendo coletadas do nó remoto (ver a entrada de resolução de problemas acima). Se não estiverem sendo coletadas informações de recursos, as informações do disco não serão coletadas.
  • O caminho especificado existe realmente no nó remoto.

Configurei o nó remoto no arquivo DSODBConfig.cfg e executei a tarefa configurada para ser executada nesse nó remoto; ao visualizar os detalhes da execução da tarefa, a guia suspensa Performance oferece esse nó remoto, mas quando seleciono para exibir informações do recurso, a UI indica "Não há dados disponíveis".

Verifique se o nome do nó remoto especificado no DSODBConfig.cfg corresponde ao nome do nó remoto no arquivo de configuração da tarefa paralela com que a tarefa foi executada. Os nomes dos nós nesses dois arquivos de configuração devem corresponder para amarrar uma execução da tarefa aos seus recursos do sistema remoto correspondente.


Conclusão

Neste artigo descrevemos os parâmetros de configuração que devem ser definidos para poder coletar informações de recursos do sistema de nó remoto e local. Também descrevemos como essas informações do sistema podem ser selecionadas e exibidas na UI do Operations Console.

Recursos

Aprender

Obter produtos e tecnologias

  • Crie seu próximo projeto de desenvolvimento com o Versão de teste do software IBM, disponível para download diretamente no developerWorks.
  • Agora é possível usar o DB2 gratuitamente. Faça o download do DB2 Express-C, uma versão gratuita do DB2 Express Edition para a comunidade que oferece os mesmos recursos de dados centrais que o DB2 Express Edition e fornece uma base sólida para desenvolver e implementar aplicativos.

Discutir

Comentários

developerWorks: Conecte-se

Los campos obligatorios están marcados con un asterisco (*).


Precisa de um ID IBM?
Esqueceu seu ID IBM?


Esqueceu sua senha?
Alterar sua senha

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


A primeira vez que você entrar no developerWorks, um perfil é criado para você. Informações no seu perfil (seu nome, país / região, e nome da empresa) é apresentado ao público e vai acompanhar qualquer conteúdo que você postar, a menos que você opte por esconder o nome da empresa. Você pode atualizar sua conta IBM a qualquer momento.

Todas as informações enviadas são seguras.

Elija su nombre para mostrar



Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

Los campos obligatorios están marcados con un asterisco (*).

(Escolha um nome de exibição de 3 - 31 caracteres.)

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


Todas as informações enviadas são seguras.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Information Management
ArticleID=831959
ArticleTitle= Configurando e Usando o IBM InfoSphere DataStage e o QualityStage Operations Console em um Ambiente de Grade ou de Nós Múltiplos
publish-date=08312012