Especificando requisitos de dados para o seu cargo

Use o comando bsub -data para especificar arquivos ou pastas para copiar na área de encenação antes de LSF programar o job para execução.

Sobre esta tarefa

Especifique cada arquivo de dados ou pasta necessário definindo o host de origem e o caminho completo para o arquivo ou pasta necessário usando o seguinte formato:
  • Para arquivos: "[host_name:]/absolute_file_path"
  • Para pastas: "[host_name:]/absolute_folder_path/[*]"

Use este formato para especificar arquivos ou pastas de dados únicos ou múltiplos com o comando bsub -data .

Quando você usa o caractere asterisco no final do caminho, os requisitos de arquivo de dados devem estar entre aspas.

Nota:
  • Por padrão, se você não especificar um nome de host no requisito de arquivo de dados, LSF usa o nome do host de submissão.
  • Se os arquivos de dados solicitados estiverem em um host diferente do host de submissão, o usuário de submissão deverá ter passwordless ssh configurado para o host especificado. Configurar o passwordless ssh permite que LSF colete informações de arquivo de dados no arquivo para determinar se o arquivo já está no cache.
  • Os nomes de arquivo de origem podem conter apenas caracteres alfanuméricos, ponto (.), sublinhado (_) e hífen (-). Os nomes de arquivo não podem conter espaços.
  • Os nomes de caminhos para arquivos e pastas podem conter o caractere de colon (:).
  • Se você solicitar uma pasta que contenha links simbólicos, os links simbólicos são respeitados. Os links simbólicos dentro da pasta são examinados para determinar se os links são válidos. Se um link simbólico quebrado for detectado, a submissão é rejeitada.
  • Se você solicitar uma pasta, você deve ter acesso à pasta e ao seu conteúdo. Você deve ter permissão de leitura e execução em pastas, e permissão de leitura em arquivos regulares. Se você não tiver acesso à pasta de nível superior e ao conteúdo da pasta, a submissão é rejeitada.

Cada arquivo de dados solicitados resulta em um único job de transferência que é enviado a LSF pelo gerenciador de dados LSF , a menos que o arquivo já exista dentro do cache do gerenciador de dados LSF .

Especificar uma pasta como um requisito de dados gera um trabalho de transferência única, não separar tarefas de transferência para cada arquivo na pasta.

Procedimento

  • Especifique um único requisito de arquivo de dados, definindo um único host de origem e caminho de arquivo no comando bsub -data .
    bsub -data "hostA:/data/file1.dat" myjob
  • Especifique vários requisitos de arquivo de dados usando várias opções -data .
    bsub –data "hostA:/data/file1.dat" –data "hostA:/data/file2.dat" myjob
  • Especifique vários requisitos de arquivo de dados dentro de uma única opção -data definindo uma lista separada por espaço de hosts de origem e caminhos de arquivo.
    bsub –data "hostA:/data/file1.dat hostA:/data/file2.dat" myjob
  • Especifique um diretório inteiro recursivamente definindo o diretório como o caminho de arquivo na opção -data .
    bsub –data "hostA:/data/" myjob

    Este comando solicita todos os arquivos da pasta data, e solicita recursivamente todos os arquivos em todas as subpastas, conforme os arquivos de dados necessários.

  • Especifique o conteúdo imediato de um diretório (mas não recursivamente) definindo o diretório com o caractere asterisco (*) como o caminho de arquivo na opção -data .
    bsub –data "hostA:/data/*" myjob

    Este comando solicita todos os arquivos no nível superior da pasta data como os arquivos de dados necessários, mas não define recursivamente nenhuma subpastas.

  • Especifique um conjunto de arquivos de dados que são indexados por elemento da matriz de tarefas usando o caractere especial %I no nome do arquivo na opção -data e definindo a matriz de tarefas com a opção -J .
    bsub –data "hostA:/data/file%I.dat" –J "MyJobArray[1-10]" myjob

    O caractere especial %I é substituído por cada um dos índices da matriz, e cada arquivo é considerado como um requisito de arquivo de dados para cada um dos elementos da matriz de tarefas. Portanto, /data/file1.dat é um requisito de arquivo de dados para MyJobArray[1], /data/file2.dat é um requisito de arquivo de dados para MyJobArray[2], e os elementos da matriz de tarefas restantes possuem requisitos de arquivo de dados semelhantes.