Planejando sua experiência com cadernos e scripts

Para elaborar um plano para usar notebooks e scripts Jupyter, primeiro entenda as opções disponíveis, as implicações dessas opções e como elas afetam a ordem das tarefas de implementação.

Você pode realizar a maioria das tarefas relacionadas a cadernos e scripts com a função de Editor ou Administrador em um projeto. Somente se você precisar criar imagens de tempo de execução personalizadas, será necessária a função de administrador da plataforma.

Antes de começar a trabalhar com cadernos e scripts, considere as seguintes questões, pois a maioria das tarefas precisa ser concluída em uma ordem específica:

  • Em qual linguagem de programação você deseja trabalhar?
  • Qual ferramenta é a sua ferramenta preferida para ambiente de desenvolvimento?
  • Deseja colaborar com outras pessoas através do site Git?
  • O que seus notebooks estarão fazendo?
  • Com quais bibliotecas você deseja trabalhar?
  • Você deseja trabalhar na interface do usuário do produto, automatizar todo o processo ou usar uma combinação dos dois métodos?
  • Como você pode usar o caderno ou o roteiro?

Para criar um plano para usar notebooks ou scripts Jupyter, determine quais das seguintes tarefas você deve concluir.

Tarefas a serem concluídas ao começar a usar os notebooks Jupyter
Tarefa Obrigatório? Tempo:
Selecionando o tipo de projeto Sim Esta deve ser sua primeira tarefa
Adicionando ativos de dados ao projeto Sim Antes de começar a criar cadernos
Escolhendo uma linguagem de programação Sim Antes de selecionar a ferramenta
Selecionando uma ferramenta Sim Depois de escolher o idioma
Verificando os pacotes da biblioteca Sim Antes de selecionar um ambiente de tempo de execução
Escolhendo um ambiente de execução adequado Sim Antes de abrir o ambiente de desenvolvimento
Automatizando o ciclo de vida de um notebook ou script Não Você pode automatizar todo o ciclo de vida ou partes dele
Gerenciando o ciclo de vida dos cadernos e scripts Não Quando o caderno estiver pronto
Usos para cadernos e scripts após a criação Não Quando o caderno estiver pronto

Selecionando o tipo de projeto

O tipo de projeto que você cria afeta a forma como a colaboração funciona e as ferramentas que você pode usar.

Projetos sem integração com o Git Você pode criar um projeto vazio ou criar um a partir de um arquivo. Em projetos sem integração com o Git :

  • Você pode usar o editor Jupyter Notebook e RStudio.
  • Os notebooks são executados como arquivos independentes, sem acesso direto a qualquer outro notebook ou script no projeto
  • A colaboração no caderno é baseada no bloqueio por usuário.
  • Você pode executar scripts R e aplicativos Shiny de forma interativa no RStudio.
  • Não há colaboração em scripts R ou aplicativos Shiny, mas você pode compartilhar arquivos em /project_data/data_asset.
  • Os cadernos podem ser compartilhados com outras pessoas publicando-os em um catálogo, em um repositório GitHub, como um Gist ou compartilhando o URL.
  • Não é possível usar o editor JupyterLab ou Visual Studio Code.

Confira Criando um projeto.

Git -projetos integrados Você pode criar um projeto associado a um repositório Git. Em projetos integrados ao git:

  • Você pode usar o editor JupyterLab,, RStudio e Visual Studio Code.
  • A colaboração está disponível em todos os arquivos em todos os ramos do repositório Git associado ao projeto.
  • Ao executar notebooks e scripts, você pode consultar diretamente qualquer outro notebook ou script do projeto.
  • Os cadernos e scripts não podem ser publicados em um catálogo.
  • Não é possível usar o editor Jupyter Notebook.

Consulte Acessando um repositório Git para criar um projeto com integração com o Git.

Escolhendo uma linguagem de programação

Você pode escolher trabalhar nos seguintes idiomas:

  • Python
  • R

Python está sempre incluído quando você instala o Watson Studio.

O R não está disponível por padrão. Um administrador deve instalar runtimes de notebook baseados em R (para Jupyter Notebooks) ou o serviço RStudio Server Runtimes (para disponibilizar os runtimes RStudio e RStudio ). Para determinar se o serviço RStudio Server Runtimes está instalado, abra o catálogo Serviços. Se o serviço estiver instalado e pronto para uso, o bloco no catálogo exibirá Ready to use. Para verificar quais runtimes específicos do R notebook estão instalados, no seu projeto Watson Studio, abra a guia Gerenciar, selecione Ambientes e clique em Modelos.

Selecionando uma ferramenta

Você pode trabalhar com cadernos e scripts nas seguintes ferramentas. A escolha da ferramenta é influenciada pela linguagem de programação e pelo ambiente de desenvolvimento em que você deseja trabalhar, o que determina o tipo de projeto que você precisa criar.

Ferramentas que você pode usar com cadernos e scripts
Ferramenta Linguagem de programação Tipo de Projeto Colaboração Por que escolher esta ferramenta?
Editor de bloco de notas Jupyter Python ou R Projeto sem integração com o Git Colaboração apenas no nível do projeto. O caderno está bloqueado por um usuário e só pode ser desbloqueado pelo mesmo usuário ou por um administrador do projeto. Questão de preferência: o editor Jupyter Notebook parece mais independente, já que novos cadernos são abertos em novas guias no projeto. O editor é fácil de usar, pois consiste apenas em um navegador de arquivos e uma visualização do editor.
RStudio R Projeto com ou sem integração com o Git Sem integração d Git, não há colaboração. Com a integração d Git, colaboração em todos os arquivos. Ambiente ideal para escrever scripts R, navegar pelos arquivos em nosso computador, visualizar seus resultados e oferecer suporte ao controle de versão, desenvolvimento de pacotes e criação de aplicativos Shiny.
JupyterLab Python Git -projeto integrado Git colaboração baseada em arquivos no repositório associado. JupyterLab é um IDE com uma estrutura modular, onde você pode abrir vários notebooks ou scripts como guias na mesma janela. JupyterLab suporta extensões úteis como Git, Resource Usage, LSP e outras.
Editor Visual Studio Code Python Git -projeto integrado Git colaboração baseada em todos os arquivos do repositório. Você cria o notebook ou script no editor Visual Studio (VS) Code em sua estação de trabalho e, em seguida, executa e depura o código em um tempo de execução do Watson Studio diretamente do editor VS Code. O VS Code oferece um enorme ecossistema com mais de 30.000 extensões, por exemplo, para ajudá-lo a analisar seu código, encontrar vulnerabilidades, detectar padrões de código ruins, aplicar guias de estilo de código e fornecer sugestões de código (programação assistida por IA).

Verificando os pacotes da biblioteca

Ao abrir um notebook em um ambiente de tempo de execução, você tem acesso a uma ampla seleção de pacotes de bibliotecas de ciência de dados pré-instalados. Muitos ambientes também incluem bibliotecas fornecidas pela IBM sem custo adicional, tais como:

  • A biblioteca de processamento de linguagem natural ( Watson ) em ambientes Python
  • Bibliotecas para ajudá-lo a acessar os recursos do projeto
  • Bibliotecas para análise de séries temporais ou geoespaciais em ambientes Spark

Para obter uma lista dos pacotes de biblioteca e das versões incluídas em um modelo de ambiente, selecione o modelo na página Modelos da guia Gerenciar na página Ambientes do projeto.

Se as bibliotecas estiverem faltando em um modelo, você pode adicioná-las:

Através do caderno ou roteiro
Você pode usar comandos de instalação de pacotes familiares para o seu ambiente. Por exemplo, em cadernos Python, você pode usar mamba, conda ou pip.
Ao criar um modelo de ambiente personalizado
Ao criar um modelo personalizado, você pode adicionar uma personalização de software com suas bibliotecas ou uma imagem de tempo de execução personalizada que você cria com as bibliotecas que deseja incluir. Para obter detalhes, consulte Personalizar modelos de ambiente.

Escolhendo um ambiente de tempo de execução

A escolha do ambiente de computação para o seu notebook depende da quantidade de dados que você deseja processar e da complexidade dos processos de análise de dados.

Watson Studio oferece muitos modelos de ambiente padrão com diferentes tamanhos de hardware e configurações de software para ajudá-lo a começar rapidamente, sem precisar criar seus próprios modelos. Esses modelos incluídos estão listados na página Modelos, na guia Gerenciar, na página Ambientes do projeto. Para obter mais informações sobre os ambientes incluídos, consulte Ambientes.

Se os modelos disponíveis não atenderem às suas necessidades, você pode criar modelos personalizados e determinar o tamanho do hardware e a configuração do software. Para obter detalhes, consulte Personalizar modelos de ambiente.

Importante: certifique-se de que o ambiente tenha memória suficiente para armazenar os dados que você carregar no notebook. Muitas vezes, isso significa que o ambiente deve ter significativamente mais memória do que o tamanho total dos dados carregados no notebook, pois algumas estruturas de dados, como pandas, podem armazenar várias cópias dos dados na memória.

Trabalhando com dados

Para trabalhar com dados em um caderno:

  • Adicione os dados ao seu projeto, o que os transforma em um recurso do projeto. Consulte Adicionar dados a um projeto para conhecer os diferentes métodos para adicionar dados a um projeto.
  • Use o código gerado que carrega os dados do ativo para uma estrutura de dados em seu notebook. Para obter uma lista dos tipos de dados suportados, consulte Suporte para carregamento de dados.
  • Escreva seu próprio código para carregar dados se a fonte de dados não for adicionada como um recurso do projeto ou se o suporte para adicionar código gerado não estiver disponível para o recurso do projeto.

As seguintes ferramentas do notebook oferecem suporte à geração de código para carregar dados em uma estrutura de dados:

Ferramentas que suportam a geração de código para carregar dados em uma estrutura de dados
Ferramenta Código gerado suportado? Quando escrever seu próprio código
Editor do bloco de notas do Jupyter Sim - A geração de código para o tipo de arquivo ou conexão de banco de dados não é suportada.
- O arquivo ou conexão de banco de dados não é um recurso do projeto.
JupyterLab Sim - A geração de código para o tipo de arquivo ou conexão de banco de dados não é suportada.
- O arquivo ou conexão de banco de dados não é um recurso do projeto.
Editor Visual Studio Code Não Em todos os momentos. Você pode copiar o código gerado adicionado a uma célula do notebook do editor Jupyter Notebook ou JupyterLab para um notebook no editor Visual Studio Code.

Automatizando o ciclo de vida de um notebook e script

Você pode usar o CPDCTL, uma interface de linha de comando, para gerenciar o ciclo de vida de um notebook ou script. Você pode automatizar todo o fluxo ou apenas partes dele. Para obter detalhes, consulte Automatizando o ciclo de vida de notebooks e scripts.

Gerenciando o ciclo de vida dos cadernos e scripts

Depois de criar e testar seus cadernos ou scripts em sua ferramenta em um projeto, você pode:

  • Mova cadernos e scripts para um espaço de implantação.
  • [Apenas cadernos] Publique o caderno em um catálogo para que outros membros do catálogo possam usá-lo em seus projetos. Veja Publicando ativos de um projeto em um catálogo.
  • [Apenas notebooks] Compartilhe uma cópia somente leitura fora do Watson Studio para que pessoas que não são colaboradoras em seus projetos possam vê-la e usá-la. Consulte Compartilhamento de cadernos com um URL.

Usos para cadernos e scripts após a criação

As opções para um caderno ou script criado e pronto para uso em IBM Cloud Pak for Data incluem:

Para garantir que um notebook ou script possa ser executado como uma tarefa ou em um pipeline (somente notebooks):

  • Certifique-se de que nenhuma célula exija entrada interativa por parte do usuário.
  • Certifique-se de que informações detalhadas suficientes sejam registradas para permitir a compreensão do progresso e de quaisquer falhas ao consultar o registro.
  • Use variáveis de ambiente no código para acessar configurações se um notebook ou script exigir, por exemplo, o arquivo de dados de entrada ou o número de execuções de treinamento.
  • Se você estiver carregando dados de fontes de dados como parte do seu código, certifique-se de lidar adequadamente com casos de erro, como erros de conexão de rede ou tempo limite.

A tabela a seguir mostra as diferenças entre executar scripts Python ou R como tarefas de plataforma ou como implantações em lote em um espaço de implantação.

As diferenças entre executar scripts como tarefas da plataforma e como implantações em lote em um espaço de implantação
Tarefa Quais variáveis posso passar? Os volumes de armazenamento montados são suportados? Suporte de computação necessário
Empregos em plataformas Pode passar variáveis de ambiente e argumentos do tipo linha de comando Sim Tempos de execução do ambiente sem Watson Machine Learning
Tarefas de implementação em lote Só é possível passar parâmetros que correspondam a um padrão predefinido Não Especificações do software em Watson Machine Learning