Planejando sua experiência com cadernos e scripts
Para elaborar um plano para usar notebooks e scripts Jupyter, primeiro entenda as opções disponíveis, as implicações dessas opções e como elas afetam a ordem das tarefas de implementação.
Você pode realizar a maioria das tarefas relacionadas a cadernos e scripts com a função de Editor ou Administrador em um projeto. Somente se você precisar criar imagens de tempo de execução personalizadas, será necessária a função de administrador da plataforma.
Antes de começar a trabalhar com cadernos e scripts, considere as seguintes questões, pois a maioria das tarefas precisa ser concluída em uma ordem específica:
- Em qual linguagem de programação você deseja trabalhar?
- Qual ferramenta é a sua ferramenta preferida para ambiente de desenvolvimento?
- Deseja colaborar com outras pessoas através do site Git?
- O que seus notebooks estarão fazendo?
- Com quais bibliotecas você deseja trabalhar?
- Você deseja trabalhar na interface do usuário do produto, automatizar todo o processo ou usar uma combinação dos dois métodos?
- Como você pode usar o caderno ou o roteiro?
Para criar um plano para usar notebooks ou scripts Jupyter, determine quais das seguintes tarefas você deve concluir.
| Tarefa | Obrigatório? | Tempo: |
|---|---|---|
| Selecionando o tipo de projeto | Sim | Esta deve ser sua primeira tarefa |
| Adicionando ativos de dados ao projeto | Sim | Antes de começar a criar cadernos |
| Escolhendo uma linguagem de programação | Sim | Antes de selecionar a ferramenta |
| Selecionando uma ferramenta | Sim | Depois de escolher o idioma |
| Verificando os pacotes da biblioteca | Sim | Antes de selecionar um ambiente de tempo de execução |
| Escolhendo um ambiente de execução adequado | Sim | Antes de abrir o ambiente de desenvolvimento |
| Automatizando o ciclo de vida de um notebook ou script | Não | Você pode automatizar todo o ciclo de vida ou partes dele |
| Gerenciando o ciclo de vida dos cadernos e scripts | Não | Quando o caderno estiver pronto |
| Usos para cadernos e scripts após a criação | Não | Quando o caderno estiver pronto |
Selecionando o tipo de projeto
O tipo de projeto que você cria afeta a forma como a colaboração funciona e as ferramentas que você pode usar.
Projetos sem integração com o Git Você pode criar um projeto vazio ou criar um a partir de um arquivo. Em projetos sem integração com o Git :
- Você pode usar o editor Jupyter Notebook e RStudio.
- Os notebooks são executados como arquivos independentes, sem acesso direto a qualquer outro notebook ou script no projeto
- A colaboração no caderno é baseada no bloqueio por usuário.
- Você pode executar scripts R e aplicativos Shiny de forma interativa no RStudio.
- Não há colaboração em scripts R ou aplicativos Shiny, mas você pode compartilhar arquivos em
/project_data/data_asset. - Os cadernos podem ser compartilhados com outras pessoas publicando-os em um catálogo, em um repositório GitHub, como um Gist ou compartilhando o URL.
- Não é possível usar o editor JupyterLab ou Visual Studio Code.
Confira Criando um projeto.
Git -projetos integrados Você pode criar um projeto associado a um repositório Git. Em projetos integrados ao git:
- Você pode usar o editor JupyterLab,, RStudio e Visual Studio Code.
- A colaboração está disponível em todos os arquivos em todos os ramos do repositório Git associado ao projeto.
- Ao executar notebooks e scripts, você pode consultar diretamente qualquer outro notebook ou script do projeto.
- Os cadernos e scripts não podem ser publicados em um catálogo.
- Não é possível usar o editor Jupyter Notebook.
Consulte Acessando um repositório Git para criar um projeto com integração com o Git.
Escolhendo uma linguagem de programação
Você pode escolher trabalhar nos seguintes idiomas:
- Python
- R
Python está sempre incluído quando você instala o Watson Studio.
O R não está disponível por padrão. Um administrador deve instalar runtimes de notebook baseados em R (para Jupyter Notebooks) ou o serviço RStudio Server Runtimes (para disponibilizar os runtimes RStudio e RStudio ). Para determinar se o serviço RStudio Server Runtimes está instalado, abra o catálogo Serviços. Se o serviço estiver instalado e pronto para uso, o bloco no catálogo exibirá Ready to use. Para verificar quais runtimes específicos do R notebook estão instalados, no seu projeto Watson Studio, abra a guia Gerenciar, selecione Ambientes e clique em Modelos.
Selecionando uma ferramenta
Você pode trabalhar com cadernos e scripts nas seguintes ferramentas. A escolha da ferramenta é influenciada pela linguagem de programação e pelo ambiente de desenvolvimento em que você deseja trabalhar, o que determina o tipo de projeto que você precisa criar.
| Ferramenta | Linguagem de programação | Tipo de Projeto | Colaboração | Por que escolher esta ferramenta? |
|---|---|---|---|---|
| Editor de bloco de notas Jupyter | Python ou R | Projeto sem integração com o Git | Colaboração apenas no nível do projeto. O caderno está bloqueado por um usuário e só pode ser desbloqueado pelo mesmo usuário ou por um administrador do projeto. | Questão de preferência: o editor Jupyter Notebook parece mais independente, já que novos cadernos são abertos em novas guias no projeto. O editor é fácil de usar, pois consiste apenas em um navegador de arquivos e uma visualização do editor. |
| RStudio | R | Projeto com ou sem integração com o Git | Sem integração d Git, não há colaboração. Com a integração d Git, colaboração em todos os arquivos. | Ambiente ideal para escrever scripts R, navegar pelos arquivos em nosso computador, visualizar seus resultados e oferecer suporte ao controle de versão, desenvolvimento de pacotes e criação de aplicativos Shiny. |
| JupyterLab | Python | Git -projeto integrado | Git colaboração baseada em arquivos no repositório associado. | JupyterLab é um IDE com uma estrutura modular, onde você pode abrir vários notebooks ou scripts como guias na mesma janela. JupyterLab suporta extensões úteis como Git, Resource Usage, LSP e outras. |
| Editor Visual Studio Code | Python | Git -projeto integrado | Git colaboração baseada em todos os arquivos do repositório. Você cria o notebook ou script no editor Visual Studio (VS) Code em sua estação de trabalho e, em seguida, executa e depura o código em um tempo de execução do Watson Studio diretamente do editor VS Code. | O VS Code oferece um enorme ecossistema com mais de 30.000 extensões, por exemplo, para ajudá-lo a analisar seu código, encontrar vulnerabilidades, detectar padrões de código ruins, aplicar guias de estilo de código e fornecer sugestões de código (programação assistida por IA). |
Verificando os pacotes da biblioteca
Ao abrir um notebook em um ambiente de tempo de execução, você tem acesso a uma ampla seleção de pacotes de bibliotecas de ciência de dados pré-instalados. Muitos ambientes também incluem bibliotecas fornecidas pela IBM sem custo adicional, tais como:
- A biblioteca de processamento de linguagem natural ( Watson ) em ambientes Python
- Bibliotecas para ajudá-lo a acessar os recursos do projeto
- Bibliotecas para análise de séries temporais ou geoespaciais em ambientes Spark
Para obter uma lista dos pacotes de biblioteca e das versões incluídas em um modelo de ambiente, selecione o modelo na página Modelos da guia Gerenciar na página Ambientes do projeto.
Se as bibliotecas estiverem faltando em um modelo, você pode adicioná-las:
- Através do caderno ou roteiro
- Você pode usar comandos de instalação de pacotes familiares para o seu ambiente. Por exemplo, em cadernos Python, você pode usar
mamba,condaoupip. - Ao criar um modelo de ambiente personalizado
- Ao criar um modelo personalizado, você pode adicionar uma personalização de software com suas bibliotecas ou uma imagem de tempo de execução personalizada que você cria com as bibliotecas que deseja incluir. Para obter detalhes, consulte Personalizar modelos de ambiente.
Escolhendo um ambiente de tempo de execução
A escolha do ambiente de computação para o seu notebook depende da quantidade de dados que você deseja processar e da complexidade dos processos de análise de dados.
Watson Studio oferece muitos modelos de ambiente padrão com diferentes tamanhos de hardware e configurações de software para ajudá-lo a começar rapidamente, sem precisar criar seus próprios modelos. Esses modelos incluídos estão listados na página Modelos, na guia Gerenciar, na página Ambientes do projeto. Para obter mais informações sobre os ambientes incluídos, consulte Ambientes.
Se os modelos disponíveis não atenderem às suas necessidades, você pode criar modelos personalizados e determinar o tamanho do hardware e a configuração do software. Para obter detalhes, consulte Personalizar modelos de ambiente.
Trabalhando com dados
Para trabalhar com dados em um caderno:
- Adicione os dados ao seu projeto, o que os transforma em um recurso do projeto. Consulte Adicionar dados a um projeto para conhecer os diferentes métodos para adicionar dados a um projeto.
- Use o código gerado que carrega os dados do ativo para uma estrutura de dados em seu notebook. Para obter uma lista dos tipos de dados suportados, consulte Suporte para carregamento de dados.
- Escreva seu próprio código para carregar dados se a fonte de dados não for adicionada como um recurso do projeto ou se o suporte para adicionar código gerado não estiver disponível para o recurso do projeto.
As seguintes ferramentas do notebook oferecem suporte à geração de código para carregar dados em uma estrutura de dados:
| Ferramenta | Código gerado suportado? | Quando escrever seu próprio código |
|---|---|---|
| Editor do bloco de notas do Jupyter | Sim | - A geração de código para o tipo de arquivo ou conexão de banco de dados não é suportada. - O arquivo ou conexão de banco de dados não é um recurso do projeto. |
| JupyterLab | Sim | - A geração de código para o tipo de arquivo ou conexão de banco de dados não é suportada. - O arquivo ou conexão de banco de dados não é um recurso do projeto. |
| Editor Visual Studio Code | Não | Em todos os momentos. Você pode copiar o código gerado adicionado a uma célula do notebook do editor Jupyter Notebook ou JupyterLab para um notebook no editor Visual Studio Code. |
Automatizando o ciclo de vida de um notebook e script
Você pode usar o CPDCTL, uma interface de linha de comando, para gerenciar o ciclo de vida de um notebook ou script. Você pode automatizar todo o fluxo ou apenas partes dele. Para obter detalhes, consulte Automatizando o ciclo de vida de notebooks e scripts.
Gerenciando o ciclo de vida dos cadernos e scripts
Depois de criar e testar seus cadernos ou scripts em sua ferramenta em um projeto, você pode:
- Mova cadernos e scripts para um espaço de implantação.
- [Apenas cadernos] Publique o caderno em um catálogo para que outros membros do catálogo possam usá-lo em seus projetos. Veja Publicando ativos de um projeto em um catálogo.
- [Apenas notebooks] Compartilhe uma cópia somente leitura fora do Watson Studio para que pessoas que não são colaboradoras em seus projetos possam vê-la e usá-la. Consulte Compartilhamento de cadernos com um URL.
Usos para cadernos e scripts após a criação
As opções para um caderno ou script criado e pronto para uso em IBM Cloud Pak for Data incluem:
- [Para cadernos e scripts] Executando-o como uma tarefa em um projeto (tarefa da plataforma). Consulte Criando e gerenciando tarefas em um projeto.
- [Para cadernos e scripts] Executando-o como parte de um Pipeline. Consulte Configurando nós do pipeline.
- [Para cadernos e scripts] Executando-o como uma tarefa em um espaço de implantação. Isso não requer a instalação do Watson Machine Learning. Consulte Criação de trabalhos em espaços de implantação.
- [Apenas para scripts] Executando-o como uma implantação em lote com Watson Machine Learning em um espaço. Consulte Criando uma tarefa de implantação em lote. Os notebooks não podem ser executados como implantações em lote.
Para garantir que um notebook ou script possa ser executado como uma tarefa ou em um pipeline (somente notebooks):
- Certifique-se de que nenhuma célula exija entrada interativa por parte do usuário.
- Certifique-se de que informações detalhadas suficientes sejam registradas para permitir a compreensão do progresso e de quaisquer falhas ao consultar o registro.
- Use variáveis de ambiente no código para acessar configurações se um notebook ou script exigir, por exemplo, o arquivo de dados de entrada ou o número de execuções de treinamento.
- Se você estiver carregando dados de fontes de dados como parte do seu código, certifique-se de lidar adequadamente com casos de erro, como erros de conexão de rede ou tempo limite.
A tabela a seguir mostra as diferenças entre executar scripts Python ou R como tarefas de plataforma ou como implantações em lote em um espaço de implantação.
| Tarefa | Quais variáveis posso passar? | Os volumes de armazenamento montados são suportados? | Suporte de computação necessário |
|---|---|---|---|
| Empregos em plataformas | Pode passar variáveis de ambiente e argumentos do tipo linha de comando | Sim | Tempos de execução do ambiente sem Watson Machine Learning |
| Tarefas de implementação em lote | Só é possível passar parâmetros que correspondam a um padrão predefinido | Não | Especificações do software em Watson Machine Learning |