O que é o Amazon SageMaker?

Ilustração de esferas ligadas a uma linha ondulada

Autores

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

O que é o Amazon SageMaker?

O Amazon SageMaker é um serviço totalmente gerenciado projetado para simplificar o processo de criação, treinamento e implementação de modelos de aprendizado de máquina (ML). 

Criado pela Amazon Web Services  (AWS), o SageMaker automatiza muitas das tarefas trabalhosas envolvidas em cada estágio da implementação do ML, reduzindo a complexidade dos fluxos de trabalho e acelerando o ciclo de vida geral do aprendizado de máquina . Isso pode levar a iterações mais rápidas, maior precisão e, em última análise, maior valor de negócios decorrente das iniciativas de aprendizado de máquina .

O SageMaker oferece um pacote de ferramentas de ML. Por exemplo, o Autopilot permite que modelos de inteligência artificial (IA) sejam treinados em conjuntos de dados específicos e classifica cada algoritmo por precisão, enquanto o estruturador de dados acelera a preparação de dados, tornando os estágios iniciais do desenvolvimento de modelos de ML mais eficientes.

O SageMaker também contém várias interfaces de programação de aplicativos (APIs). Essas APIs permitem que cientistas de dados e desenvolvedores criem soluções de ML prontas para produção sem as complexidades do gerenciamento de infraestrutura.

Contexto: entendendo o processo de aprendizado de máquina

Para entender o impacto do Amazon SageMaker, é importante entender como funciona o aprendizado de máquina. O processo de aprendizado de máquina pode ser dividido em três partes: processo de decisão, função de erro e otimização do modelo.

  • Processo de decisão: os algoritmos de aprendizado de máquina têm como objetivo principal fazer previsões ou classificações. Usando dados de entrada, quer sejam rotulados ou não rotulados, os algoritmos de aprendizado de máquina podem gerar estimativas e identificar padrões nos dados. 

  • Função de erro: essa função avalia a precisão das previsões do modelo . Ao comparar as saídas do modelo com exemplos conhecidos, a função de erro ajuda a avaliar o desempenho do modelo e identificar áreas de melhoria.

  • Processo de otimização do modelo: para aumentar a precisão do modelo, os algoritmos de aprendizado de máquina ajustam iterativamente seus pesos com base nas discrepâncias entre os exemplos conhecidos e as estimativas do modelo. Esse ciclo de "avaliação e otimização" continua até que o modelo atinja um limite satisfatório de precisão.

O Amazon SageMaker pode ajudar a simplificar esses processos, permitindo que cientistas de dados implementem modelos de aprendizado de máquina com eficiência. 

O que o AWS SageMaker faz?

O AWS SageMaker simplifica o ciclo de vida do ML por meio de uma abordagem estruturada que abrange três fases críticas: geração de dados de exemplo, treinamento e implementação. Em cada fase, os desenvolvedores podem usar instâncias — ambientes isolados, ou servidores, que gerenciam recursos de bancos de dados e computação, definem parâmetros de configuração e provisionam a infraestrutura de TI necessária. 

Geração de exemplos de dados

Os desenvolvedores podem começar gerando dados de exemplo, que são essenciais para treinar modelos de ML. Esse processo envolve a busca, limpeza e preparação de conjuntos de dados do mundo real para pré-processamento. Às vezes, os desenvolvedores podem usar o Amazon Ground Truth para criar dados de imagens sintéticas rotuladas que aumentam ou substituem dados de exemplo. Depois de prontos, os dados podem ser enviados para o Amazon Simple Storage Service (S3), tornando-os acessíveis para uso com vários serviços da AWS.

As instâncias de notebook do Amazon SageMaker fornecem um ambiente robusto para os desenvolvedores prepararem e processarem seus dados para treinamento. Ao acessar os dados armazenados no S3, o SageMaker pode acelerar o processo de desenvolvimento do modelo usando instâncias de ML totalmente gerenciadas para treinar modelos, executar inferências e processar grandes conjuntos de dados dentro do Amazon Elastic Cloud Compute (EC2). 

O SageMaker é compatível com programação colaborativa por meio da aplicação de código aberto Jupyter Notebook . Os cientistas de dados podem importar suas próprias ferramentas ou usar instâncias de notebook pré-criadas, equipadas com drivers e bibliotecas essenciais de código pré-escrito para frameworks populares de deep learning . Essas bibliotecas podem consistir em operações matemáticas, camadas de redes neurais e algoritmos de otimização. 

O SageMaker também oferece flexibilidade aos desenvolvedores, por ser compatível com algoritmos personalizados empacotados como imagens de contêineres do Docker . Ele os integra ao Amazon S3, permitindo que as equipes lancem facilmente seus projetos de aprendizado de máquina. Os desenvolvedores podem fornecer seus próprios algoritmos de treinamento ou selecionar entre uma variedade de pré-construídos por meio do console do SageMaker. Tutoriais e recursos estão disponíveis para orientar os usuários nesses processos.

Treinamento

Na fase de treinamento, os desenvolvedores usam algoritmos ou modelos de base pré-treinados para fazer ajuste fino seus modelos de ML em conjuntos de dados específicos. Os desenvolvedores podem definir locais de dados em buckets do Amazon S3 e selecionar tipos de instâncias apropriados para otimizar o processo de treinamento. 

Ferramentas de orquestração, como o SageMaker Pipelines , simplificam o fluxo de trabalho ao automatizar o processo completo de criação, treinamento e implementação de modelos de aprendizado de máquina. Isso pode ajudar a economizar tempo e garantir precisão em todos os fluxos de trabalho. Além disso, o Amazon SageMaker JumpStart permite que os desenvolvedores usem modelos pré-construídos por meio de uma interface no-code , possibilitando a colaboração sem exigir profundo conhecimento técnico. 

Durante o treinamento do modelo, os desenvolvedores podem usar o ajuste de hiperparâmetros do SageMaker para otimizar os grandes modelos de linguagem (LLMs) para melhorar o desempenho em várias aplicações. O Depurador monitora as métricas de redes neurais, oferecendo aos desenvolvedores insights em tempo real sobre o desempenho do modelo e o uso de recursos. Isso pode ajudar a simplificar o processo de depuração , ao permitir que os cientistas de dados identifiquem rapidamente os problemas, analisem tendências e estabeleçam alertas automatizados para gerenciamento proativo. O SageMaker também oferece um recurso Edge Manager, que estende o monitoramento e o gerenciamento de ML aos dispositivos de edge . 

Implementação

Após a conclusão do treinamento, o SageMaker gerencia e dimensiona de forma autônoma a infraestrutura de nuvem subjacente para ajudar a garantir uma implementação tranquila. Esse processo depende de vários tipos de instância (por exemplo, unidades de processamento gráfico, ou GPUs, otimizadas para cargas de trabalho de ML). Ele também é implementado em múltiplas zonas de disponibilidade (clusters de data centers que estão isolados, mas próximos o suficiente para ter baixa latência) para maior confiabilidade. As verificações de integridade e os endpoints HTTPS seguros reforçam ainda mais a conectividade das aplicações.

Uma vez implementados, os desenvolvedores podem usar as métricas do Amazon CloudWatch para monitorar o desempenho da produção, obter insights em tempo real e definir alertas para quaisquer desvios. Com recursos abrangentes de monitoramento, o SageMaker é compatível com uma governança eficaz durante todo o ciclo de vida do ML. Como resultado, as organizações podem manter o controle e a conformidade enquanto aproveitam o poder do aprendizado de máquina.

Quais são os benefícios do Amazon SageMaker?

O Amazon SageMaker oferece uma série de benefícios que aprimoram a experiência de aprendizado de máquina , incluindo:

  • Ambiente de desenvolvimento integrado 
  • Treinamento e otimização de modelos
  • Preparação de dados e rotulagem
  • Inferência em tempo real e em lote
  • Soluções sem servidor e econômicas
  • Monitoramento e depuração
  • Modelos de preços flexíveis

Ambiente de desenvolvimento integrado (IDE)

O Amazon SageMaker Studio funciona como um IDE completo para cientistas de dados, fornecendo uma interface intuitiva para gerenciar fluxos de trabalho, desenvolver modelos e visualizar métricas. Ele é compatível com o Jupyter Notebook, permitindo que os usuários escrevam e executem código Python com eficiência.

Treinamento e otimização de modelos

Os usuários podem treinar modelos de ML com algoritmos integrados ou algoritmos personalizados com base em frameworks populares de treinamento de ML, como TensorFlow, PyTorch e MXNet. O serviço oferece ajuste de hiperparâmetros para otimizar as configurações dos modelos para obter o melhor desempenho. O SageMaker também permite o ajuste fino de modelos pré-treinados, permitindo que os cientistas de dados adaptem esses modelos a conjuntos de dados e tarefas específicos.

Preparação e rotulagem de dados

 Conjuntos de dados de qualidade são cruciais para criar modelos eficazes de aprendizado de máquina. A Ground Truth fornece um serviço de rotulagem de dados que facilita a criação de conjuntos de dados de treinamento de alta qualidade por meio de processos automatizados de rotulagem e revisão humana. Além disso, o Amazon SageMaker inclui um armazenamento de funcionalidades integrado que permite que as equipes gerenciem, compartilhem e descubram funcionalidades (entradas usadas para treinamento e inferência) em diferentes modelos de aprendizado de máquina. Isso pode ajudar a simplificar o processo de preparação de dados e aprimorar a colaboração.

Inferência em tempo real e em lote

Depois de implementar os modelos de aprendizado de máquina, o SageMaker permite a inferência em tempo real e em lote. Os usuários podem criar endpoints (URLs específicas que servem como pontos de acesso para aplicações) para fazer previsões em tempo real e gerenciar cargas de trabalho de forma eficiente. Isso é particularmente útil para aplicações que exigem respostas instantâneas, como em cenários de IA generativa .

Soluções sem servidor e econômicas

Com recursos como auto-scaling e integração com o AWS Lambda, o SageMaker fornece recursos sem servidor que ajudam a gerenciar recursos de computação de forma dinâmica com base na demanda. O resultado são custos e escalabilidade otimizados.

Monitoramento e depuração

O SageMaker oferece ferramentas como o Amazon CloudWatch para monitorar o desempenho do modelo de ML em tempo real, usando outros serviços da AWS para fornecer uma visão holística da integridade das aplicações. Os recursos de depuração permitem que os cientistas de dados rastreiem problemas no treinamento e na implementação de modelos , ajudando a garantir um ciclo de vida robusto de aprendizado de máquina 

Modelos de preços flexíveis

A AWS oferece dois modelos de preços (sob demanda e pré-pagos), com custos variando com base nos tipos de instâncias, armazenamento de dados e serviços usados. Além disso, o pacote gratuito do Amazon SageMaker permite que novos usuários explorem a plataforma sem nenhum custo, disponibilizando acesso a uma gama limitada de funcionalidades e recursos. 

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Informações e notícias selecionadas por especialistas sobre IA, nuvem e muito mais no boletim informativo semanal Think. 

Casos de uso do AWS SageMaker

A versatilidade do Amazon SageMaker o torna adequado para vários casos de uso em vários setores. Estes são alguns exemplos: 

Saúde: modelos de aprendizado de máquina podem analisar dados de pacientes para prever resultados, personalizar tratamentos e aumentar a eficiência operacional. 

Finanças: instituições financeiras podem usar o Amazon SageMaker para desenvolver modelos de detecção de fraude, pontuação de crédito e avaliação de risco. 

Varejo: as empresas usam análise preditiva de dados para aprimorar o gerenciamento de inventário, personalizar as experiências dos clientes e otimizar as estratégias de preços. 

Amazon SageMaker e governança de IA

Ferramentas como o Amazon SageMaker podem ajudar as organizações a implementar de forma eficaz modelos de aprendizado de máquina que geram inovação e valor de negócios e, ao mesmo tempo, manter o controle do sistema de IA e a conformidade regulatória. Os usuários podem aproveitar várias ferramentas de governança, como:

  • Gerenciamento de acesso e identidade (IAM): essa funcionalidade possibilita que os usuários gerenciem permissões e funções, ajudando a garantir que apenas usuários autorizados acessem dados confidenciais e endpoints de modelos.

  • Controle de versões: os usuários podem rastrear versões e configurações de modelos para manter uma trilha de auditoria clara, essencial para conformidade e governança.

  • Registro de modelo: o registro de modelo atua como um repositório central para gerenciar artefatos e metadados do modelo, ajudando a garantir transparência e responsabilidade durante todo o ciclo de vida de desenvolvimento.

O SDK do SageMaker Python aprimora os recursos de governança do Amazon SageMaker , ao permitir a integração sem dificuldades com fluxos de trabalho e serviços existentes. Isso permite que as organizações automatizem as verificações de conformidade e mantenham a supervisão em seus projetos de ML com mais eficiência.

O Amazon SageMaker também pode ser integrado a estratégias mais amplas de dados e IA. A IBM e a AWS formaram parcerias estratégicas para aprimorar os recursos das organizações que aproveitam os serviços baseados na nuvem. O uso dos modelos de base da IBM em conjunto com o Amazon SageMaker permite que as equipes aproveitem as funções de análise de dados avançadas, melhorem o gerenciamento de dados e otimizem os fluxos de trabalho. Ao implementar modelos em uma Amazon VPC, as organizações podem ajudar a garantir o acesso seguro e controlado a seus recursos, apoiando ainda mais os esforços de governança.

Com a capacidade de trabalhar em várias plataformas, como o Windows, as organizações podem juntar ferramentas da IBM e da AWS para implementar facilmente soluções de IA e ML adaptadas às suas necessidades. Usando soluções do watsonx.governance da IBM. com funcionalidades robustas do SageMaker, as empresas podem acelerar suas iniciativas de IA, especialmente em aplicações de IA generativa e MLOps .