Che cos'è Amazon SageMaker?

Autori

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

Che cos'è Amazon SageMaker?

Amazon SageMaker è un servizio completamente gestito, progettato per semplificare il processo di creazione, addestramento e implementazione di modelli di machine learning (ML).

Creato da Amazon Web Services (AWS), SageMaker automatizza molte delle attività laboriose previste da ogni fase dell'implementazione dell'apprendimento automatico (ML), riducendo la complessità dei workflow e accelerando l'intero ciclo di vita del machine learning. Ciò può portare a iterazioni più rapide, a una maggiore precisione e, in ultima analisi, a un maggiore valore aziendale derivante dalle iniziative di machine learning.

SageMaker offre una suite di strumenti di apprendimento automatico (ML). Ad esempio, Autopilot consente di addestrare i modelli AI su set di dati specifici e classifica ogni algoritmo in base alla precisione, mentre Data Wrangler accelera la preparazione dei dati, rendendo più efficienti le fasi iniziali dello sviluppo di modelli di apprendimento automatico (ML).

SageMaker include anche diverse application programming interface (API). Queste API consentono ai data scientist e agli sviluppatori di creare soluzioni di apprendimento automatico (ML) pronte per la produzione, senza le complessità della gestione dell'infrastruttura.

Background: comprendere il processo di machine learning

Per comprendere l'impatto di Amazon SageMaker, è importante capire come funziona il machine learning. Il processo di machine learning può essere suddiviso in tre parti: processo decisionale, funzione di errore e ottimizzazione del modello.

Processo decisionale: gli algoritmi di machine learning si prefiggono principalmente di fare previsioni o classificazioni. Utilizzando i dati di input, etichettati o non etichettati, gli algoritmi di machine learning possono generare stime e identificare pattern all'interno dei dati.
Funzione di errore: questa funzione valuta l'accuratezza delle previsioni del modello. Confrontando gli output del modello con esempi noti, la funzione di errore aiuta a valutare le prestazioni del modello e a identificare le aree da migliorare.
Processo di ottimizzazione del modello: per migliorare la precisione del modello, gli algoritmi di apprendimento automatico regolano iterativamente il proprio peso in base alle discrepanze tra esempi noti e stime del modello. Questo ciclo di "valutazione e ottimizzazione" continua fino a quando il modello non raggiunge una soglia di precisione soddisfacente.

Amazon SageMaker può aiutare a semplificare questi processi, consentendo ai data scientist di implementare in modo efficiente modelli di machine learning.

Cosa fa AWS SageMaker?

AWS SageMaker semplifica il ciclo di vita dell'apprendimento automatico (ML) attraverso un approccio strutturato che comprende tre fasi critiche: generazione di dati di esempio, addestramento e implementazione. In ogni fase, gli sviluppatori possono utilizzare istanze, ambienti o server isolati che gestiscono database e risorse informatiche, impostano i parametri di configurazione e forniscono l' infrastruttura IT necessaria.

Generazione di dati di esempio

Gli sviluppatori possono iniziare generando dati di esempio, essenziali per l'addestramento dei modelli di apprendimento automatico (ML). Questo processo prevede il recupero, la pulizia e la preparazione di set di dati del mondo reale per la pre-elaborazione. A volte, gli sviluppatori possono utilizzare Amazon Ground Truth per creare dati di immagini sintetiche etichettati che potenziano o sostituiscono i dati di esempio. Una volta pronti, i dati possono essere caricati su Amazon Simple Storage Service (S3), rendendoli accessibili per l'uso con vari servizi AWS.

Le istanze notebook Amazon SageMaker offrono un ambiente solido in cui gli sviluppatori possono preparare ed elaborare i propri dati per l'addestramento. Accedendo ai dati memorizzati in S3, SageMaker può accelerare il processo di sviluppo del modello utilizzando istanze di apprendimento automatico (ML) completamente gestite per addestrare i modelli, eseguire inferenze ed elaborare grandi set di dati all'interno di Amazon Elastic Cloud Compute(EC2).

SageMaker supporta la codifica collaborativa tramite l'applicazione open source Jupyter Notebook. I data scientist possono importare i propri strumenti o utilizzare istanze di notebook predefinite dotate di driver e librerie essenziali di codice già scritto per i più diffusi framework di deep learning. Queste librerie possono essere costituite da operazioni matematiche, livelli di neural networks e algoritmi di ottimizzazione.

SageMaker offre inoltre flessibilità agli sviluppatori supportando algoritmi personalizzati e confezionati come immagini di contenitori Docker. Si integra con Amazon S3, consentendo ai team di lanciare facilmente i propri progetti di apprendimento automatico. Gli sviluppatori possono fornire i propri algoritmi di addestramento o scegliere tra una serie di algoritmi precostituiti tramite la console di SageMaker. Sono disponibili tutorial e risorse per guidare gli utenti attraverso questi processi.

Formazione

Nella fase di addestramento, gli sviluppatori utilizzano algoritmi o modelli base pre-addestrati per mettere a punto i loro modelli di apprendimento automatico (ML) su set di dati specifici. Gli sviluppatori possono definire le posizioni dei dati nei bucket Amazon S3 e selezionare i tipi di istanza appropriati per ottimizzare il processo di addestramento.

Gli strumenti di orchestrazione come SageMaker Pipelines semplificano il workflow automatizzando il processo end-to-end di creazione, addestramento e implementazione di modelli di machine learning. Ciò può aiutare a risparmiare tempo e a garantire la precisione all'interno dei workflow. Inoltre, Amazon SageMaker JumpStart consente agli sviluppatori di utilizzare modelli predefiniti tramite un'interfaccia no-code favorendo la collaborazione senza competenze tecniche approfondite.

Durante l'addestramento dei modelli, gli sviluppatori possono utilizzare l'la messa a punto degli iperparametri di SageMaker per ottimizzare modelli linguistici di grandi dimensioni (LLM) per migliorare le prestazioni in varie applicazioni. Il Debugger esegue il monitoraggio delle metriche delle neural networks, offrendo agli sviluppatori insight in tempo reale sulle prestazioni dei modelli e sull'utilizzo delle risorse. Questo può aiutare a semplificare il processo di debug consentendo ai data scientist di identificare rapidamente i problemi, analizzare le tendenze e impostare avvisi automatici per una gestione proattiva. SageMaker fornisce anche una funzionalità Edge Manager che estende il monitoraggio e la gestione dell'apprendimento automatico (ML) ai dispositivi edge.

Distribuzione

Una volta completato l'addestramento, SageMaker gestisce e scala autonomamente l'infrastruttura cloud sottostante per contribuire a garantire un'implementazione senza intoppi. Questo processo si basa su una serie di tipi di istanze (ad esempio, unità di elaborazione grafica o GPU, ottimizzate per i workload di machine learning). Si implementa inoltre in più zone di disponibilità (cluster di data center isolati ma sufficientemente vicini da avere una bassa latenza) per una maggiore affidabilità. I controlli dello stato di salute e gli endpoint HTTPS sicuri rafforzano ulteriormente la connettività delle applicazioni.

Una volta distribuiti, gli sviluppatori possono utilizzare le metriche di Amazon CloudWatch per monitorare le prestazioni, ottenere insight in tempo reale e impostare avvisi per eventuali deviazioni. Grazie alle sue funzionalità di monitoraggio complete, SageMaker può supportare una governance efficace durante tutto il ciclo di vita del machine learning. Di conseguenza, le organizzazioni possono mantenere il controllo e la conformità sfruttando al contempo la potenza del machine learning.

Quali sono i benefici di Amazon SageMaker?

Amazon SageMaker offre una serie di benefici che migliorano l'esperienza del machine learning, tra cui:

Ambiente di sviluppo integrato
Addestramento e ottimizzazione dei modelli
Preparazione ed etichettatura dei dati
Inferenza in tempo reale e in batch
Soluzioni serverless ed economiche
Monitoraggio e debug
Modelli di prezzo flessibili

Ambiente di sviluppo integrato (IDE)

Amazon SageMaker Studio funge da IDE tutto in uno per i data scientist e offre un'interfaccia intuitiva per gestire i workflow, sviluppare modelli e visualizzare le metriche. Supporta Jupyter Notebook, consentendo agli utenti di scrivere ed eseguire codice Python in modo efficiente.

Addestramento e ottimizzazione dei modelli

Gli utenti possono addestrare modelli di apprendimento automatico (ML) con algoritmi integrati o personalizzati basati su framework di addestramento diffusi come TensorFlow, PyTorch e MXNet. Il servizio offre l'ottimizzazione degli iperparametri per ottimizzare le configurazioni del modello per ottenere le migliori prestazioni. SageMaker supporta anche la messa a punto di modelli preaddestrati, consentendo ai data scientist di adattare questi modelli a set di dati e attività specifici.

Preparazione dei dati e etichettatura

I set di dati di qualità sono fondamentali per creare modelli di machine learning efficaci. Ground Truth offre un servizio di etichettatura dei dati che facilita la creazione di set di dati di alta qualità attraverso processi automatizzati di etichettatura e revisione umana. Inoltre, Amazon SageMaker include un feature store integrato che consente ai team di gestire, condividere e scoprire funzioni (input utilizzati per l'addestramento e l'inferenza) su diversi modelli di machine learning. Ciò può contribuire a semplificare il processo di preparazione dei dati e a migliorare la collaborazione.

Elaborazione in tempo reale e inferenza batch

Dopo avere implementato modelli di machine learning, SageMaker consente l'inferenza in tempo reale e in batch. Gli utenti possono creare endpoint, ovvero URL specifici che fungono da punti di accesso per le applicazioni, per fare previsioni in tempo reale e gestire workload in modo efficiente. Ciò è particolarmente utile per le applicazioni che richiedono risposte istantanee, come negli scenari di AI generativa.

Soluzioni serverless ed economiche

Grazie a funzionalità quali Auto-Scaling e l'integrazione con AWS Lambda, SageMaker offre funzionalità serverless che aiutano a gestire le risorse di elaborazione in modo dinamico in base alla domanda. Il risultato è l'ottimizzazione dei costi e della scalabilità.

Monitoraggio e debug

SageMaker offre strumenti come Amazon CloudWatch per monitorare le prestazioni del modello di apprendimento automatico (ML) in tempo reale, utilizzando altri servizi AWS per fornire una visione olistica dello stato di salute delle applicazioni. Le funzionalità di debug consentono ai data scientist di tracciare i problemi nell'addestramento e nell'implementazione dei modelli, contribuendo a garantire un solido ciclo di vita del machine learning.

Modelli di prezzo flessibili

AWS offre due modelli di prezzi, on-demand e pay-as-you-go, con costi variabili in base al tipo di istanza, alla data storage e ai servizi utilizzati. Inoltre, il livello gratuito di Amazon SageMaker consente ai nuovi utenti di esplorare la piattaforma gratuitamente, fornendo l'accesso a una gamma limitata di funzionalità e risorse.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI  

Notizie e insight a cura di esperti di AI, cloud e molto altro nella newsletter settimanale Think.

Casi d'uso di AWS SageMaker

La versatilità di Amazon SageMaker lo rende adatto a vari casi d'uso in tutti i settori. Ecco alcuni esempi:

Sanità: i modelli di machine learning possono analizzare i dati dei pazienti per prevedere i risultati, personalizzare le terapie e migliorare l'efficienza operativa.

Finanza: gli istituti finanziari possono utilizzare Amazon SageMaker per sviluppare modelli per il rilevamento delle frodi, il punteggio di credito e la valutazione del rischio.

Retail: le aziende utilizzano l'analytics predittiva per migliorare la gestione degli inventari, personalizzare l'esperienza del cliente e ottimizzare le strategie di prezzi.

Amazon SageMaker e la governance dell'AI

Strumenti come Amazon SageMaker possono aiutare le organizzazioni a implementare in modo efficace modelli di machine learning che promuovono l'innovazione e il valore aziendale, pur mantenendo il controllo del sistema di AI e la conformità normativa. Gli utenti possono utilizzare al meglio numerosi strumenti di governance, tra cui:

Gestione delle identità e degli accessi (IAM): questa funzionalità consente agli utenti di gestire autorizzazioni e ruoli, contribuendo a garantire che solo gli utenti autorizzati accedano ai dati sensibili e agli endpoint del modello.
Controllo delle versioni: gli utenti possono tenere traccia delle versioni e delle configurazioni dei modelli per mantenere un audit trail chiaro, essenziale per la conformità e la governance.
Registro dei modelli: il registro dei modelli funge da archivio centrale per la gestione degli artefatti e dei metadati del modello, contribuendo a garantire trasparenza e responsabilità durante tutto il ciclo di vita dello sviluppo.

L'SDK SageMaker Python migliora le funzionalità di governance di Amazon SageMaker consentendo una perfetta integrazione con i workflow e i servizi esistenti. Ciò consente alle organizzazioni di automatizzare i controlli di conformità e di mantenere la supervisione sui propri progetti di apprendimento automatico (ML) in modo più efficace.

Amazon SageMaker può anche essere integrato in strategie di dati e AI più ampie. IBM e AWS hanno avviato partnership strategiche per migliorare le funzionalità delle organizzazioni che sfruttano i servizi basati sul cloud. L'utilizzo dei foundation model di IBM insieme ad Amazon SageMaker consente ai team di sfruttare l'analytics avanzata, così come di migliorare la gestione dei dati e semplificare i workflow. Implementando modelli all'interno di un Amazon VPC, le organizzazioni possono contribuire a garantire un accesso sicuro e controllato alle proprie risorse, supportando ulteriormente le attività di governance.

Grazie alla capacità di lavorare su varie piattaforme come Windows, le organizzazioni possono abbinare gli strumenti IBM e AWS per implementare facilmente soluzioni di AI e ML su misura per le loro esigenze. Utilizzando le soluzioni IBM watsonx.governance insieme alle solide funzioni di SageMaker, le aziende possono accelerare le iniziative di AI, in particolare nelle applicazioni di AI generativa e MLOps.