Estensione dell'analisi utilizzando Spark ( Analytics Engine powered by Apache Spark )
È possibile utilizzare Analytics Engine powered by Apache Spark come motore di calcolo per eseguire attività di analisi e apprendimento automatico.
IBM Analytics Engine powered by Apache Spark fornisce un servizio gestito per il consumo Apache Spark con funzionalità aggiuntive quali scalabilità automatica, quota di risorse e accodamento. È possibile eseguire l'applicazione Spark in modo interattivo utilizzando Jupyter Notebooks e Scripts, sia Python che R. Le applicazioni possono anche essere eseguite utilizzando i lavori da Notebook, dallo spazio di distribuzione o utilizzando l'istanza del servizio Spark. IBM Analytics Engine powered by Apache Spark Crea cluster Spark su richiesta ed esegue carichi di lavoro utilizzando offerte quali applicazioni Spark, kernel Spark e Spark Labs.
Servizio Il IBM Analytics Engine powered by Apache Spark servizio non è disponibile per impostazione predefinita. Un amministratore deve installare questo servizio sulla IBM Cloud Pak for Data piattaforma. Per verificare se il servizio è installato, apri il catalogo Servizi e controlla se il servizio è abilitato.
Ogni volta che si invia un lavoro, un cluster Spark dedicato viene creato per il lavoro. È possibile specificare la dimensione del driver Spark, la dimensione dell'executor e il numero di executor per il lavoro. Ciò consente di ottenere prestazioni prevedibili e congruenti.
Quando un lavoro viene completato, il cluster viene automaticamente ripulito in modo che le risorse siano disponibili per altri lavori. Il servizio include anche le interfacce che consentono di analizzare le prestazioni delle applicazioni Spark e di eseguire il debug dei problemi.
In IBM Cloud Pak for Data, è possibile eseguire i carichi di lavoro Spark in due modi:
- In un notebook che viene eseguito in un ambiente Spark in un progetto in Watson Studio
- All'esterno Watson Studio, in IBM Analytics Engine powered by Apache Spark un'istanza che utilizza le API dei job Spark
Ambienti Spark nei progetti
Se il Watson Studio servizio è installato, il IBM Analytics Engine powered by Apache Spark servizio aggiunge automaticamente una serie di modelli di ambiente Spark predefiniti ai progetti. È anche possibile creare modelli di ambiente Spark personalizzati in un progetto.
È possibile visualizzare i modelli dell'ambiente Spark nella sezione Modelli della pagina Ambienti nella scheda Gestisci del proprio progetto.
Per ulteriori dettagli, consulta Ambienti Spark.
API Spark
Se non hai Watson Studio installato, puoi eseguire i carichi di lavoro Spark direttamente in IBM Analytics Engine powered by Apache Spark utilizzando le API dei lavori Spark.
È possibile eseguire questi tipi di carichi di lavoro con le API dei job Spark:
- Applicazioni Spark che eseguono Spark SQL
- Lavori di trasformazione dati
- Lavori di data science
- Lavori di machine learning
Ulteriori informazioni
- Sintassi, parametri e codici di ritorno dell'API Spark Jobs
- Tipi di applicazioni Spark
- Accesso ai dati nei processi dell'applicazione Spark
- Applicazioni Spark persistenti
- Invio di lavori Spark
- Visualizzazione dello stato dei lavori Spark
- Visualizzazione dei log del driver di lavoro
- Rilascio delle risorse di lavoro