Estensione dell'analisi utilizzando Spark ( Analytics Engine powered by Apache Spark )

È possibile utilizzare Analytics Engine powered by Apache Spark come motore di calcolo per eseguire attività di analisi e apprendimento automatico.

IBM Analytics Engine powered by Apache Spark fornisce un servizio gestito per il consumo Apache Spark con funzionalità aggiuntive quali scalabilità automatica, quota di risorse e accodamento. È possibile eseguire l'applicazione Spark in modo interattivo utilizzando Jupyter Notebooks e Scripts, sia Python che R. Le applicazioni possono anche essere eseguite utilizzando i lavori da Notebook, dallo spazio di distribuzione o utilizzando l'istanza del servizio Spark. IBM Analytics Engine powered by Apache Spark Crea cluster Spark su richiesta ed esegue carichi di lavoro utilizzando offerte quali applicazioni Spark, kernel Spark e Spark Labs.

Servizio Il IBM Analytics Engine powered by Apache Spark servizio non è disponibile per impostazione predefinita. Un amministratore deve installare questo servizio sulla IBM Cloud Pak for Data piattaforma. Per verificare se il servizio è installato, apri il catalogo Servizi e controlla se il servizio è abilitato.

Ogni volta che si invia un lavoro, un cluster Spark dedicato viene creato per il lavoro. È possibile specificare la dimensione del driver Spark, la dimensione dell'executor e il numero di executor per il lavoro. Ciò consente di ottenere prestazioni prevedibili e congruenti.

Quando un lavoro viene completato, il cluster viene automaticamente ripulito in modo che le risorse siano disponibili per altri lavori. Il servizio include anche le interfacce che consentono di analizzare le prestazioni delle applicazioni Spark e di eseguire il debug dei problemi.

In IBM Cloud Pak for Data, è possibile eseguire i carichi di lavoro Spark in due modi:

In un notebook che viene eseguito in un ambiente Spark in un progetto in Watson Studio
All'esterno Watson Studio, in IBM Analytics Engine powered by Apache Spark un'istanza che utilizza le API dei job Spark

Ambienti Spark nei progetti

Se il Watson Studio servizio è installato, il IBM Analytics Engine powered by Apache Spark servizio aggiunge automaticamente una serie di modelli di ambiente Spark predefiniti ai progetti. È anche possibile creare modelli di ambiente Spark personalizzati in un progetto.

È possibile visualizzare i modelli dell'ambiente Spark nella sezione Modelli della pagina Ambienti nella scheda Gestisci del proprio progetto.

Per ulteriori dettagli, consulta Ambienti Spark.

API Spark

Se non hai Watson Studio installato, puoi eseguire i carichi di lavoro Spark direttamente in IBM Analytics Engine powered by Apache Spark utilizzando le API dei lavori Spark.

È possibile eseguire questi tipi di carichi di lavoro con le API dei job Spark:

Applicazioni Spark che eseguono Spark SQL
Lavori di trasformazione dati
Lavori di data science
Lavori di machine learning

Vedi Introduzione alle applicazioni Spark.

Estensione dell'analisi utilizzando Spark ( Analytics Engine powered by Apache Spark )

Ambienti Spark nei progetti

API Spark

Ulteriori informazioni