Zugriff auf den Spark-Verlaufsserver und dessen Anpassung
Der Spark-Protokollserver gibt den Status der aktiven (in Ausführung befindlichen) und der abgeschlossenen Spark-Jobs für eine bereitgestellte Instanz von Analytics Engine powered by Apache Spark an. Wenn Sie analysieren möchten, wie unterschiedliche Stages (Stufen) Ihres Spark-Jobs ausgeführt werden, können Sie die Details im Spark-Protokollserver anzeigen.
Sie können auf den Spark-Verlaufsserver auf zwei Arten zugreifen und ihn anpassen:
Anmerkungen
- Wenn laufende Jobs abgebrochen oder gestoppt werden, wird die Spark-Anwendung unter der Registerkarte „Unvollständige Anwendungen“ angezeigt.
- Wenn Sie den Spark-Verlaufsserver öffnen, haben nur die auf der Startseite aufgeführten Spark-Anwendungen Zeitstempel in Ihrer Zeitzone. Wenn Sie weitere Informationen abrufen, werden alle anderen Zeitstempelwerte in UTC angezeigt. Dies ist das Standardverhalten von Open-Source-Spark.
Zugriff auf den Spark-Verlaufsserver über den Cloud Pak for Data Webclient
So greifen Sie über den Webclient auf den Spark-Verlaufsserver zu und passen ihn an:
- Anmelden bei Cloud Pak for Data.
- Wählen Sie im Navigationsmenü „Services“ > „Instanzen“ und anschließend
die gewünschte Analytics Engine powered by Apache Spark Instanz aus.
- Klicken Sie auf die Registerkarte „Spark-Verlauf“, um die Details der verarbeiteten Anträge anzuzeigen. Sie können den Spark -Verlaufsserver starten oder stoppen. So öffnen Sie die Benutzeroberfläche des Spark-Verlaufsservers:
- Klicken Sie auf „Verlaufsserver starten “. Das Fenster „Start Spark-Verlaufsserver“ wird geöffnet.
- Erhöhen oder verringern Sie die Anzahl der Kerne und den Arbeitsspeicher (GB).
- Klicken Sie auf Start. Die Statusmeldung wird angezeigt.
- Klicken Sie auf „Stop history server“, um den laufenden Server anzuhalten.
- Klicken Sie auf „Spark-Verlauf anzeigen“, um den vollständigen Verlauf der bearbeiteten Anträge anzuzeigen.
Greifen Sie über die REST-API auf den Spark-Verlaufsserver zu
Der Protokollserver wird für eine Instanz von Analytics Engine powered by Apache Spark nur gestartet, wenn Sie die Start-API des Protokollservers aufrufen. Der Verlaufsserver wird angehalten, wenn Sie die Stopp-API des Verlaufsservers aufrufen oder wenn die Analytics Engine powered by Apache Spark Instanz gelöscht wird.
Verwenden Sie cURL-Befehle, um den Protokollserver zu starten und zu stoppen. Um auf den Verlaufsserver zuzugreifen, benötigen Sie den Spark-Verlaufsserver-Endpunkt und das Zugriffstoken für die Serviceinstanz. Weitere Informationen dazu, wie Sie diese Informationen erhalten, finden Sie unter Verwalten von Analytics Engine powered by Apache Spark Instanzen.
Protokollserver starten
Geben Sie den folgenden cURL-Befehl ein, um den Spark-Protokollserver zu starten:
curl -ik -X POST <HISTORY_SERVER_ENDPOINT> -H "Authorization: ZenApiKey ${TOKEN}"
Beispiel für die Antwort:
{
"state": "started",
"cores": "1",
"memory": "4G",
"start_time": "2022-06-08T11:28:16.521Z"
}
Eine der folgenden Rückgabecodes wird angezeigt:
| Rückgabecode | Bedeutung des Rückgabecodes | Beschreibung |
|---|---|---|
| 200 | OK | Der Protokollserver wurde erfolgreich gestartet |
| 401 | Nicht berechtigt | Ungültiges Berechtigungstoken |
| 500 | Interne Serverfehler | Ungültige Instanz-ID oder andere interne Serverfehler |
Anzeigen des Status des Verlaufsservers
Um den Status des Spark-Verlaufsservers anzuzeigen, geben Sie den folgenden cURL Befehl ein:
curl -ik -X GET <HISTORY_SERVER_ENDPOINT> -H "Authorization: ZenApiKey ${TOKEN}"
Beispiel für die Antwort:
{
"state": "started",
"cores": "1",
"memory": "4G",
"start_time": "2022-06-08T11:28:16.521Z"
}
Eine der folgenden Rückgabecodes wird angezeigt:
| Rückgabecode | Bedeutung des Rückgabecodes | Beschreibung |
|---|---|---|
| 200 | OK | Details zum Verlaufsserver erfolgreich abgerufen |
| 401 | Nicht berechtigt | Ungültiges Berechtigungstoken |
| 500 | Interne Serverfehler | Ungültige Instanz-ID oder andere interne Serverfehler |
Protokollserver stoppen
Geben Sie den folgenden cURL-Befehl ein, um den Protokollserver zu stoppen:
curl -ik -X DELETE <HISTORY_SERVER_ENDPOINT> -H "Authorization: ZenApiKey ${TOKEN}"
Eine der folgenden Rückgabecodes wird angezeigt:
| Rückgabecode | Bedeutung des Rückgabecodes | Beschreibung |
|---|---|---|
| 204 | Kein Inhalt | Der Protokollserver wurde erfolgreich gestoppt |
| 401 | Nicht berechtigt | Ungültiges Berechtigungstoken |
| 500 | Interne Serverfehler | Ungültige Instanz-ID oder andere interne Serverfehler |
Öffnen des Verlaufsservers Web UI
Gehen Sie wie folgt vor, um auf den Link zum Spark-Protokollserver für Ihre bereitgestellte Instanz zuzugreifen:
- Klicken Sie im Navigationsmenü
in Cloud Pak for Data auf „Services“ > „Instanzen“, suchen Sie die Instanz und klicken Sie darauf, um die Instanzdetails anzuzeigen.
- Kopieren Sie den Endpunkt des Verlaufsservers.
- Fügen Sie den Endpunkt des View-Protokollservers auf einer neuen Registerkarte in das Fenster "Cloud Pak for Data" ein, um die Benutzerschnittstelle des Protokollservers anzuzeigen.
Anmerkungen
- Stellen Sie sicher, dass der Spark-Verlaufsserver ausgeführt wird, bevor Sie die Datei Web UI öffnen.
- Die Protokoll-Links unter den Registerkarten „Stages“ und „Executors“ der Benutzeroberfläche des Spark-Verlaufsservers funktionieren nicht, da die Protokolle nicht mit den Spark-Ereignissen gespeichert werden.
- Die Protokolle stdout und stderr werden in der Benutzeroberfläche des Spark-Verlaufsservers nicht unterstützt.
Anpassen des Spark-Verlaufsservers
Standardmäßig verbraucht der Spark-Verlaufsserver während seines Betriebs 1 CPU-Kern und 4 GiB Speicher. Wenn Sie dem Spark-Verlaufsserver mehr Ressourcen zuweisen möchten, können Sie die folgenden Eigenschaften mithilfe der REST-API auf die gewünschten Werte setzen:
ae.spark.history-server.coresfür die Anzahl der CPU-Kerneae.spark.history-server.memoryfür die Speichermenge
Aktualisieren der CPU-Kerne und Speichereinstellungen
Rufen Sie vom Endpunkt des History-Servers die Instanz-ID ab. Weitere Informationen dazu, wie Sie diese Informationen erhalten, finden Sie unter Verwalten von Analytics Engine powered by Apache Spark Instanzen.
Das Format des Endpunkts lautet: https://<CloudPakforData_URL>/v4/analytics_engines/<INSTANCE_ID>/spark_history_server.
Aktualisieren Sie die CPU-Kerne und Speichereinstellungen mithilfe der REST-API wie folgt:
curl --location --request PATCH <https://<CloudPakforData_URL>/v4/analytics_engines/<INSTANCE_ID>/default_configs -H "Authorization: ZenApiKey ${TOKEN}" --header 'Content-Type: application/json' --data-raw '{
"ae.spark.history-server.cores": "2",
"ae.spark.history-server.memory": "8G"
}'
Zusätzliche Anpassungen
Sie können den Spark-Verlaufsserver weiter anpassen, indem Sie Eigenschaften zur Standard-Spark-Konfiguration Ihrer Analytics Engine Power by Apache Spark Instanz hinzufügen. Siehe Standardkonfigurationsoptionen für den Spark-Verlauf.
Bewährte Verfahren
Beenden Sie den Spark-Verlaufsserver immer, wenn Sie ihn nicht mehr benötigen. Beachten Sie, dass der Spark-Verlaufsserver kontinuierlich CPU- und Speicherressourcen verbraucht, solange sein Status „Gestartet“ lautet.