Accéder au serveur d'historique Spark et le personnaliser

Le serveur de données historiques Spark fournit le statut des travaux Spark en cours d'exécution et terminés sur une instance mise à disposition d'Analytics Engine powered by Apache Spark. Si vous souhaitez analyser la manière dont les différentes étapes de votre travail Spark sont effectuées, vous pouvez afficher les détails sur le serveur de données historiques Spark.

Vous pouvez accéder au serveur d'historique Spark et le personnaliser de deux manières :

Remarques

  • Si les tâches en cours d'exécution sont annulées ou arrêtées, l'application Spark apparaîtra sous l'onglet Applications incomplètes.
  • Lorsque vous ouvrez le serveur d'historique Spark, seules les applications Spark répertoriées sur la page d'accueil ont des horodatages dans votre fuseau horaire. Lorsque vous explorez les informations pour obtenir plus de détails, toutes les autres valeurs d'horodatage sont exprimées en UTC. Il s'agit du comportement par défaut de Spark open source.

Accéder au serveur d'historique Spark à partir du client Cloud Pak for Data Web

Pour accéder au serveur d'historique Spark et le personnaliser à partir du client Web :

  1. Connectez-vous à Cloud Pak for Data.
  2. Dans le menu de navigation Cloud Pak for Data menu de navigation, sélectionnez Services > Instances, puis sélectionnez Analytics Engine powered by Apache Spark l'instance.
  3. Cliquez sur l'onglet « Historique Spark » pour afficher les détails des demandes traitées. Vous pouvez démarrer ou arrêter le serveur d'historique Spark. Pour ouvrir la page d'interface utilisateur du serveur d'historique Spark :
    1. Cliquez sur Démarrer le serveur d'historique. La fenêtre du serveur d'historique Start Spark s'ouvre.
    2. Augmentez ou diminuez le nombre de cœurs et la mémoire (Go).
    3. Cliquez sur Démarrer. Le message d'état s'affiche.
    4. Cliquez sur Arrêter le serveur d'historique pour arrêter le serveur en cours d'exécution.
    5. Cliquez sur Afficher l'historique Spark pour consulter l'historique complet des demandes traitées.

Accédez au serveur d'historique Spark à l'aide de l'API REST

Le serveur de données historiques n'est démarré pour une instance d'Analytics Engine powered by Apache Spark que lorsque vous appelez son API de démarrage. Le serveur d'historique est arrêté lorsque vous appelez l'API d'arrêt du serveur d'historique ou lorsque Analytics Engine powered by Apache Spark l'instance est supprimée.

Utilisez des commandes cURL pour démarrer et arrêter le serveur de données historiques. Pour accéder au serveur d'historique, vous avez besoin du point de terminaison du serveur d'historique Spark et du jeton d'accès pour l'instance de service. Pour plus d'informations sur la manière d'obtenir ces informations, consultez la section Gestion Analytics Engine powered by Apache Spark des instances.

Démarrage du serveur de données historiques

Pour démarrer le serveur de données historiques Spark, entrez la commande cURL suivante :

curl -ik -X POST <HISTORY_SERVER_ENDPOINT> -H "Authorization: ZenApiKey ${TOKEN}"

Exemple de réponse :

{
    "state": "started",
    "cores": "1",
    "memory": "4G",
    "start_time": "2022-06-08T11:28:16.521Z"
}

L'un des codes retour suivants s'affiche :

Code retour Signification du code retour Description
200 OK Le démarrage du serveur de données historiques a abouti
401 Non autorisé Jeton d'autorisation non valide
500 Erreurs de serveur internes ID d'instance invalide ou autres erreurs internes du serveur

Affichage de l'historique de l'état du serveur

Pour afficher l'état du serveur d'historique Spark, entrez la commande cURL suivante :

curl -ik -X GET <HISTORY_SERVER_ENDPOINT> -H "Authorization: ZenApiKey ${TOKEN}"

Exemple de réponse :

{
    "state": "started",
    "cores": "1",
    "memory": "4G",
    "start_time": "2022-06-08T11:28:16.521Z"
}

L'un des codes retour suivants s'affiche :

Code retour Signification du code retour Description
200 OK Détails du serveur historique récupérés avec succès
401 Non autorisé Jeton d'autorisation non valide
500 Erreurs de serveur internes ID d'instance invalide ou autres erreurs internes du serveur

Arrêt du serveur de données historiques

Pour arrêter le serveur de données historiques, entrez la commande cURL suivante :

curl -ik -X DELETE <HISTORY_SERVER_ENDPOINT> -H "Authorization: ZenApiKey ${TOKEN}"

L'un des codes retour suivants s'affiche :

Code retour Signification du code retour Description
204 Aucun contenu L'arrêt du serveur de données historiques a abouti
401 Non autorisé Jeton d'autorisation non valide
500 Erreurs de serveur internes ID d'instance invalide ou autres erreurs internes du serveur

Ouverture du serveur d'historique Web UI

Pour accéder au lien vers le serveur de données historiques Spark pour votre instance mise à disposition :

  1. Dans le Cloud Pak for Data menu de navigation menu de navigation, cliquez Cloud Pak for Data sur Services > Instances, recherchez l'instance et cliquez dessus pour afficher ses détails.
  2. Copiez le point de terminaison du serveur d'historique des vues.
  3. Collez le noeud final du serveur de données historiques de visualisation dans un nouvel onglet dans la même fenêtre de navigateur Cloud Pak for Data pour visualiser l'interface utilisateur du serveur de données historiques.

Remarques

  • Assurez-vous que le serveur d'historique Spark est en cours d'exécution avant d'ouvrir le fichier Web UI.
  • Les liens vers les journaux sous les onglets « Stages » (Étapes) et « Executors » (Exécuteurs) de l'interface utilisateur du serveur d'historique Spark ne fonctionneront pas, car les journaux ne sont pas conservés avec les événements Spark.
  • Les journaux stdout et stderr ne sont pas pris en charge dans l'interface utilisateur du serveur d'historique Spark.

Personnalisation du serveur d'historique Spark

Par défaut, le serveur d'historique Spark utilise 1 cœur de processeur et 4 GiB de mémoire lorsqu'il est en cours d'exécution. Si vous souhaitez allouer davantage de ressources au serveur d'historique Spark, vous pouvez définir les propriétés suivantes sur les valeurs souhaitées à l'aide de l'API REST :

  • ae.spark.history-server.cores pour le nombre de cœurs de processeur
  • ae.spark.history-server.memory pour la quantité de mémoire

Mise à jour des paramètres des cœurs de processeur et de la mémoire

À partir du point de terminaison du serveur History, récupérez l'ID de l'instance. Pour plus d'informations sur la manière d'obtenir ces informations, consultez la section Gestion Analytics Engine powered by Apache Spark des instances.

Le format du point final est : https://<CloudPakforData_URL>/v4/analytics_engines/<INSTANCE_ID>/spark_history_server.

Mettez à jour les paramètres des cœurs de processeur et de la mémoire à l'aide de l'API REST comme suit :

curl --location --request PATCH <https://<CloudPakforData_URL>/v4/analytics_engines/<INSTANCE_ID>/default_configs -H "Authorization: ZenApiKey ${TOKEN}" --header 'Content-Type: application/json' --data-raw '{
        "ae.spark.history-server.cores": "2",
        "ae.spark.history-server.memory": "8G"
}'

Personnalisations supplémentaires

Vous pouvez personnaliser davantage le serveur d'historique Spark en ajoutant des propriétés à la configuration Spark par défaut de votre instance Analytics Engine Power Apache Spark by. Voir les options de configuration standard de l'historique Spark.

Meilleures pratiques

Arrêtez toujours le serveur d'historique Spark lorsque vous n'en avez plus besoin. Gardez à l'esprit que le serveur d'historique Spark consomme en permanence des ressources CPU et mémoire tant qu'il est dans l'état « Démarré ».