High Performance Spark: prácticas recomendadas para escalar y optimizar Apache Spark
Apache Spark
Monitorización y gestión del rendimiento de Apache Spark

Apache Spark es el mayor proyecto de procesamiento de datos de código abierto, que proporciona una herramienta rápida de procesamiento de datos para big data y análisis en profundidad. La monitorización de Apache Spark de Instana incluye la capacidad de monitorizar Spark implementado a través de AWS EMR, pero también puede monitorizar el gestor de clústeres de Spark Standalone. La monitorización del rendimiento de Spark gira en torno a la monitorización de la instancia de Spark Driver. El sensor de monitorización de Spark de Instana admite ambos métodos de despliegue del conductor.

¡Comience hoy mismo su PRUEBA SIN COSTE!

14 días, sin tarjeta de crédito, versión completa

Monitorización del rendimiento y la salud de Spark

Dependiendo del tipo de aplicación que se haya implementado (EMR, Standalone), se recopilan y utilizan diferentes datos para la monitorización.

Monitorización del rendimiento y la configuración

Para las instancias de Spark que se ejecutan en AWS EMR, instale el agente de Instana en las instancias de Amazon EC2 con el clúster EMR. Si desea una implementación automática del sensor de monitorización de Spark, el agente de Instana debe colocarse en todos los nodos del clúster de EMR.

La monitorización de Spark de Instana incluye un panel de resumen creado automáticamente que se centra en los KPI de la aplicación, incluidos el tiempo de respuesta y la carga. El cuadro de manos también incluye medidas clave de configuración y rendimiento de la infraestructura, así como medidas específicas de datos de procesamiento de Spark. El cuadro de manos permite a DevOps y operaciones de TI ver todos los datos relevantes de Spark en una pantalla, lo que facilita la comprensión del estado de sus instancias de Spark.

La monitorización del estado y el rendimiento de las instancias de Apache Spark requiere tanto una comprensión de Spark, como también la capacidad de ver las interacciones y dependencias entre instancias de Spark agrupadas y las interacciones con otros microservicios (tanto en sentido ascendente como descendente). El sensor de monitorización de Spark de Instana identifica y recopila automáticamente esas medidas relevantes.

Datos de monitorización de Spark

 

Aplicaciones por lotes

  • Trabajos
  • Fases
  • Pasos más largos completados
  • Ejecutores

    Aplicaciones de modalidad continua

    • Proceso por lotes
    • Retraso de planificación
    • Retraso total
    • Tiempo de proceso
    • Operaciones de salida
    • Registros de entrada
    • Destinatarios
    • Ejecutores

      Configuración

      • Host
      • Puerto
      • URI de reposo
      • Versión
      • Estado

      Medida

      • Trabajadores en activo
      • Trabajadores desactivados
      • Trabajadores despedidos
      • Trabajadores en estado desconocido
      • Memoria utilizada
      • Memoria total
      • Núcleos usados
      • Total de núcleos
      • Datos y medidas por trabajador
      • Aplicaciones más recientes
      • Conductores más recientes
        Instalación del sensor de monitorización de Spark: Primeros pasos

        ¿Listo para empezar a monitorizar Spark? Empiece por registrarse para obtener una prueba gratuita de Instana . Una vez que tenga una cuenta, consulte la documentación de gestión de Spark para obtener más información sobre cómo configurar los diferentes tipos de controladores y despliegues de Spark.

        Inicie una prueba gratuita Documentación de gestión de Spark