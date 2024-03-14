Apache Kafka es una plataforma de almacenamiento de eventos y procesamiento de flujos de código abierto ampliamente reconocida. Se ha convertido en el estándar de facto para la transmisión de datos, ya que más del 80 % de las empresas de la Fortune 500 lo utilizan. Todos los principales proveedores de servicios en la nube ofrecen servicios gestionados de transmisión de datos para satisfacer esta creciente demanda.
Una ventaja clave de optar por los servicios gestionados de Kafka es la delegación de responsabilidad de las métricas operativas y de intermediario, lo que permite a los usuarios centrarse únicamente en las métricas específicas de las aplicaciones. En este artículo, el director de producto, Uche Nwankwo, ofrece orientación sobre un conjunto de métricas de productores y consumidores que los clientes deben supervisar para obtener un rendimiento óptimo.
Con Kafka, la monitorización suele incluir varias métricas relacionadas con los temas, las particiones, los intermediarios y los grupos de consumidores. Las métricas estándar de Kafka incluyen información sobre el rendimiento, la latencia, la replicación y el uso del disco. Consulta la documentación de Kafka y las herramientas de monitorización relevantes para entender las métricas específicas disponibles para tu versión de Kafka y cómo interpretarlas eficazmente.
La monitorización de su instancia de IBM® Event Streams for IBM Cloud es crucial para garantizar una funcionalidad óptima y el estado general de su canalización de datos. La monitorización de sus clientes de Kafka ayuda a identificar los primeros signos de fallo de la aplicación, como un alto uso de recursos y consumidores rezagados y cuellos de botella. La identificación temprana de estas señales de advertencia permite una respuesta proactiva a posibles problemas que minimizan el tiempo de inactividad y evitan cualquier interrupción de las operaciones empresariales.
Los clientes de Kafka (productores y consumidores) tienen su propio conjunto de métricas para monitorizar su rendimiento y estado. Además, el servicio Event Streams soporta un conjunto completo de métricas producidas por el servidor. Para obtener más información, consulte Monitoring Event Streams metrics by using IBM Cloud Monitoring.
|Tasa de error de registro
|Esta métrica mide el número medio por segundo de registros enviados que resultaron en errores. Una tasa de errores de registro elevada (o un aumento de la misma) podría indicar una pérdida de datos o que éstos no se están procesando como se esperaba. Todos estos efectos pueden comprometer la integridad de los datos que procesa y almacena en Kafka. La monitorización de esta métrica ayuda a garantizar que los datos que envían los productores se registran de forma precisa y fiable en sus temas de Kafka.
|Media de latencia de solicitudes
|Esta es la latencia promedio para cada solicitud de producción en ms. Un aumento de la latencia afecta al rendimiento y puede indicar un problema. Medir la métrica promedio de latencia de las solicitudes puede ayudar a identificar los cuellos de botella en su instancia. Para muchas aplicaciones, una baja latencia es crucial para garantizar una experiencia de usuario de alta calidad, y un pico en la media de latencia de las solicitudes podría indicar que está alcanzando los límites de su instancia aprovisionada. Puede solucionar el problema cambiando la configuración de su productor, por ejemplo, agrupando o escalando su plan para optimizar el rendimiento.
|Velocidad de bytes
|El número medio de bytes enviados por segundo para un tema es una medida de su rendimiento. Si transmite datos regularmente, una caída en el rendimiento puede indicar una anomalía en su instancia Kafka. El plan Event Streams Enterprise comienza con 150 MB por segundo divididos uno a uno entre entrada y salida, y es importante saber cuánto de ese esfuerzo consumes para una planificación eficaz de la capacidad. No supere dos tercios del rendimiento máximo para tener en cuenta el posible impacto de acciones operativas, como actualizaciones internas o modos de fallo (por ejemplo, la pérdida de una zona de disponibilidad).
|Tasa de recuperación
Media de tasa de recuperación
|El número de solicitudes de recuperación por segundo (tasa de recuperación) y el número medio de bytes recuperados por solicitud (media de tasa de recuperación) son indicadores clave del rendimiento de los consumidores de Kafka. Una tasa de recuperación elevada puede ser señal de ineficacia, especialmente en el caso de un número reducido de mensajes, ya que significa que cada vez se reciben datos insuficientes (o incluso inexistentes). La tasa de recuperación y la media de tasa de recuperación se ven afectadas por tres configuraciones: fetch.min.bytes, fetch.max.bytes y fetch.max.wait.ms. Ajuste estos parámetros para lograr la latencia general deseada, minimizando al mismo tiempo el número de solicitudes de recuperación y, potencialmente, la carga en la CPU del intermediario. La monitorización y la optimización de ambas métricas garantiza que se procesan los datos de manera eficiente para las cargas de trabajo actuales y futuras.
|Media de latencia de confirmación
|Esta métrica mide el tiempo medio entre el envío de un registro comprometido y la recepción de la respuesta del commit. Al igual que la media de latencia de solicitudes como métrica de productor, una media de latencia de confirmaciones estable significa que las confirmaciones de desplazamiento se producen de manera oportuna. Una alta latencia de confirmación puede indicar problemas dentro del consumidor que le impiden comprometer offsets rápidamente, lo que impacta directamente en la fiabilidad del proceso de datos. Esto podría provocar un duplicado en el procesamiento de mensajes si un consumidor debe reiniciar y reprocesar mensajes desde un desplazamiento previamente no comprometido. Una alta latencia de confirmación también implica dedicar más tiempo a operaciones administrativas que al procesamiento real de mensajes. Este problema puede provocar atascos de mensajes a la espera de ser procesados, especialmente en entornos de gran volumen.
|Tasa de bytes consumidos
|Se trata de una métrica de consumo que mide el número medio de bytes consumidos por segundo. Similar a la tasa de bytes como métrica productora, esta debería ser una métrica estable y esperada. Un cambio repentino en la tendencia esperada de la tasa de bytes consumidos podría representar un problema con tus aplicaciones. Una tasa baja puede ser una señal de eficiencia en la obtención de datos o de recursos sobreaprovisionados. Una tasa más alta podría sobrepasar la capacidad de procesamiento de los consumidores y, por tanto, requerir escalabilidad, creando más consumidores para equilibrar la carga o cambiando configuraciones de consumidores, como los tamaños de recado.
|Tasa de equilibrio por hora
|El número de reequilibrios de grupo participados por hora. El reequilibrio ocurre cada vez que hay un nuevo consumidor o cuando un consumidor abandona el grupo, lo que provoca un retraso en el procesamiento. Esto sucede porque las particiones se reasignan, lo que hace que los consumidores de Kafka sean menos eficientes si hay muchos reequilibrios por hora. Una tasa de reequilibrio por hora más alta puede deberse a configuraciones erróneas que provoquen un comportamiento inestable del consumidor. Este acto de reequilibrio puede causar un aumento de la latencia y puede provocar que las aplicaciones se bloqueen. Asegúrese de que sus grupos de consumidores sean estables mediante el seguimiento de una tasa de reequilibrio por hora baja y estable.
Las métricas deben cubrir una amplia variedad de aplicaciones y casos de uso. Event Streams en IBM Cloud proporciona un amplio conjunto de métricas que se documentan aquí y proporcionarán más conocimiento útil en función del dominio de su aplicación. Dé el siguiente paso. Obtenga más información sobre Event Streams for IBM Cloud.
Ahora tiene los conocimientos sobre los clientes esenciales de Kafka para monitorizar. Le invitamos a poner en práctica estos puntos y probar la oferta de Kafka totalmente gestionada en IBM Cloud. Para cualquier problema de configuración, consulte la guía de inicio y las preguntas frecuentes.
