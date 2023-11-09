Apache Kafka es una plataforma de transmisión de eventos de alto rendimiento y altamente escalable. Para desbloquear todo el potencial de Kafka, necesita considerar cuidadosamente el diseño de su aplicación. Es muy fácil escribir aplicaciones Kafka que funcionan mal o que acaban topándose con un muro de escalabilidad. Desde 2015, IBM ha proporcionado el servicio IBM Event Streams, que es un servicio Apache Kafka totalmente gestionado que se ejecuta en IBM Cloud. Desde entonces, el servicio ha ayudado a muchos clientes, así como a equipos de IBM, a resolver problemas de escalabilidad y rendimiento con las aplicaciones Kafka que han escrito.
En este artículo se describen algunos de los problemas más comunes de Apache Kafka y se ofrecen algunas recomendaciones para evitar problemas de escalabilidad en sus aplicaciones.
Ciertas operaciones de Kafka funcionan porque el cliente envía datos al intermediario y espera una respuesta. Un viaje completo de ida y vuelta puede tardar diez milisegundos, lo que parece rápido, pero lo limita a un máximo de 100 operaciones por segundo. Por esta razón, se recomienda intentar evitar este tipo de operaciones siempre que sea posible. Afortunadamente, los clientes de Kafka le ofrecen formas de evitar las esperas en estos tiempos de ida y vuelta. Solo necesita asegurarse de que los está aprovechando.
Consejos para maximizar el rendimiento:
Si ha leído lo anterior y ha pensado: "Vaya, ¿eso no hará que mi solicitud sea más compleja?», la respuesta es sí, probablemente sí. Hay un equilibrio entre el rendimiento y la complejidad de las aplicaciones. Lo que hace que el tiempo de ida y vuelta de la red sea un escollo especialmente insidioso es que, una vez alcanzas este límite, puede requerir cambios extensos en la aplicación para lograr mejoras en el rendimiento.
Una característica útil de Kafka es que monitoriza la “actividad” de las aplicaciones y desconecta las que puedan haber fallado. Esto funciona haciendo que el intermediario rastree cuándo cada cliente consumidor realizó la última llamada "sondeo" (la terminología de Kafka para solicitar más mensajes). Si un cliente no hace encuestas con suficiente frecuencia, el intermediario al que está conectado concluye que debe haber fallado y lo desconecta. Esto está diseñado para permitir a los clientes que no están experimentando problemas intervenir y retomar el trabajo del cliente fallido.
Desafortunadamente, con este esquema, el intermediario de Kafka no puede distinguir entre un cliente que tarda mucho tiempo en procesar los mensajes que recibió y un cliente que realmente ha fallado. Consideremos una aplicación consumidora que realiza un bucle: 1) Llama a poll y obtiene un lote de mensajes; o 2) procesa cada mensaje del lote, tardando un segundo en procesar cada mensaje.
Si este consumidor recibe lotes de diez mensajes, el sondeo tardará aproximadamente 10 segundos entre llamadas. Por defecto, Kafka deja pasar hasta 300 segundos (cinco minutos) entre las encuestas antes de desconectar al cliente, por lo que todo funcionaría bien en este caso. Pero, ¿qué sucede en un día realmente ajetreado cuando comienza a acumularse una acumulación de mensajes sobre el tema del que consume la aplicación? En lugar de recibir solo diez mensajes de respuesta de cada llamada de encuesta, su aplicación recibe 500 mensajes (por defecto este es el número máximo de registros que se pueden devolver mediante una llamada a encuesta). Eso resultaría en suficiente tiempo de procesamiento para que Kafka decida que la instancia de aplicación ha fallado y la desconecte. Esto es una mala noticia.
Le encantará saber que puede empeorar. Es posible que se produzca una especie de bucle de feedback. A medida que Kafka comienza a desconectar a los clientes porque no llaman a la encuesta con la frecuencia suficiente, hay menos instancias de la aplicación para procesar mensajes. La probabilidad de que haya una gran acumulación de mensajes sobre el tema aumenta, lo que aumenta la probabilidad de que más clientes reciban grandes lotes de mensajes y tarden demasiado en procesarlos. Con el tiempo, todas las instancias de la aplicación consumidora entran en un ciclo de reinicio y no se realiza ningún trabajo útil.
¿Qué medidas puede tomar para evitar que esto le ocurra?
Volveremos al tema de los fallos de los consumidores más adelante en este artículo, cuando veamos cómo pueden desencadenar el reequilibrio del grupo de consumidores y el efecto disruptivo que esto puede tener.
Bajo el capó, el protocolo utilizado por el consumidor de Kafka para recibir mensajes funciona enviando una solicitud de “búsqueda” a un agente de Kafka. Como parte de esta solicitud, el cliente indica qué debe hacer el intermediario si no hay ningún mensaje que devolver, incluido cuánto tiempo debe esperar el intermediario antes de enviar una respuesta vacía. De forma predeterminada, los consumidores de Kafka indican a los intermediarios que esperen hasta 500 milisegundos (controlados por la configuración del consumidor "fetch.max.wait.ms") para que al menos un byte de datos del mensaje esté disponible (controlado con la configuración “fetch.min.bytes”) .
Esperar 500 milisegundos no parece descabellado, pero si su aplicación tiene consumidores que están mayormente inactivos y se escala a, digamos, 5000 instancias, eso supone potencialmente 2500 solicitudes por segundo que no hacen absolutamente nada. Cada una de estas solicitudes requiere tiempo de CPU en el intermediario para procesarse y, en el extremo, puede afectar el rendimiento y la estabilidad de los clientes de Kafka que desean realizar un trabajo útil.
Normalmente, el enfoque de Kafka para escalar consiste en añadir más intermediarios y, a continuación, reequilibrar uniformemente las particiones de temas entre todos los intermediarios, tanto los antiguos como los nuevos. Desafortunadamente, este enfoque podría no ser de ayuda si sus clientes bombardean Kafka con solicitudes de recuperación innecesarias. Cada cliente enviará solicitudes de recuperación a todos los intermedarios que lideran una partición de tema de la que el cliente está consumiendo mensajes. Así que es posible que, incluso después de escalar el clúster Kafka y redistribuir particiones, la mayoría de tus clientes estén enviando peticiones de obtención a la mayoría de los brokers.
Entonces, ¿qué puede hacer?
Si llega a Kafka desde un entorno con otros sistemas de publicación–suscripción (por ejemplo, Message Queuing Telemetry Transport, o MQTT para abreviar), entonces podría esperar que los temas de Kafka sean muy ligeros, casi efímeros. No lo son. Kafka se siente mucho más cómodo con un número de temas medido en miles. También se espera que los temas de Kafka tengan una vida relativamente larga. Prácticas como crear un tema para recibir un único mensaje de respuesta y luego eliminar el tema son poco comunes en Kafka y no aprovechan los puntos fuertes de Kafka.
En su lugar, planifique temas de larga duración. Quizás compartan la vida útil de una aplicación o una actividad. También intente limitar el número de temas a cientos o quizás miles. Esto podría requerir adoptar una perspectiva diferente sobre qué mensajes se intercalan sobre un tema en particular.
Una pregunta relacionada que surge a menudo es: "¿Cuántas particiones debe tener mi tema?" Tradicionalmente, el consejo es sobreestimar, porque agregar particiones después de que se haya creado un tema no cambia la partición de los datos existentes sobre el tema (y, por lo tanto, puede afectar a los consumidores que confían en la partición para ofrecer mensajes ordenados dentro de una partición). Este es un buen consejo; sin embargo, nos gustaría sugerir algunas consideraciones adicionales:
La mayoría de las aplicaciones Kafka que consumen mensajes aprovechan las capacidades del grupo de consumidores de Kafka para coordinar qué clientes consumen desde qué particiones de temas. Si su recuerdo de los grupos de consumidores es un poco confuso, aquí tiene un breve repaso de los puntos clave:
A medida que Kafka ha ido madurando, se han ideado (y siguen ideándose) algoritmos de reequilibrio cada vez más sofisticados. En las primeras versiones de Kafka, cuando un grupo de consumidores se reequilibraba, todos los clientes del grupo tenían que dejar de consumir, las particiones temáticas se redistribuían entre los nuevos miembros del grupo y todos los clientes volvían a consumir. Este enfoque tiene dos inconvenientes (no te preocupes, se han mejorado desde entonces):
Los algoritmos de reequilibrio más recientes han realizado mejoras significativas, para utilizar la terminología de Kafka, añadiendo "adherencia" y "cooperación":
A pesar de estas mejoras en los algoritmos de reequilibrio más recientes, si sus aplicaciones están sujetas con frecuencia a reequilibrios de grupos de consumidores, seguirá viendo un impacto en el rendimiento general de la mensajería y desperdiciando ancho de banda de red a medida que los clientes descartan y recuperan datos de mensajes almacenados en búfer. Estas son algunas sugerencias sobre lo que puede hacer:
Boletín del sector
Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Ahora es un experto en escalar las aplicaciones de Kafka. Le invitamos a poner en práctica estos puntos y probar la oferta de Kafka totalmente gestionada en IBM Cloud. Para cualquier dificultad en la configuración, consulte la Guía de inicio y las preguntas más frecuentes.
Event Streams ofrece un servicio Apache Kafka totalmente gestionado, que garantiza durabilidad, alta disponibilidad, seguridad y cumplimiento para que pueda centrarse en tareas de valor añadido, como la creación de aplicaciones.
Trabaje con todas las API y clientes estándar de Kafka en una instancia de Event Streams para disfrutar de una experiencia Kafka nativa.
Event Streams está distribuido en 3 zonas y se implementa en 10 regiones multizona, lo que le confiere una alta disponibilidad. Puede habilitar la recuperación ante desastres con funciones avanzadas de seguridad y georreplicación.
Únase a este grupo en línea para comunicarse entre usuarios de productos IBM y expertos, compartiendo consejos y buenas prácticas con sus compañeros.
"Event Streams en IBM Cloud es fundamental en todo lo que desarrollamos". Viktor Nilsson, director de tecnología (CTO), SiB Solutions
IBM® Event Streams es un software de transmisión de eventos basado en Apache Kafka de código abierto. Está disponible como servicio totalmente gestionado en IBM® Cloud o para autoalojamiento.
Desbloquee el potencial empresarial con las soluciones de integración de IBM, conectando aplicaciones y sistemas para acceder a datos críticos de forma rápida y segura.
Desbloquee nuevas capacidades e impulse la agilidad empresarial con los servicios de consultoría de IBM Cloud.
IBM® Event Streams es un software de transmisión de eventos basado en Apache Kafka de código abierto. Está disponible como servicio totalmente gestionado en IBM® Cloud o para autoalojamiento.