O Apache Kafka é uma plataforma de armazenar eventos e processamento de fluxo de código aberto amplamente reconhecida. Ele evoluiu para o padrão de fato para o fluxo de dados, já que mais de 80% das empresas no ranking Fortune 500 o usam. Todos os principais provedores de nuvem oferecem serviços de fluxo de dados gerenciados para atender a essa crescente demanda.
Uma das principais vantagens de optar pelos serviços gerenciados do Kafka é a delegação de responsabilidade pelas métricas operacionais e de brokers, permitindo que os usuários se concentrem somente nas métricas específicas das aplicações. Neste artigo, o Gerente de Produtos Uche Nwankwo fornece orientações sobre um conjunto de métricas de produtores e consumidores que os clientes devem monitorar para obter o desempenho ideal.
Com o Kafka, o monitoramento normalmente envolve várias métricas relacionadas a tópicos, partições, brokers e grupos de consumidores. As métricas Standard do Kafka incluem informações sobre rendimento, latência, replicação e uso de disco. Consulte a documentação do Kafka e as ferramentas de monitoramento relevantes para entender as métricas específicas disponíveis para sua versão do Kafka e como interpretá-las de forma eficaz.
Monitorar sua instância do IBM Event Streams for IBM Cloud é crucial para garantir a funcionalidade ideal e a integridade geral do seu pipeline de dados. O monitoramento de seus clientes do Kafka ajuda a identificar os primeiros sinais de falha de aplicação, como alto uso de Recursos e consumidores atrasados e gargalos. A identificação antecipada desses sinais de alerta permite a resposta proativa a possíveis problemas que minimizam o downtime e evitam qualquer interrupção nas operações.
Os clientes do Kafka (produtores e consumidores) têm seu próprio conjunto de métricas para monitorar seu desempenho e integridade. Além disso, o serviço Event Streams é compatível com um vasto conjunto de métricas produzidas pelo servidor. Para obter mais informações, consulte Monitoramento de métricas do Event Streams usando o IBM Cloud Monitoring.
|Record-error-rate
|Essa métrica mede o número médio por segundo de registros enviados que resultaram em erros. Uma alta (ou um aumento) taxa de erro de registro pode indicar uma perda de dados ou dados não sendo processados conforme o esperado. Todos esses efeitos podem comprometer a integridade dos dados que você está processando e armazenando no Kafka. O monitoramento dessa métrica ajuda a garantir que os dados enviados pelos produtores sejam registrados de forma precisa e confiável nos tópicos do Kafka.
|Request-latency-avg
|Esta é a latência média para cada solicitação de produção em ms. Um aumento na latência afeta o desempenho e pode sinalizar um problema. Medir a métrica de latência de solicitação média pode ajudar a identificar gargalos em sua instância. Para muitas aplicações, a baixa latência é crucial para garantir uma experiência de alta qualidade ao usuário, e um pico na média de latência de solicitações pode indicar que você está atingindo os limites da instância provisionada. Você pode corrigir o problema alterando as configurações do produtor, por exemplo, agrupando em lote ou escalando seu plano para otimizar o desempenho.
|Byte-rate
|O número médio de bytes enviados por segundo para um tópico é uma medida de sua taxa de transferência. Se você transmite dados regularmente, uma queda na taxa de transferência pode indicar uma anomalia em sua instância do Kafka. O plano Event Streams Enterprise começa com 150 MB por segundo divididos um-para-um entre entrada e saída, e é importante saber quanto você está consumindo para um planejamento de capacidade eficaz. Não ultrapasse dois terços da taxa de transferência máxima para levar em conta o possível impacto de ações operacionais, como atualizações internas ou modos de falha (por exemplo, a perda de uma zona de disponibilidade).
|Fetch-rate
fetch-size-avg
|O número de solicitações de busca por segundo (fetch-rate) e o número médio de bytes buscados por solicitação (fetch-size-avg) são indicadores-chave para o desempenho de seus consumidores do Kafka. Uma alta taxa de busca pode sinalizar ineficiência, especialmente em um pequeno número de mensagens, pois significa que dados insuficientes (possivelmente nenhum) estão sendo recebidos a cada vez. A taxa de busca e a média de tamanho de busca são afetadas por três configurações: fetch.min.bytes, fetch.max.bytes e fetch.max.wait.ms. Ajuste essas configurações para alcançar a latência geral desejada, minimizando o número de solicitações de busca e, possivelmente, a carga na CPU do broker. Monitorar e otimizar ambas as métricas garante que você esteja processando dados de forma eficiente para cargas de trabalho atuais e futuras.
|Commit-latency-avg
|Essa métrica mede o tempo médio entre o envio de um registro confirmado e o recebimento da resposta de confirmação. Semelhante à média de latência de solicitação como uma métrica produtora, uma média de latência de confirmação estável significa que seus compromissos de compensação ocorrem em tempo hábil. Uma alta latência de comprometimento pode indicar problemas no consumidor que o impedem de comprometer compensações rapidamente, o que impacta diretamente a confiabilidade do processamento de dados. Isso pode levar ao processamento duplicado de mensagens se um consumidor precisar reiniciar e reprocessar mensagens de um deslocamento não confirmado anteriormente. Uma latência de alto comprometimento também significa gastar mais tempo em operações administrativas do que o processamento real de mensagens. Esse problema pode levar a atrasos de mensagens esperando para serem processadas, especialmente em ambientes de alto volume.
|Bytes-consumed-rate
|Essa é uma métrica de busca do consumidor que mede o número médio de bytes consumidos por segundo. Semelhante à taxa de bytes como métrica do produtor, essa deve ser uma métrica estável e esperada. Uma mudança repentina na tendência esperada da taxa de bytes consumidos pode representar um problema com suas aplicações. Uma taxa baixa pode ser um sinal de eficiência nas buscas de dados ou recursos superprovisionados. Uma taxa mais alta pode sobrecarregar os recursos dos consumidores e, portanto, requer escalonamento, criando mais consumidores para equilibrar a carga ou alterando as configurações do consumidor, como tamanhos de busca.
|Rebalance-rate-per-hour
|O número de reequilíbrios do grupo participados por hora. O reequilíbrio ocorre toda vez que há um novo consumidor ou quando um consumidor deixa o grupo e causa um atraso no processamento. Isso acontece porque as partições são reatribuídas, tornando os consumidores do Kafka menos eficientes se houver muitos reequilíbrios por hora. Uma taxa de reequilíbrio mais alta por hora pode ser causada por configurações incorretas que levam a um comportamento instável do consumidor. Esse ato de reequilíbrio pode causar um aumento na latência e pode resultar na falha das aplicações. Garanta que seus grupos de consumidores estejam estáveis monitorando uma taxa de reequilíbrio por hora baixa e estável.
As métricas devem abranger uma ampla variedade de aplicações e casos de uso. O Event Streams no IBM Cloud fornece um vasto conjunto de métricas que são documentadas aqui e fornecerá insights úteis adicionais, dependendo do domínio da sua aplicação. Dê o próximo passo. Saiba mais sobre Event Streams para IBM Cloud.
Agora você tem o conhecimento dos clientes essenciais do Kafka a serem monitorados. Você está convidado a colocar esses pontos em prática e experimentar a oferta totalmente gerenciada do Kafka no IBM Cloud. Para quaisquer desafios na configuração, consulte o Guia de Introdução e as Perguntas Frequentes.
O Event Streams oferece um serviço do Apache Kafka totalmente gerenciado, garantindo durabilidade, alta disponibilidade, segurança e conformidade para você poder se dedicar a tarefas de valor agregado, como o desenvolvimento de aplicações.
Trabalhe com todas as APIs e clientes padrão do Kafka em uma instância do Event Streams para ter uma experiência nativa do Kafka.
O Event Streams está distribuído em 3 zonas e implementado em 10 regiões de várias zonas, tornando-o altamente disponível. Você pode habilitar a recuperação de desastres com recursos avançados de segurança e replicação geográfica.
