Apache Kafka 是受到广泛认可的开源事件存储和流处理平台。它已发展成为数据流事实上的标准，超过 80% 的财富 500 强公司都在使用它。所有主要云供应商都提供托管数据流服务，以满足这一日益增长的需求。
选择托管 Kafka 服务的一个主要优势是将代理和运营指标的责任委托出去，使用户可以只关注应用程序特定的指标。在本文中，产品经理 Uche Nwankwo 提供了关于一系列生产者和消费者指标的指导，客户应监控这些指标以实现最佳性能。
使用 Kafka 时，监控通常涉及与主题、分区、代理和消费者组相关的各种指标。标准的 Kafka 指标包括吞吐量、延迟、复制和磁盘使用情况的信息。请参阅 Kafka 文档和相关的监控工具，了解适用于您的 Kafka 版本的具体指标以及如何有效地解读这些指标。
监控您的 IBM Event Streams for IBM Cloud 实例对于确保数据管道的最佳功能和整体运行状况至关重要。监控 Kafka 客户端有助于及早发现应用程序故障的迹象，例如资源使用率高、消费者滞后和瓶颈。及早发现这些预警信号能够主动应对潜在问题，最大限度地减少停机时间，并防止业务运营中断。
Kafka 客户端（生产者和消费者）有自己的一套指标来监控其性能和运行状况。此外，Event Streams 服务支持服务器生成的一系列丰富指标。有关更多信息，请参阅使用 IBM Cloud Monitoring 监控 Event Streams 指标。
|记录错误率
|该指标衡量每秒发送的导致错误的平均记录数量。记录错误率过高（或增加）可能表明数据丢失或数据未按预期得到处理。所有这些影响都可能会损害您在 Kafka 中处理和存储的数据的完整性。监控该指标有助于确保生产者发送的数据能够准确可靠地记录在 Kafka 主题中。
|平均请求延迟
|这是每个生产请求的平均延迟时间，以毫秒为单位。延迟增加会影响性能，并可能预示着存在问题。测量平均请求延迟指标有助于识别实例中的瓶颈。对于许多应用程序而言，低延迟对于确保高质量的用户体验至关重要，而平均请求延迟的飙升可能表明您已达到所配置实例的极限。您可以通过更改生产者设置来解决此问题，例如通过批处理或扩展计划来优化性能。
|字节速率
|主题每秒发送的平均字节数是吞吐量的衡量标准。如果您定期传输数据，吞吐量下降可能表明您的 Kafka 实例存在异常。Event Streams 企业版计划的起步流量为每秒 150MB，进出流量按 1:1 的比例分配，因此了解您消耗了多少流量对于有效的容量规划至关重要。不要超过最大吞吐量的三分之二，以考虑内部更新或故障模式（如可用性区域丢失）等操作行为可能产生的影响。
|获取率
平均获取字节数
|每秒获取请求数 (fetch-rate) 和每次请求获取的平均字节数 (fetch-size-avg) 是衡量 Kafka 消费者性能的关键指标。fetch-rate 过高可能意味着效率低下，尤其是在信息数量较少的情况下，因为这意味着每次接收到的数据不足（可能没有）。fetch-rate 和 fetch-size-avg 受三个设置的影响：fetch.min.bytes、fetch.max.bytes 和 fetch.max.wait.ms。调整这些设置，以达到所需的整体延迟，同时最大限度地减少获取请求的数量和对代理 CPU 的潜在负载。监控和优化这两个指标可确保您高效地处理当前和未来的工作量数据。
|平均提交延迟
|该指标衡量提交记录发送与收到提交响应之间的平均耗时。类似于作为生产者指标的平均请求延迟，稳定的平均提交延迟意味着您的偏移提交是及时发生的。高提交延迟可能表明消费者内部存在问题，导致其无法快速提交偏移量，从而直接影响数据处理的可靠性。如果消费者必须重启并重新处理之前未提交的偏移量的消息，可能会导致消息处理重复。高提交延迟也意味着在管理操作上花费的时间比实际消息处理的时间更多。该问题可能会导致等待处理的消息积压，尤其是在大容量环境中。
|字节消耗速率
|这是一个消费者获取指标，用于衡量每秒消耗的平均字节数。类似于作为生产者指标的字节速率，这应该是一个稳定且可预期的指标。字节消耗速率预期趋势的突然变化可能表明您的应用程序存在问题。低速率可能表明数据获取效率高或资源过度配置。较高的速率可能会超出消费者的处理能力，因此需要进行扩展，创建更多消费者来平衡负载或改变消费者配置，例如获取规模。
|每小时重新平衡率
|每小时参与的群组重新平衡次数。每当有新的使用者加入或使用者离开群组时，都会发生重新平衡，从而导致处理延迟。这是因为如果每小时进行大量的重新平衡，则会重新分配分区，从而降低 Kafka 使用者的效率。错误配置会导致每小时重新平衡率较高，从而导致使用者行为不稳定。这种重新平衡行为会导致延迟增加，并可能导致应用程序崩溃。通过跟踪较低且稳定的每小时重新平衡率，确保使用者群组的稳定。
该指标应涵盖各种应用程序和用例。IBM Cloud 上的 Event Streams 提供了此处记录的一组丰富的指标，并将根据您的应用程序领域提供更多有用的洞察分析。
IBM® Event Streams 是基于开源 Apache Kafka 构建的事件流软件，采用两种形式：IBM® Cloud 上的完全托管服务或自托管。
