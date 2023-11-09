Apache Kafka 是一个高性能、高可扩展性的事件流平台。要充分释放 Kafka 的潜力，您需要审慎规划应用程序的设计。编写性能低下或最终遭遇可扩展性瓶颈的 Kafka 应用程序实在太容易了。自 2015 年起，IBM 提供了 IBM Event Streams 服务——这是在 IBM Cloud 上运行的完全托管的 Apache Kafka 服务。自此，该服务已帮助众多客户及 IBM 内部团队解决了他们编写的 Kafka 应用程序存在的可扩展性与性能问题。

本文阐述了 Apache Kafka 的一些常见问题，并就如何避免应用程序遭遇可扩展性难题提供了建议。

1. 最大限度减少网络往返等待时间

某些 Kafka 操作需要通过客户端向代理发送数据并等待响应来完成。一次完整的往返可能耗时 10 毫秒，这听起来很快，但会将吞吐量限制在每秒最多 100 次操作。因此，建议您尽量避免此类操作。幸运的是，Kafka 客户端提供了避免等待这些往返时间的方法。您只需确保充分利用这些功能。

提升吞吐量的技巧：

无需检查每条消息是否发送成功。Kafka API 允许您将发送消息与确认消息是否被代理成功接收这两个操作解耦。等待消息接收确认会给应用程序引入网络往返延迟，因此应尽可能减少此类操作。这意味着可以在发送尽可能多的消息之后，再统一检查确认这些消息是否已被接收。或者，也可以将消息成功送达的检查任务委托给应用程序内的另一个执行线程，使其与您继续发送更多消息的操作并行运行。 不要在处理每条消息后立即提交偏移量。（同步）提交偏移量是通过与服务器进行网络往返来实现的。您可以选择降低提交偏移量的频率，或使用异步偏移量提交功能，以避免为每条已处理消息付出这种往返开销。但请注意，降低提交偏移量的频率可能意味着当应用程序发生故障时，会有更多数据需要重新处理。

如果您读完上述内容后心想：“糟糕，这会不会让我的应用程序更复杂？”——答案是肯定的，很可能会。在吞吐量和应用程序复杂度之间需要做出权衡。网络往返时间之所以成为一个特别隐蔽的陷阱，是因为一旦触及此限制，可能需要对应用程序进行深度修改才能进一步提升吞吐量。

2. 避免让处理时间增加被误判为消费者故障

Kafka 的一项实用功能是监控消费应用程序的“活跃度”，并断开那些可能已发生故障的客户端连接。其实现机制是：代理会跟踪每个消费客户端最后一次调用“poll”（Kafka 中用于获取更多消息的术语）的时间。如果某个客户端调用 poll 不够频繁，与其连接的代理就会判定该客户端必定已发生故障，随即断开其连接。这样设计的目的是让未出现问题的客户端能够介入，接手故障客户端的工作。

遗憾的是，在这种机制下，Kafka 代理无法区分一个客户端是在花费较长时间处理已接收的消息，还是确实已发生故障。假设某个消费应用程序按以下流程循环：1）调用 poll 并获取一批消息；2）处理该批次中的每条消息，每条消息耗时 1 秒。

若该消费者每次接收 10 条消息的批次，那么两次调用 poll 的间隔将约为 10 秒。默认情况下，Kafka 允许 poll 调用间隔最长为 300 秒（5 分钟）才会断开客户端连接，因此在此场景下一切运行正常。但如果遇到业务高峰日，当应用程序消费的主题开始堆积消息积压时，会发生什么情况呢？此时应用程序每次调用 poll 可能获取的不是 10 条消息，而是 500 条消息（默认情况下这是单次 poll 调用可返回的最大记录数）。这将导致处理时间过长，使得 Kafka 判定该应用程序实例已失效并断开其连接。这种情况非常不利。

而更糟糕的是，还可能形成一种反馈循环。当 Kafka 因客户端调用 poll 频率不足而开始断开连接时，处理消息的应用程序实例数量就会减少。这进一步增加了主题上消息大量积压的可能性，从而导致更多客户端更有可能获取到大批量消息并因处理超时被断开连接。最终，所有消费应用程序实例都会陷入重启循环，无法完成任何有效工作。

您可以采取哪些措施来避免这种情况发生？

通过 Kafka 消费者的“max.poll.interval.ms”配置参数，可以调整 poll 调用之间的最长时间间隔。同时，通过“max.poll.records”配置参数，也能调整单次 poll 调用可返回的最大消息数量。作为通用准则，建议优先考虑降低“max.poll.records”的数值，而非延长“max.poll.interval.ms”的时长因为设置过长的最大轮询间隔会使 Kafka 需要更长时间才能识别出真正发生故障的消费者。 Kafka 消费者还可被设置为暂停与恢复消息流的状态。暂停消费能阻止 poll 方法返回任何消息，同时仍会重置用于判断客户端是否失效的计时器。如果您同时面临以下两种情况：a) 预计单条消息可能需要长时间处理；b) 希望 Kafka 能在处理单条消息过程中检测客户端故障，那么暂停与恢复机制将是一种有效的策略。 切勿忽视 Kafka 客户端指标的重要价值。指标这个主题本身足以构成独立文章，但在此背景下需要特别关注：消费者会暴露 poll 调用间隔的平均时长与最大时长指标。监控这些指标有助于识别因下游系统问题导致从 Kafka 接收的每条消息处理时间异常的情况。

我们将在本文后续讨论消费者故障的议题，重点分析其如何引发消费者组重平衡及其可能造成的系统紊乱。

3. 最大限度降低闲置消费者的成本

深入了解 Kafka 消费者接收消息的底层协议通过向 Kafka 代理发送“获取”请求实现。在该请求中，客户端会指定当代理没有可用消息时的处理方式，包括代理在返回空响应前应等待的时长。默认情况下，Kafka 消费者会指示代理最多等待 500 毫秒（由“fetch.max.wait.ms”消费者配置项控制），以获取至少 1 字节的消息数据（由“fetch.min.bytes”配置项控制）。

500 毫秒的等待时间看似合理，但如果应用程序中存在大量处于空闲状态的消费者实例（例如扩展到 5000 个实例），则每秒可能产生 2500 次无效请求。每个这样的请求都会消耗代理的 CPU 处理资源，极端情况下可能影响那些正在处理实际业务的 Kafka 客户端的性能与稳定性。

通常 Kafka 的扩展方案是增加代理，然后在所有新旧代理间均衡重分布主题分区。但若客户端持续向 Kafka 发送无效获取请求，这种扩展方案可能无法解决问题。每个客户端都会向其所消费主题分区的领导代理发送获取请求。因此即使扩展了 Kafka 集群并重新分布分区，大多数客户端仍会向绝大多数代理发送获取请求。

那么，该如何应对呢？

调整 Kafka 消费者配置有助于缓解此问题。若希望消息到达后立即被接收，“fetch.min.bytes”需保持默认值 1；但可将“fetch.max.wait.ms”设置为更大数值，此举将有效减少空闲消费者产生的请求数量。 从更宏观视角审视：您的应用是否真需要部署数千个实例，且每个实例都极少从 Kafka 消费消息？这样做或许有充分理由，但或许可以通过架构优化来提升 Kafka 使用效率。我们将在下一节探讨相关设计思路。

4. 合理规划主题与分区数量

若您从其他发布-订阅系统（例如 MQTT）转向 Kafka，可能会误以为 Kafka 主题是极度轻量级、近乎瞬时的存在。但事实并非如此。Kafka 更擅长处理以千为量级的主题数目，且预期主题具有相对长期的生命周期。诸如创建主题仅用于接收单条回复消息随后立即删除的做法，在 Kafka 生态中并不常见，也无法充分发挥 Kafka 的优势。

因此，应规划具有长期存续周期的主题。这些主题的生命周期可能与某个应用程序或业务活动同步。同时要将主题数量控制在数百或至多数千的量级。这可能需要以不同视角来审视哪些消息应交织在特定主题中。

经常出现的相关问题是：“我的主题应设置多少个分区？”传统建议是预留充足余量，因为主题创建后增加分区不会改变主题上现有数据的分区分布（从而可能影响依赖分区机制实现分区内消息顺序处理的消费者）。这是很好的建议；但我们还想补充几点考量：

对于预期吞吐量达 MB/秒级别，或可能随应用程序扩展而增长的主题，我们强烈建议设置多个分区，以便将负载分散到多个代理。Event Streams 服务始终以 3 的倍数个代理运行 Kafka。截至本文撰写时，该服务最多支持 9 个代理，但未来可能会进一步提升。如果您将主题分区数设为 3 的倍数，则分区可以均匀分布在所有代理上。 主题的分区数量决定了 Kafka 消费者组能有效共享该主题消息的消费者实例上限（后续将详细探讨消费者组）。如果向消费者组添加的消费者数量超过主题的分区数，超出部分的消费者将处于闲置状态，无法消费消息数据。 采用单分区主题本身并无不妥，只要您能完全确定该主题永远不会承受显著的消息流量，或者不依赖主题内的消息顺序，并且愿意在后续需要时增加分区。

5. 消费者组重新平衡可能带来惊人的破坏性

大多数消费消息的 Kafka 应用程序会利用消费者组功能来协调客户端与主题分区的对应关系。若您对消费者组的记忆有些模糊，以下是要点回顾：

消费者组会协调一组 Kafka 客户端，确保在任意时刻仅有一个客户端从特定主题分区接收消息。当需要将主题消息分发给应用程序的多个实例时，这种机制非常实用。

当 Kafka 客户端加入消费者组，或离开其已加入的消费者组时，就会触发消费者组重新平衡。通常，客户端在所属应用启动时加入消费者组，在应用程序关闭、重启或崩溃时离开。

当消费者组重新平衡时，主题分区会在组成员间进行重新分配。例如，若有新客户端加入组，原有部分客户端的分区可能会被收回（Kafka 术语中称为“撤销”）并分配给新成员。反之亦然：当客户端离开组时，原分配给它的主题分区会重新分配给剩余成员。

随着 Kafka 的成熟，日益精密的重新平衡算法已经（并持续）被设计出来。在 Kafka 早期版本中，当消费者组重新平衡时，组内所有客户端都必须停止消息消费，待主题分区在组内新成员间重新分配后，所有客户端才能重新开始消费。这种方式存在两个缺陷（请放心，这些问题现已得到改进）：

重新平衡过程中，组内所有客户端都会停止消息消费。这对吞吐量会造成明显影响。 Kafka 客户端通常会维护待交付消息的缓冲区，并在缓冲区清空前就从代理预取更多消息。这样设计的目的是避免在从 Kafka 代理获取更多消息时造成应用层消息交付停滞（是的，正如本文前面所述，Kafka 客户端也致力于避免网络往返等待）。但遗憾的是，当重新平衡导致分区被撤销时，该分区所有缓冲数据都将被丢弃。同理，当重新平衡将新分区分配给客户端时，该客户端会从该分区最后提交的偏移量开始缓冲数据，这可能引发从代理到客户端的网络吞吐量激增。这种现象的根源在于：新分配该分区的客户端会重新读取那些曾被原持有客户端缓冲过的消息数据。

最新版本的重新平衡算法通过引入“粘滞性”与“协同机制”（沿用 Kafka 术语）实现了重大改进：

“粘滞性”算法致力于确保在重新平衡后，尽可能多的组成员能保留其在重新平衡前所持有的分区。这能最大限度地减少重新平衡发生时需要被丢弃或从 Kafka 重新读取的缓冲消息数据量。

“协同式”算法允许客户端在重新平衡过程中持续消费消息。当客户端在重新平衡前已被分配某个分区，且在重新平衡后仍保留该分区时，该客户端可以持续消费未被重新平衡中断的分区。这与“粘滞性”形成协同效应——后者正是为了确保分区持续分配给同一客户端而设计。

尽管最新重新平衡算法已实现这些增强，但如果您的应用频繁经历消费者组重新平衡，仍会对整体消息吞吐量造成影响，且会因客户端丢弃和重新获取缓冲消息数据而浪费网络带宽。以下是一些可行的改进建议：