gpt4 book ai didi

java - Kafka Producer NetworkException 和超时异常

转载 作者:搜寻专家 更新时间:2023-10-30 21:06:42 25 4
gpt4 key购买 nike

我们在生产环境中遇到随机的 NetworkExceptionsTimeoutExceptions:

Brokers: 3
Zookeepers: 3
Servers: 3
Kafka: 0.10.0.1
Zookeeeper: 3.4.3

我们偶尔会在我的生产者日志中收到此异常:

Expiring 10 record(s) for TOPIC:XXXXXX: 5608 ms has passed since batch creation plus linger time.

此类错误消息中的毫秒数不断变化。有时是 ~5 秒,有时是 ~13 秒!

我们很少得到:

NetworkException: Server disconnected before response received. 

集群由 3 broker3 zookeeper 组成。生产者服务器和 Kafka 集群在同一个网络中。

我正在进行同步 调用。有一个 Web 服务,多个用户请求调用该 Web 服务来发送他们的数据。 Kafka 网络服务有一个生产者对象来完成所有的发送。生产者的请求超时最初是 1000 毫秒,现在已更改为 15000 毫秒(15 秒)。即使在增加超时期限后,TimeoutExceptions 仍会出现在错误日志中。

可能是什么原因?

最佳答案

找到根本原因有点棘手,我会把我的经验放在这上面,希望有人会发现它有用。通常,这可能是网络问题或与 ack=ALL 相结合的过多网络泛滥。这里的图表解释了 Kafka KIP-91 中的 TimeoutException在撰写本文时(直到 1.1.0 仍然适用):

enter image description here

排除网络配置问题或错误,您可以根据您的情况调整这些属性以缓解或解决问题:

  • buffer.memory 控制生产者可用于缓冲的总内存。如果记录的发送速度快于它们可以传输到 Kafka 的速度,那么这个缓冲区将被超出,然后额外的发送调用阻塞到 ma​​x.block.ms 然后生产者抛出一个 TimeoutException.

  • ma​​x.block.ms 已经是一个很高的值,我不建议进一步增加它。 buffer.memory 的默认值为 32MB,根据您的邮件大小,您可能需要增加它;如有必要,增加 jvm 堆空间。

  • Retries 定义在发生错误的情况下在放弃之前尝试重新发送记录的次数。如果您使用零重试,您可以尝试通过增加此值来缓解问题,注意记录顺序不再保证,除非您将 ma​​x.in.flight.requests.per.connection 设置为 1。

  • 一旦达到批量大小或延迟时间已过,将立即发送记录,以先到者为准。如果 batch.size(默认 16kb)小于最大请求大小,也许您应该使用更高的值。此外,将 linger.ms 更改为更高的值,例如 10、50 或 100,以优化批处理和压缩的使用。如果您正在使用它,这将减少网络中的洪水并优化压缩。

对于此类问题没有确切的答案,因为它们还取决于实现,在我的案例中,尝试上述值会有所帮助。

关于java - Kafka Producer NetworkException 和超时异常,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47142807/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com