java - 为什么在记录、生产者和消费者数量不变的 Kafka 经纪人中 GC 时间会增加？-6ren

java - 为什么在记录、生产者和消费者数量不变的 Kafka 经纪人中 GC 时间会增加？

转载作者：行者123 更新时间：2023-11-30 10:08:03

25

4

我使用的是 Kafka 2.1.0。

我们有一个包含 5 个代理(r5.xlarge 机器)的 Kafka 集群。我们经常观察到 GC 时间增加太多，而传入消息的速率没有任何变化，严重影响了集群的性能。现在，我不明白是什么导致 GC 时间突然增加。

我已经尝试了一些改进很少的东西，但我并不真正理解它们背后的原因。

export KAFKA_HEAP_OPTS="-Xmx10G -Xms1G"
export KAFKA_JVM_PERFORMANCE_OPTS="-XX:MetaspaceSize=96m -XX:+UseG1GC -XX:MaxGCPauseMillis=20 -XX:InitiatingHeapOccupancyPercent=35 -XX:G1HeapRegionSize=16M -XX:MinMetaspaceFreeRatio=50 -XX:MaxMetaspaceFreeRatio=80"

我想了解在 Kafka 代理中调整 GC 时最重要的参数。看到上面的配置，我哪里错了？可以做些什么来纠正这个问题？

所有生产者和消费者都工作正常，传入消息的速率保持相当稳定。到目前为止，我们还没有弄清楚 GC 时间突然增加背后的任何模式，这似乎是随机的。

更新

经过进一步分析，发现每秒的数据量确实有所增加。其中一个主题将消息输入从大约 10 KBps 增加到 200 KBps。但我相信 Kafka 可以轻松处理这么多数据。

有什么我想念的吗？？

Grafana 快照

最佳答案

我会首先查看问题是否是其他而不是 GC 调整问题。这里有几种可能性:

硬内存泄漏会导致 GC 时间增加。 GC 完成的工作主要是通过跟踪和复制可达对象来完成的。如果存在泄漏，那么越来越多的对象将(错误地)可达。
保持太多对象可访问的缓存也会增加 GC 时间。
过度使用引用类型、终结器等可能会增加 GC 时间。

我将启用 GC 日志记录，并查找 GC 报告的内存和空间使用模式。如果您怀疑内存泄漏是因为从长远来看内存利用率呈上升趋势，请转到下一步并使用内存配置文件来追踪泄漏。

无论哪种方式，在尝试解决问题之前了解导致问题的原因都很重要。

After some further analysis, it turns out there was indeed some increase in the amount of data per sec. One of the topics had increased message input from around 10 KBps to 200 KBps. But I believed that Kafka could easily handle this much of data.

很有可能。然而，吞吐量增加 20 倍将不可避免地导致更多对象被创建和丢弃……并且 GC 将需要更频繁地运行来处理这个问题。

How come just 200 Kbps of data divided among 5 brokers was able to break GC.

是什么让您认为您已经“破坏”了 GC？ GC 中 15% 的时间并不意味着它已损坏。

现在，我可以想象 GC 可能难以达到您的 20 毫秒最大暂停时间目标，并且可能因此触发偶尔的完整 GC。您的暂停时间目标是“雄心勃勃的”，尤其是当堆可能增长到 10GB 时。我会建议减小堆大小、增加暂停时间目标和/或增加 JVM 可用的物理内核数量。

By breaking I mean an increased delay in committing offsets and other producer and consumer offsets.

所以...您只是担心负载增加 20 倍会导致 GC 使用高达 15% 的可用 CPU。好吧，那没有坏。这是(IMO)预期的。垃圾收集器并不神奇。它需要使用 CPU 时间来完成它的工作。它要做的工作越多，它需要使用的 CPU 就越多。如果您的应用程序的工作负载涉及大量对象分配，则 GC 必须处理。

除了上述调优思路外，我怀疑您应该将 G1HeapRegionSize 大小设置得更小。根据"Garbage First Garbage Collector Tuning"根据 Monica Beckwith，默认情况下根据最小堆大小有 2048 个区域。但是你的设置会给 1G/16M == 64 个初始区域。

最后，如果您的总体目标是降低 GC 的 CPU 使用率，那么您应该使用 Throughput GC，而不是 G1GC。这将最小化 GC 开销。缺点是 GC 暂停最小化不再是目标，因此偶尔会出现长时间的暂停。

如果你打算继续使用 G1GC，建议使用最新版本的 Java；即 Java 11。(参见 "G1 Garbage Collector is mature in Java 9, finally")

关于java - 为什么在记录、生产者和消费者数量不变的 Kafka 经纪人中 GC 时间会增加？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53959607/

25

4

0

文章推荐： swift - 如何在 PFImageView 中显示本地 JPG 图像

文章推荐： Swift - 约束关联类型时出现编译错误

文章推荐： swift - 将 xcode 6 转换为 7 时出错

文章推荐： java - 如何检查堆栈的子堆栈？

kafka的Java客户端-消费者
kafka的Java客户端-消费者一、kafka消费方式 pull（拉）模式：consumer采用从broker中主动拉取数据。Kafka 采用这种方式 push（推）模式：Kafka没有采用这种方
具有多线程的Python生产者/消费者
我编写这个小应用程序是为了解决 Python 中的经典生产者/消费者问题。我知道我可以使用线程安全的队列机制来解决这个问题，但我有兴趣自己解决这个问题来学习。 from threading impor
消费者/生产者程序卡住了
下面是一个示例消费者/生产者模型的代码: int buffer[MAX]; int fill_ptr = 0; int use_ptr = 0; int count = 3; void put(int
消费者-生产者问题
我的消费者、生产者程序有问题，它似乎可以加载，但返回段错误。我已经尝试了一切来修复它，但仍然失败!将不胜感激任何帮助。笔记;代码真的很多，semaphore.h的代码都在里面，有谁想测试一下。其余代码
填充所有缓冲区的算法生产者-消费者
我正在阅读著名的操作系统概念书(Avi Silberschatz、Peter Baer Galvin、Greg Gagne)第 9 版:http://codex.cs.yale.edu/avi/os-
c# - 具有节流持续时间和批量消费的异步生产者/消费者
我正在尝试构建一个服务，为许多异步客户端提供队列以发出请求并等待响应。我需要能够通过每 Y 个持续时间的 X 个请求来限制队列处理。例如:每秒 50 个 Web 请求。它用于第 3 方 REST 服务
c# - 拥有资源的生产者-消费者
我正在尝试使用一组资源来实现生产者/消费者模式，因此每个线程都有一个与之关联的资源。例如，我可能有一个任务队列，其中每个任务都需要一个 StreamWriter写出它的结果。每个任务还必须有参数传
Azure Eventhub 消费者
为什么我们需要 Azure 存储帐户上的 blob 容器用于 Eventhub 消费者客户端(我使用的是 python)。为什么我们不能像在 Kafka 中那样直接使用来自 Eventhub(Kafk
java - 区间分区的生产者-消费者
我有一个有趣的生产者-消费者衍生产品需要实现，但我无法理解它的算法。因此，每个生产者都会“产生”给定范围(最小值，最大值)之间的数字，这对除以给定“商”给出了相同的提醒。对于消费者来说也是如此。额外
java - 如何使用自动线程管理在Java中实现生产者/消费者
我需要实现一种生产者/消费者方案，出于性能原因，消费者尝试在一批中处理许多工作项(每个工作项都会耗尽工作队列)。目前，我只是创建固定数量的相同工作人员，它们在循环中的同一队列上工作。由于其中一些可能
Azure Eventhub 消费者
为什么我们需要 Azure 存储帐户上的 blob 容器用于 Eventhub 消费者客户端(我使用的是 python)。为什么我们不能像在 Kafka 中那样直接使用来自 Eventhub(Kafk
java - Java中的复合生产者-消费者
我的关系必须按如下方式运作；线程 A 向线程 B 发布一些更改，线程 B 接受该更改并将其发布到线程 C。问题是生产者-消费者，我使用 BlockingQueue 仅用两个实体来实现它没有问题。我怎
java - 使用java同步理解生产者-消费者
我一直在研究 PC 问题，以了解 Java 同步和线程间通信。使用底部的代码，输出为 Producer produced-0 Producer produced-1 Producer produced
java - 使用同步的生产者-消费者
我编写了代码来实现生产者-消费者问题，它似乎工作正常，不需要同步。这可能吗？如何测试代码并检查它是否确实正常工作？我如何知道是否会发生死锁？现在，我没有跳出循环(即生产者不断插入，消费者不断在无限循
java - java线程生产者-消费者
我必须完成一项练习，我必须使用至少一个生产者线程和 x 个消费者线程的生产者/消费者模式在我的文件夹路径中查找“.java”文件。生产者消费者级:首先，当生产者完成查找文件时，我尝试通过设置从 tr
c - 消费者/生产者任务的解决方案
我被分配了一项类(class)作业来实现消费者/生产者问题的解决方案，该解决方案使用单个生产者、单个消费者和循环缓冲区。这应该用 C 语言编写。不幸的是，我们没有获得任何学习 Material ，并
c - 具有有限缓冲区的生产者/消费者
有人可以检查我的代码并告诉我是否走在正确的轨道上。我似乎有点迷失了。如果您看到我的错误，请告诉我它们。我想做的是使用我自己的信号量以及 GCD 来解决有界缓冲区问题。提前致谢.. sema.c v
消费者-生产者，断言失败
我要处理有界缓冲区、生产者消费者问题，只能修改 prod 和 cons 函数。此代码仅在一个消费者和生产者线程上运行，不会出现任何问题。但对于每个都有多个，迟早总会给我带来同样的问题: p5p1:
c# - 异步生产者/消费者
我有一个从多个线程访问的类的实例。此类接受此调用并将元组添加到数据库中。我需要以串行方式完成此操作，因为由于某些数据库约束，并行线程可能会导致数据库不一致。由于我不熟悉 C# 中的并行性和并发性，所
java - 具有批量和刷新功能的生产者/消费者
我正在尝试编写一个批量邮件服务，它有两种方法: add(Mail mail):可以发送邮件，由Producers调用 flushMailService():刷新服务。消费者应该获取一个列表，并调用另一

首页

博学

6Ren·AI

商城

java - 为什么在记录、生产者和消费者数量不变的 Kafka 经纪人中 GC 时间会增加？