apache-kafka - Kafka 日志压缩始终显示同一键的最后两条记录-6ren

apache-kafka - Kafka 日志压缩始终显示同一键的最后两条记录

转载作者：行者123 更新时间：2023-12-03 08:46:06

27

4

发现这两个问题:here和 here ，但我还是不太明白。我仍然有(意外的？)行为。

我尝试使用此配置对 kafka 主题进行日志压缩

kafka-topics.sh --bootstrap-server localhost:9092 --create --partitions 1 --replication-factor 1 --topic test1 --config "cleanup.policy=compact" --config "delete.retention.ms=1000" --config "segment.ms=1000" --config "min.cleanable.dirty.ratio=0.01" --config "min.compaction.lag.ms=500"

然后我发送这些消息，每条消息至少有1秒的间隔

A: 3
A: 4
A: 5
B: 10
B: 20
B: 30
B: 40
A: 6

我期望的是几秒钟后(配置为 1000？)，当我运行 kafka-console-consumer.sh --bootstrap-server localhost:9092 --property print.key=true --topic test1 --from-beginning 时，我应该得到

A: 6
B: 40

相反，我得到了:

A: 5
B: 40
A: 6

如果我发布另一条消息B:50并运行消费者，我得到:

B: 40
A: 6
B: 50

不是预期的

A: 6
B: 50

实际上，如何配置日志压缩？
来自 Kafka documentation :日志压缩确保 Kafka 始终至少保留单个主题分区的数据日志中每个消息键的最后一个已知值
这是否意味着我只能对单个分区的主题使用日志压缩？

最佳答案

基本上，您自己已经提供了答案。正如 Kafka 文档中所述，“日志压缩确保 Kafka 始终为单个主题分区的数据日志中的每个消息键保留至少最后一个已知值”。因此，不能保证您始终能够获得一键对应的一条消息。

如果我正确理解日志压缩，它并不意味着像您在非常有效的问题中提出的用例。相反，它的目的是最终达到主题中每个键仅存在一条消息的阶段。

Log compaction is a mechanism to give finer-grained per-record retention, rather than the coarser-grained time-based retention. The idea is to selectively remove records where we have a more recent update with the same primary key. This way the log is guaranteed to have at least the last state for each key.

如果您计划仅保留每个键的最新状态，并希望处理尽可能少的旧状态(非压缩主题的情况，取决于时间/大小，那么压缩主题是正确的选择)基于保留)。据我所知，日志压缩的用例是保存最新的地址、手机号码、数据库中的值等。这些值不会每时每刻都在变化，并且通常有很多键。

从技术角度来看，我猜您的情况发生了以下情况。

当涉及到压缩时，日志被视为分为两部分

干净:之前已压缩的消息。此部分仅包含每个键的一个值，该值是上一次压缩时的最新值。
脏消息:上次压缩后写入的消息。

生成消息后B: 40 (A: 5 已生成)clean日志的一部分为空，dirty/active部分包含 A: 5和B: 40 。留言A: 6还不是日志的一部分。生成新消息A: 6将开始压缩日志的脏部分(因为你的比率非常低)，但排除新消息本身。如前所述，没有什么需要清理的，因此新消息将仅添加到主题中，并且现在位于日志的脏部分中。您在生产 B: 50 时观察到的情况也会发生同样的情况.

此外，压缩将永远发生在您的事件段上。所以，即使你设置 segment.ms到只是1000 ms它不会生成新的段，因为生成 A: 6 后没有新数据传入或B: 50 .

要解决您的问题并遵守预期，您需要生成另一条消息 C: 1生产后A: 6或B: 50 。这样，清洁器可以再次比较日志的干净部分和脏部分，并删除A: 5。或B: 40 .

同时，看看这些段在 Kafka 日志目录中的行为如何。

从我的角度来看，日志压缩的配置完全没问题!这并不是观察预期行为的正确用例。但对于生产用例，请注意您当前的配置会尝试非常频繁地启动压缩。根据数据量，这可能会变得相当 I/O 密集型。默认比率设置为 0.50 是有原因的log.roll.hours 通常设置为 24 小时。此外，您通常希望确保消费者有机会在压缩之前读取所有数据。

关于apache-kafka - Kafka 日志压缩始终显示同一键的最后两条记录，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61430509/

27

4

0

文章推荐： R:确定脚本是在 Windows 还是 Linux 中运行

文章推荐： python - Plotly:在 jupyter 笔记本中以编程方式平移 3D 图形

scala - 从尝试返回一个值 - 最后
这个问题在这里已经有了答案: “return” and “try-catch-finally” block evaluation in scala (2 个回答) 7年前关闭。为什么method1返
jquery 选择器之前-最后
我有一个动态列表，需要选择最后一项之前的项目。 drag your favorites here var lastLiId = $(".album
JMeter Once Only Controller 最后
我想为每个线程执行特定操作，因此，我认为tearDown Thread Group 不起作用。是否有任何替代方法可以仅在线程的最后一次迭代时运行“仅一次 Controller ”？谢谢。最佳答案
Perl && 做 { 最后; };
在我的书中它使用了这样的东西: for($ARGV[0]) { Expression && do { print "..."; last; }; ... } for 循环不完整吗？另外，do 的意义何
JMeter Once Only Controller 最后
我想为每个线程执行特定操作，因此，我认为tearDown Thread Group 不起作用。是否有任何替代方法可以仅在线程的最后一次迭代时运行“仅一次 Controller ”？谢谢。最佳答案
c# - 最后:是否保证在任何情况下都会被调用
有没有可能 finally 不会被调用但应用程序仍在运行？我在那里释放信号量 finally { _semParallelUpdates.Re
css - 最后，有时倒数第二
我收藏了对齐的元素，以便它们形成两列。使用 nth-last-child 的组合和 nth-child(even) - 或任何其他选择器 - 是否可以将样式应用于以下两者之一:a)最后两个(假设
c# - 最后，是什么触发了捕获变量的新实例？
我正在阅读 Jon Skeet 的 C# in Depth . 在第 156 页，他有一个示例， list 5.13“使用多个委托(delegate)捕获多个变量实例化”。 List list = n
excel - 最后 4 个结果的总和形成具有多个条件的列
我在 AM4:AM1000 范围内有一个数据列表(从上到下有间隙)，它总是被添加到其中，我想在其中查找和总结最后 4 个结果。但我只想找到与单独列相对应的结果，范围 AL4:AL1000 等于单元格
PowerShell 尝试/捕获/最后
我最近编写了一个运行良好的 PowerShell 脚本 - 然而，我现在想升级该脚本并添加一些错误检查/处理 - 但我似乎被第一个障碍难住了。为什么下面的代码不起作用？ try { Remove-
python - 最后 else if 语句不打印
这个问题在这里已经有了答案: Why does "a == x or y or z" always evaluate to True? How can I compare "a" to all of
django 最后 30 个条目列表及计数
使用 Django 中这样的模型，如何检索 30 天的条目并计算当天添加的条目数。 class Entry(models.Model): ... entered = models.Da
java - 最后 block 不设置java中变量的值
我有以下代码。 public static void main(String[] args) { // TODO Auto-generated method stub
python - 最后 else if 语句不打印
这个问题在这里已经有了答案: Why does "a == x or y or z" always evaluate to True? How can I compare "a" to all of
java - 尝试/最后 - 工作面试
这个问题已经有答案了: Multiple returns: Which one sets the final return value? (7 个回答) 已关闭 8 年前。我正在经历几个在工作面试中
python3 : how to print groupby. 最后()？
$ cat n2.txt apn,date 3704-156,11/04/2019 3704-156,11/22/2019 5515-004,10/23/2019 3732-231,10/07/201
c++ - 最后 5 个元素的读取访问权限
我可以在 C/C++ 中设置/禁用普通数组最后几个元素的读(或写)访问权限吗？由于我无法使用其他进程的内存，我怀疑这是可能的，但如何实现呢？我用谷歌搜索但找不到。如果可以，怎样做？因为我想尝试这样
C# - 将键盘事件发送到(最后)选定窗口
我想使用在这里找到的虚拟键盘组件 http://www.codeproject.com/KB/miscctrl/touchscreenkeyboard.aspx就像 Windows 中的屏幕键盘 (O
php - 选择 *，最后(日期时间)
我正在运行一个 while 循环来获取每个对话的最新消息，但是我收到了错误 [18-Feb-2012 21:14:59] PHP Warning: mysql_fetch_array(): supp
Python 最后 60 个月末
这个问题在这里已经有了答案: How to get the last day of the month? (44 个答案) 关闭 8 年前。这是我在这里的第一篇文章，所以如果我做错了请告诉我...

首页

博学

6Ren·AI

商城

apache-kafka - Kafka 日志压缩始终显示同一键的最后两条记录