gpt4 book ai didi

apache-kafka - 分区技术在kafka分区中均匀分布数据

转载 作者:行者123 更新时间:2023-12-04 05:13:41 26 4
gpt4 key购买 nike

我有以下情况,我有多个大文件(每个文件约 200M 条记录),我想通过 kafka 发送该文件。为了获得更好的性能,我想使用 Kafka 分区来发送数据。现在我的数据要求是针对一个特定的键,所有消息都应该转到一个特定的分区。目前对于 POC,我使用 10 个 kafka 分区并使用数字 ID 字段对数据进行分区。我的逻辑只是检查 IT 的最后一位数字并将记录发送到相应的 kafka 分区。 EX:ID - ***7 将始终进入分区 7。现在这个逻辑不能用于概括我的代码,因为键可以是非数字并且分区数可以根据要求。

我想知道是否有一种哈希算法可以生成特定范围内的值(比如如果我必须有 10 个分区,那么它应该创建所有以 0-9 结尾的哈希值)基于在给定范围内?

最佳答案

是的,您可以简单地使用 key 的哈希码对分区数取模。但这就是默认分区程序无论如何都在使用的东西,所以不妨只使用它。

https://github.com/apache/kafka/blob/0.11.0/clients/src/main/java/org/apache/kafka/clients/producer/internals/DefaultPartitioner.java#L69

关于apache-kafka - 分区技术在kafka分区中均匀分布数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45042082/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com