gpt4 book ai didi

hadoop - Kafka-connect-hdfs : Tiny files and difference between rotate. 间隔设置

转载 作者:可可西里 更新时间:2023-11-01 14:56:06 24 4
gpt4 key购买 nike

当我配置 hdfs 连接器时,我设置了“flush.size=3”和“rotate.interval.ms=5000”,令我困惑的是如果它将生成许多琐碎的文件,例如:数万个文件...

files

我不想成为更琐碎的文件,还有其他可能的解决方案吗?

此外,rotate.interval.msrotate.schedule.interval.ms 有什么区别?

最佳答案

设置 rotate.interval.ms=5000 将每 5 秒调用一次文件提交。您可能希望保持不变,因为默认情况下它是禁用的,除非数据摄取率很低并且连接器没有' 写入足够的消息来提交文件。

rotate.interval.ms 和 rotate.schedule.interval.ms 的区别在于:

rotate.schedule.interval.ms will make sure commits are done at scheduled time regardless of previous commits.This configuration is useful when you have to commit your data based on current server time, like at the beginning of every hour.

rotate.interval.ms 将每 'n' 毫秒调用一次文件提交,并确保每 'n' 毫秒调用一次文件提交。

关于hadoop - Kafka-connect-hdfs : Tiny files and difference between rotate. 间隔设置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45603087/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com