gpt4 book ai didi

hadoop - 每小时将推文保存到单个 Flume 数据文件的 flume.conf 参数应该是多少?

转载 作者:可可西里 更新时间:2023-11-01 16:01:56 26 4
gpt4 key购买 nike

我们将推文保存在目录顺序中,例如/user/flume/2016/06/28/13/FlumeData...。但每小时它会创建超过 100 个 FlumeData 文件。我更改了 TwitterAgent.sinks .HDFS.hdfs.rollSize = 52428800 (50 mb) 同样的事情又发生了。之后我也尝试更改 rollcount 参数但没有成功。我如何设置参数以每小时获取一个 FlumeData 文件。

最佳答案

rollInterval 怎么样?你把它设置为零了吗?如果是,那么问题可能出在其他地方。如果 rollInterval 设置为某个值,它会覆盖 rollSizerollCount 值。文件轮换可能发生在文件大小达到 rollSize 值之前。另外,检查您设置的 HDFS block 大小。如果设置为太小的值,即使这样也可能导致文件滚动。

试试这个 -

    TwitterAgent.sinks.HDFS.channel = MemChannel
TwitterAgent.sinks.HDFS.type = hdfs
TwitterAgent.sinks.HDFS.hdfs.path = hdfs://hpc01:8020/user/flume/tweets/%Y/%m/%d/%H
TwitterAgent.sinks.HDFS.hdfs.fileType = DataStream
TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text

TwitterAgent.sinks.HDFS.hdfs.batchSize = 100


TwitterAgent.sinks.HDFS.hdfs.rollSize = 0

TwitterAgent.sinks.HDFS.hdfs.rollCount = 0

TwitterAgent.sinks.HDFS.hdfs.rollInterval = 3600
TwitterAgent.channels.MemChannel.type = memory
TwitterAgent.channels.MemChannel.capacity = 1000

TwitterAgent.channels.MemChannel.transactionCapacity = 100

关于hadoop - 每小时将推文保存到单个 Flume 数据文件的 flume.conf 参数应该是多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38098745/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com