hadoop - 每小时将推文保存到单个 Flume 数据文件的 flume.conf 参数应该是多少？-6ren

hadoop - 每小时将推文保存到单个 Flume 数据文件的 flume.conf 参数应该是多少？

转载作者：可可西里更新时间：2023-11-01 16:01:56

我们将推文保存在目录顺序中，例如/user/flume/2016/06/28/13/FlumeData...。但每小时它会创建超过 100 个 FlumeData 文件。我更改了 TwitterAgent.sinks .HDFS.hdfs.rollSize = 52428800 (50 mb) 同样的事情又发生了。之后我也尝试更改 rollcount 参数但没有成功。我如何设置参数以每小时获取一个 FlumeData 文件。

最佳答案

rollInterval 怎么样？你把它设置为零了吗？如果是，那么问题可能出在其他地方。如果 rollInterval 设置为某个值，它会覆盖 rollSize 和 rollCount 值。文件轮换可能发生在文件大小达到 rollSize 值之前。另外，检查您设置的 HDFS block 大小。如果设置为太小的值，即使这样也可能导致文件滚动。

试试这个 -

    TwitterAgent.sinks.HDFS.channel = MemChannel
    TwitterAgent.sinks.HDFS.type = hdfs
    TwitterAgent.sinks.HDFS.hdfs.path = hdfs://hpc01:8020/user/flume/tweets/%Y/%m/%d/%H
    TwitterAgent.sinks.HDFS.hdfs.fileType = DataStream
    TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text

    TwitterAgent.sinks.HDFS.hdfs.batchSize = 100


    TwitterAgent.sinks.HDFS.hdfs.rollSize = 0

    TwitterAgent.sinks.HDFS.hdfs.rollCount = 0

    TwitterAgent.sinks.HDFS.hdfs.rollInterval = 3600
    TwitterAgent.channels.MemChannel.type = memory
    TwitterAgent.channels.MemChannel.capacity = 1000

    TwitterAgent.channels.MemChannel.transactionCapacity = 100

关于hadoop - 每小时将推文保存到单个 Flume 数据文件的 flume.conf 参数应该是多少？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38098745/

文章推荐： hadoop - 无法从 IDEA 连接到资源管理器

文章推荐： http - Camel http端点动态形成url

文章推荐： Java HttpServletRequest 获取查询字符串

node.js - 如何将用 NodeJS 编写的 MS 文 native 器人程序集成到 Skype 机器人？
我想开发一个 Skype 机器人，它将用户名作为输入，并根据用户输入以相反的字符大小写表示hello username。简而言之，如果用户输入他的名字 james，我的机器人会回复他为 Hello J

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

hadoop - 每小时将推文保存到单个 Flume 数据文件的 flume.conf 参数应该是多少？