gpt4 book ai didi

hadoop - Apache flume每小时发布一次HDFS文件

转载 作者:行者123 更新时间:2023-12-02 21:36:01 26 4
gpt4 key购买 nike

我是Flume的新手,我正在探索使用Flume每小时滚动HDFS文件的选项。

在我的项目中,Apache Flume将读取Rabbit MQ的消息并将其写入HDFS。

hdfs.rollInterval -它根据打开文件的时间间隔关闭文件。

仅在关闭文件后Flume读取消息时,才会创建新文件。此选项不能解决我们的问题。

hdfs.path = /%y/%m/%d/%H -此选项工作正常,并且每小时创建一次文件夹。但是问题是只有在收到新消息时才会创建新文件夹。

例如:消息一直到11.59,文件将处于打开状态。然后消息停止传到12.30。但是,该文件仍将处于打开状态。在12.30之后,将出现新消息。然后由于 hdfs.path 配置,将关闭先前的文件,并在新文件夹中创建新文件。

前一个文件在关闭之前无法用于计算。

我们需要一个可以每小时关闭一次的文件的选项。我想知道水槽中是否有这样做的选项。

最佳答案

hdfs.rollInterval被描述为

Number of seconds to wait before rolling current file



因此,此行应导致文件一次分配一个小时
hdfs.rollInterval = 3600

而且我还会忽略文件大小和事件计数,因此也要添加它们
hdfs.rollSize = 0
hdfs.rollCount = 0

关于hadoop - Apache flume每小时发布一次HDFS文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32188472/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com