gpt4 book ai didi

hadoop - Flume + HDFS-200 追加

转载 作者:可可西里 更新时间:2023-11-01 15:35:56 25 4
gpt4 key购买 nike

页面https://cwiki.apache.org/confluence/display/FLUME/Getting+Started说 HDFS sink 支持附加,但我没能找到任何关于如何启用它的信息,每个示例都在滚动文件上。因此,如果可能的话,我将不胜感激有关如何使水槽附加到现有文件的任何信息)

更新

可以将所有滚动属性设置为 0,这将使 flume 写入单个文件,但它不会关闭文件并且新记录对其他进程不可见。有个题目和我的差不多:Flume NG and HDFS ,Dmitry 说 Flume 不支持追加,但答案是一年前的,文档说的恰恰相反,所以我想也许 flume 得到了改进,或者我误解了什么,任何线索都将不胜感激。

更新

我意识到这个问题不清楚,所以让我描述一下我想要实现的目标:我希望将日志写入一个文件中,并且我希望能够在将它们摄取到 hdfs 后立即读取它们。目前我正在使用 Cloudera Impala 执行搜索查询,它没有看到新事件,即使 Flume 配置为立即将它们刷新到磁盘上,至少我是这么认为的。我的调查表明,通常人们将 HBase 用于这些目的,但据我了解,除非使用 Solr 等外部索引,否则它对临时搜索查询无效。问题是我需要一个尽快的解决方案,所以我希望它可以更容易地完成,例如 Fluentd 可以附加到现有文件,但它只适用于纯文本文件,我更喜欢一些二进制格式。

最佳答案

我一直没能找到让 Flume 做我想做的事情的方法,所以最终我决定使用 Cloudera Search 进行日志流式传输,特别是 Solr 用于摄取和检索。似乎 Flume 没有在不创建大量相对较小的文件的情况下在 hdfs 中实时摄取的能力,希望他们将来修复它。

关于hadoop - Flume + HDFS-200 追加,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25651049/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com