gpt4 book ai didi

java - 如何管理flume agent之间的并发。

转载 作者:可可西里 更新时间:2023-11-01 16:39:25 24 4
gpt4 key购买 nike

我正在从事大数据项目。我们正在使用 flume 将文件从 sftp 下载到 HDFS。然后,我们配置了 3 个代理。他们从同一个来源阅读。结果,我们将 3 个重复文件放入 HDFS,这并不好。然而,我们必须只有一个文件。但是,我们需要对处理过的文件保持可追溯性,并管理代理之间的并发性。例如,我们有 3 个主要代理 A1、A2 和 A3。如果代理 A2 正在处理或正在处理文件 xxx.csv。其他人不会处理它,并会寻找未处理的文件。因此,每个文件只能由一个代理处理。

有没有人处理过类似的问题?

最佳答案

使用 load balancing sink processor 可以有 1 个源和 3 个汇.

关于java - 如何管理flume agent之间的并发。,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44563336/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com