gpt4 book ai didi

java - 使用本地文件系统作为 Flume 源

转载 作者:搜寻专家 更新时间:2023-10-31 20:10:46 24 4
gpt4 key购买 nike

我刚刚开始学习大数据,此时我正在研究 Flume。我遇到的常见示例是使用一些 Java 处理推文(来自 Cloudera 的示例)。

仅用于测试和模拟目的,我可以使用我的本地文件系统作为 Flume 源吗?特别是一些 Excel 或 CSV 文件?除了 Flume 配置文件之外,我是否还需要使用一些 Java 代码,就像在 Twitter 提取中一样?

这个来源是事件驱动的还是可轮询的?

感谢您的输入。

最佳答案

我假设您正在使用 cloudera 沙箱,并且正在谈论将文件放在您计划启动的水槽代理的本地沙箱上。水槽代理包含:

来源 channel 水槽

这些应该位于水槽代理的本地。可用水槽源列表在用户指南中:https://flume.apache.org/FlumeUserGuide.html .如果您只想使用 tail 或 cat 命令从文件流式传输数据,则可以使用 Exec 源。您还可以使用假脱机目录源将监视指定目录中的新文件,并在新文件出现时从中解析事件。仔细阅读用户指南。包含您需要的一切。

关于java - 使用本地文件系统作为 Flume 源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30090981/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com