gpt4 book ai didi

ubuntu - 将 csv 日志文件从 Windows 服务器转储到 ubuntu VirtualBox/hadoop/hdfs

转载 作者:可可西里 更新时间:2023-11-01 16:41:10 26 4
gpt4 key购买 nike

我们每天都以 csv 的形式从应用程序中获取新文件,这些文件存储在 Windows 服务器中,比如 c:/program files(x86)/webapps/apachetomcat/.csv 每个文件中都有不同的数据,所以有没有 hadoop组件将文件从 Windows 服务器传输到 hadoop hdfs,我遇到了 flume,kafka 但没有得到正确的例子,任何人都可以在这里遮光。

所以每个文件都有单独的名称,大小可达 10-20mb,每天的文件数超过 200 个文件,一旦文件添加到 Windows 服务器,flume/kafka 应该能够将这些文件放入 hadoop,以后的文件是从 spark 处理的 HDFS 导入并移动到处理文件到 HDFS 中的另一个文件夹

最佳答案

Flume 是最好的选择。需要配置一个flume agent(进程)。一个水槽代理有 3 个部分:

Flume 源 - flume 寻找新文件的地方。 c:/program files(x86)/webapps/apachetomcat/.csv 在你的情况下。

Flume sink - flume 发送文件的地方。您案例中的 HDFS 位置。

Flume channel - 文件发送到接收器之前的临时位置。您需要为您的案例使用“文件 channel ”。

点击here举个例子。

关于ubuntu - 将 csv 日志文件从 Windows 服务器转储到 ubuntu VirtualBox/hadoop/hdfs,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40895362/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com