gpt4 book ai didi

hadoop - 读取、转换并流式传输到 Hadoop

转载 作者:可可西里 更新时间:2023-11-01 16:52:41 25 4
gpt4 key购买 nike

我需要构建一个服务器来读取目录中的大型 csv 数据文件 (100GB),转换一些字段并将它们流式传输到 Hadoop 集群。

这些文件是在随机时间(100 秒/天)从其他服务器复制过来的。完成复制文件需要很长时间。

我需要:

  1. 定期检查要处理的新文件(即加密和流式传输)
  2. 检查 csv 是否被完全复制以开始加密
  3. 并行处理多个文件,但阻止两个进程流式传输相同的文件
  4. 标记文件传输成功
  5. 马克文件流式传输失败并重新启动流式传输过程。

我的问题是:是否有一个开源 ETL 工具可以提供所有这 5 个功能,并且可以很好地与 Hadoop/Spark Stream 配合使用?我认为这个过程是相当标准的,但我还找不到。

谢谢。

最佳答案

FlumeKafka将达到你的目的。两者都与 Spark 和 Hadoop 很好地集成。

关于hadoop - 读取、转换并流式传输到 Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31469812/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com