gpt4 book ai didi

hadoop - 如何通过集群中的oozie工作流将文本文件加载到hdfs

转载 作者:可可西里 更新时间:2023-11-01 16:52:17 27 4
gpt4 key购买 nike

我正在尝试使用 oozie 在配置单元脚本中加载文本/csv 文件并每天安排它。文本文件在本地 unix 文件系统中。

在 oozie 工作流中执行配置单元脚本之前,我需要将这些文本文件放入 hdfs。

在实时集群中,我们不知道作业将在哪个节点上运行。它会在集群中的任何一个节点上随机运行。

谁能给我解决方案

提前致谢。

最佳答案

不确定我明白你想做什么。

在我看来,它行不通:

  • Oozie 服务器只能访问 HDFS 文件(与 Hive 相同)
  • 您的数据在某处的本地文件系统上

那么为什么不事先将文件加载到 HDFS 中呢?可以在文件可用时(上游作业中的后处理操作)或在固定时间(使用 Linux CRON)触发传输。

如果 NameNode 上的 WebHDFS 服务处于事件状态,您甚至不需要 Linux 机器上的 Hadoop 库 - 只需使用 CURL 和 HTTP 上传即可。

关于hadoop - 如何通过集群中的oozie工作流将文本文件加载到hdfs,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32024241/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com