gpt4 book ai didi

hadoop - oozie可以在hdfs目录中监视目录中是否有新文件吗?

转载 作者:行者123 更新时间:2023-12-02 21:11:06 26 4
gpt4 key购买 nike

我需要在hadoop集群上执行以下工作流程。

  • 新文件被添加到hdfs目录/ export /中(每天多次)
  • 文件采用两种格式:* _A.csv和* _B.csv
  • 将所有* _A.csv复制到/ hive / dumptable_a /
  • 将所有* _B.csv复制到/ hive / dumptable_b /
  • 运行配置单元插入查询以从dumptable_a加载分区表A
  • 运行配置单元插入查询以从dumptable_b加载分区表B
  • 从/ hive / dumptable_a /和/ hive / dumptable_b /
  • 中删除数据

    可以将oozie设置为监视/ export /中的新文件并启动工作流程吗?
    如果oozie无法做到这一点,或者如果它不是正确的工具,那么最好的选择是什么?

    最佳答案

    是的,正如Rahul所述,请查看Oozie file based coordinator,您可以在其中找到有关如何使用<datasets><input-events>元素的示例。

    或者您可以在oozie文档here中查看一个示例

    关于hadoop - oozie可以在hdfs目录中监视目录中是否有新文件吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40274582/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com