gpt4 book ai didi

hadoop - Hadoop-当数据到达hdfs时执行脚本

转载 作者:行者123 更新时间:2023-12-02 21:37:37 27 4
gpt4 key购买 nike

Hadoop生态系统中是否有一个工具可以真正知道是否已将新数据添加到HDFS文件系统中?

实际上,我想从外部数据库(不合并,只有新表)远程执行sqoop导入作业。然后,当将这些数据写入HDFS时,它将执行一个spark脚本,该脚本将处理添加了新数据并做一些事情。

Hadoop中有任何功能可以完成这种工作吗?

在sqoop导入作业完成后,我可以完全执行spark脚本,但是我想知道这样的功能是否存在并且尚未找到任何功能。

提前致谢。

最佳答案

是。有。 Hadoop生态系统中有一个称为Oozie的工作流工具可以处理这种情况。

Oozie提供的工作流可以根据固定的时间表或数据可用性触发运行。在您的情况下,它将被视为数据可用性。在Oozie doc上查看更多详细信息:Oozie doc for coordinator job

关于hadoop - Hadoop-当数据到达hdfs时执行脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31058693/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com