gpt4 book ai didi

hadoop - oozie 如何处理依赖项?

转载 作者:可可西里 更新时间:2023-11-01 14:12:49 24 4
gpt4 key购买 nike

我有几个关于 oozie 2.3 共享库的问题:

目前,我在我们的 coordinator.properties 中定义了共享库:

oozie.use.system.libpath=true 
oozie.libpath=<hdfs_path>

这是我的问题:

  1. 当共享库复制到其他数据节点时,有多少数据节点会得到共享库?

  2. 共享库是根据协调器作业中的 wf 数量复制到其他数据节点,还是每个协调器作业仅复制一次?

最佳答案

将条目添加到 oozie.libpath属性实际上意味着 OOZIE 会将这些库配置为在 mapred.cache.files 中配置属性(这是一个 DistributedCache 属性),当您的工作流中的操作被执行时。

然后,Hadoop 将负责将这些 jar 复制到每个集群节点,每个作业一次,然后在类路径配置属性中使用 jar 配置任务 mapred.job.classpath.files

因此,在回答您的第二个问题时,将为工作流中的每个操作复制它们,而不是每个协调员作业一次。因此,如果您有一个包含 4 个 mapreduce 操作的 wf 作业,那么在该工作流的生命周期中,库将被复制到每个 tasktracker(仅那些参与 mapreduce 作业的任务跟踪器)4 次。

关于hadoop - oozie 如何处理依赖项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11042495/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com