gpt4 book ai didi

hadoop - Hadoop每个 map 作业流式传输多个文件

转载 作者:行者123 更新时间:2023-12-02 21:58:26 24 4
gpt4 key购买 nike

我有一个可以运行的Hadoop流设置,但是初始化映射器时会产生一些开销,每个文件执行一次,并且由于我正在处理许多文件,所以我注意到我在初始化上花费了大量时间。

有没有一种方法,无需编写任何Java,即可指定我要对多个文件重用同一映射器实例以摊销初始化费用?

最佳答案

$HADOOP_HOME/conf/mapred-site.xml中添加/编辑follow属性

<property>
<name>mapred.job.reuse.jvm.num.tasks</name>
<value>#</value>
</property>

可以将 #设置为一个数字,以指定要重用JVM的次数(默认为1),也可以设置为-1,以限制重用量。

也可以通过将作业配置 mapred.job.reuse.jvm.num.tasks设置为所需的值来为每个作业指定它。

关于hadoop - Hadoop每个 map 作业流式传输多个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5197319/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com