gpt4 book ai didi

r - 使用 Rhadoop 进行多核计算

转载 作者:行者123 更新时间:2023-12-02 21:55:10 24 4
gpt4 key购买 nike

我试图用 Rhadoop 计算一些东西(R 和 hadoop 之间的链接)。

当我使用 Hadoop-1.0.4 中的嵌入式示例对集群进行基准测试时,它看起来运行良好。 (我的意思是所有从节点的核心都工作了,虽然 CPU 使用率在 50% 到 100% 之间波动)

但是,当我应用 Rhadoop 的示例时,情况并非如此。 (每个从节点只有一个核心被激活。)

有没有我必须在 Rhadoop 中设置的配置?(就像我对 hadoop 的配置文件所做的那样,例如 core-site.xml)

谢谢

最佳答案

您可能正在谈论 rmr2,它是 RHadoop 的一部分。 rmr2 对此没有特定的配置。 help(rmr.options)将显示所有配置选项。 map 任务和 map slot 的数量决定了 map 阶段的并行度。听起来你有足够的插槽。所以 map task 的数量可能不足。它可能取决于输入的大小和其他属性。您可以将附加参数传递给 mapreduce backend.parameters = list(hadoop = list(D = 'mapred.map.tasks'))但是hadoop并没有逐字遵守这个设置,只是把它当作一个提示。 backend.parameters参数已被弃用,但当它被删除时,将为这个特定目标提供一些替代机制。如果问题在 reduce 阶段,key 集合的基数也很重要(它设置了并行度的上限)。我同意保罗的观点,如果你提供了一个可重复的例子,我的答案将包含更少的猜测。
RHadoop 有一个专门的论坛,开发人员和用户都很活跃https://groups.google.com/forum/?fromgroups=#!forum/rhadoop

关于r - 使用 Rhadoop 进行多核计算,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15334366/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com