gpt4 book ai didi

r - R脚本的分布式调度系统

转载 作者:可可西里 更新时间:2023-11-01 14:19:41 24 4
gpt4 key购买 nike

我想在多台机器 - Windows 或 Ubuntu -(一个任务只在一台机器上)上安排和分发 R 脚本的执行(例如使用 RServe)。

我不想重新发明轮子,而是想使用一个已经存在的系统以最佳方式分配这些任务,理想情况下有一个 GUI 来控制脚本的正确执行。

1/是否有可用于此目的的 R 包或库?

2/一个似乎被广泛使用的库是带有 Apache Hadoop 的 mapReduce。我对这个框架没有经验。你会为我的目的建议什么安装/插件/设置?

编辑:以下是有关我的设置的更多详细信息:
我确实有一个充满机器(小型服务器或工作站)的办公室,这些机器有时也用于其他目的。我想使用所有这些机器的计算能力并在它们上分发我的 R 脚本。
我还需要一个调度程序,例如。一种在固定时间或定期安排脚本的工具。我同时使用 Windows 和 Ubuntu,但目前在其中一个系统上使用一个好的解决方案就足够了。最后,我不需要服务器来取回脚本的结果。脚本执行访问数据库、保存文件等操作,但不返回任何内容。如果有的话,我只想取回错误/警告。

最佳答案

如果你想做的是在你有物理访问权限的机器上分配并行执行的作业,我强烈推荐 foreach 的 doRedis 后端。您可以阅读 vignette PDF获取更多详细信息。要点如下:

Why write a doRedis package? After all, the foreach package already has available many parallel back end packages, including doMC, doSNOW and doMPI. The doRedis package allows for dynamic pools of workers. New workers may be added at any time, even in the middle of running computations. This feature is relevant, for example, to modern cloud computing environments. Users can make an economic decision to \turn on" more computing resources at any time in order to accelerate running computations. Similarly, modernThe doRedis Package cluster resource allocation systems can dynamically schedule R workers as cluster resources become available

如果运行 Hadoop 的机器专用于集群而不是借用,则 Hadoop 运行最佳。设置 Hadoop 也有相当大的开销,如果您需要 Hadoop 提供的 map/reduce 算法和分布式存储,那么值得付出努力。

那又怎样,你的配置到底是什么?您的办公室里是否满是要分配 R 作业的机器?你有专用集群吗?这将是基于 EC2 或其他“云”的吗?

细节决定成败,细节明确才能得到更好的答案。

如果您希望工作人员执行工作并将工作结果重新配置回一个主节点,您最好使用专用的 R 解决方案,而不是像 TakTuk 或 dsh 这样更通用的并行化系统工具。

关于r - R脚本的分布式调度系统,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8664630/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com