gpt4 book ai didi

python - Hadoop:在迭代映射作业之间维护内存缓存

转载 作者:行者123 更新时间:2023-12-02 20:09:08 26 4
gpt4 key购买 nike

我想在集群中迭代地调用 map-reduce 作业。在每次迭代中,映射器应处理大约 10000 条大容量记录。在每次迭代中,主节点使用不同的参数调用这些映射器,但输入记录保持不变。每次调用映射器时都不需要加载这些记录;在迭代中将它们缓存在主内存中会很棒,并且只需处理给定的新参数值。

我计划使用运行 Hadoop 的 AWS Elastic MapReduce,而我的实现使用 Python,因此 Java API 似乎没有帮助。是否可以在该架构中实现这样的缓存?如果不是,AWS 或其他公有云中的合适架构是什么?

最佳答案

Hadoop 1 中的 Map/Reduce 不适合这种情况。你应该看看 Hadoop 2.0 和 YARN,它们可以实现更灵活的模型。

也可以看Apache Hama其中can run on AWS并通过steaming支持python

关于python - Hadoop:在迭代映射作业之间维护内存缓存,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18882498/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com