gpt4 book ai didi

amazon-s3 - map-reduce 如何在 HDFS 和 S3 上工作?

转载 作者:行者123 更新时间:2023-12-04 21:24:09 29 4
gpt4 key购买 nike

我一直在尝试了解在 HDFS 和 S3 上执行 map-reduce 作业有何不同。有人可以解决我的问题吗:

通常 HDFS 集群不仅是面向存储的,而且还包含执行 MR 作业的能力;这就是为什么将作业映射到多个数据节点并减少到几个数据节点的原因。准确地说,映射(过滤器等)是在本地数据上完成的,而归约(聚合)是在公共(public)节点上完成的。

这种方法是否像在 S3 上一样有效?据我了解,S3 只是一个数据存储。 hadoop 是否必须从 S3 复制整个数据,然后在本地运行 Map(过滤器)和 reduce(聚合)?或者它遵循与 HDFS 完全相同的方法。如果前一种情况成立,则在 S3 上运行作业可能比在 HDFS 上运行作业慢(由于复制开销)。

请分享您的想法。

最佳答案

S3 的性能比 HDFS 慢,但它提供了其他功能,如存储桶版本控制和弹性以及其他数据恢复方案(Netflix 使用使用 S3 的 Hadoop 集群)。

理论上,在拆分计算之前,需要确定输入文件的大小,因此 hadoop 本身在 S3 之上有一个文件系统实现,它允许更高层不知道数据的来源。 Map-Reduce 针对每个输入目录调用通用文件列表 API 以获取目录中所有文件的大小。

Amazon 的 EMR 有一个特殊版本的 S3 文件系统,可以将数据直接流式传输到 S3,而不是缓冲到中间本地文件,这可以使 EMR 上的速度更快。

关于amazon-s3 - map-reduce 如何在 HDFS 和 S3 上工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28577091/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com