hadoop - Hadoop 中 HDFS 以外的文件系统如何使用数据局部性？-6ren

hadoop - Hadoop 中 HDFS 以外的文件系统如何使用数据局部性？

转载作者：可可西里更新时间：2023-11-01 14:16:54

24

4

我们知道 Hadoop 使用数据局部性原则来生成 map-reduce 作业以节省网络带宽。以下是其工作原理的描述:

取自:http://hadoop-gyan.blogspot.in/

Hadoop tries its best to run map tasks on nodes where the data is present locally to optimize on the network and inter-node communication latency. As the input data is split into pieces and fed to different map tasks, it is desirable to have all the data fed to that map task available on a single node.Since HDFS only guarantees data having size equal to its block size (64M) to be present on one node, it is advised/advocated to have the split size equal to the HDFS block size so that the map task can take advantage of this data localization.

Hadoop 能够运行 map-reduce 作业，即使底层文件系统不是 HDFS(即它可以在其他文件系统上运行，例如 Amazon 的 S3)。现在，在这种情况下如何计算数据局部性？在 HDFS 的情况下，namenode 拥有所有的 block 位置信息，并使用这些信息在尽可能靠近数据的地方生成映射器。然而，在其他文件系统中没有名称节点的概念。那么，Hadoop MapReduce 框架(JobTracker 和 TaskTracker)如何在运行作业时学习数据的位置以应用数据局部性原则？

最佳答案

正如您所提到的，像 S3 这样的文件系统不需要 namenonde 来运行。在这种情况下，数据局部性优化不可用。

引用:http://wiki.apache.org/hadoop/AmazonS3

关于hadoop - Hadoop 中 HDFS 以外的文件系统如何使用数据局部性？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19373231/

24

4

0

文章推荐： java - 在hadoop java中解析json输入

文章推荐： hadoop - 我们可以将关系数据存储在hdfs中吗

文章推荐： fetcher#1 随机播放中的 Hadoop 错误

文章推荐： hadoop - 从 hdfs 恢复已删除的数据

f# - 除F#以外，其他语言是否存在类型提供程序？
我已经坚持了好几天了……很抱歉遇到这样的问题，但是我只是F#本身的初学者。由于关于类型提供程序的讨论很多，所以我决定建立一个类型提供程序并撰写一篇有关它的论文。当我开始时，我不知道什么是类型提供程序。
c# - 除了ICMP(Ping)以外，如何从LAN控制计算机是否处于打开状态？
我正在开发LAN项目唤醒功能，但是我想控制局域网中计算机是否打开。但是我不想使用ICMP或WMI(我的网络上有DC)。那么，对于此问题，是否还有其他选择，例如“套接字连接”，请检查特定端口是否正在使用
windows - 除了 list 以外，是否有其他原因导致DLL重定向不起作用的原因？
我们有一个旧的VB6应用程序，该应用程序使用Crystal Reports XI生成打印报告。我们已经通过经验发现，如果Crystal Reports打印引擎选择了错误版本的 usp10.dll (W
android - 我在哪里可以获得更多 Android 权限的列表？ (以外 ...)
我正在尝试获取有效的 Android 权限列表。我知道 http://developer.android.com/reference/android/Manifest.permission.html
ubuntu - 如何通过不同端口(80 以外)启动 nginx
嗨，我是 nginx 的新手，我试图在我的服务器(运行 Ubuntu 4)上设置它，它已经运行了 apache。所以在我 apt-get install 它之后，我尝试启动 nginx。然后我收到这
vb6 - 如何在VB 6中检查对象的类型-除“TypeName”以外，是否还有其他方法
如何在VB 6中检查对象的类型-除了'TypeName'之外，是否还有其他方法，因为无法通过'TypeName'进行检查，我希望使用类似QuichWatch窗口的方法。最佳答案对于对象变量，请使用
java - 除了超时或 session.invalidate() 以外，JSP Web session 被重置的原因是什么？
我的 JSP 应用程序中有一个错误。发布后我的 session 被清除: YAHOO.util.Connect.asyncRequest('POST', Url, callback, post

首页

博学

6Ren·AI

商城

hadoop - Hadoop 中 HDFS 以外的文件系统如何使用数据局部性？