Hadoop上Data Locality的详解-6ren

Hadoop上Data Locality的详解

转载作者：qq735679552 更新时间：2022-09-28 22:32:09

25

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章Hadoop上Data Locality的详解由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

Hadoop上Data Locality的详解。

Hadoop上的Data Locality是指数据与Mapper任务运行时数据的距离接近程度（Data Locality in Hadoop refers to the“proximity” of the data with respect to the Mapper tasks working on the data.）。

1. why data locality is imporant？

当数据集存储在HDFS中时，它被划分为块并存储在Hadoop集群中的DataNode上。当在数据集执行MapReduce作业时，各个Mappers将处理这些块（输进行入分片处理）。如果Mapper不能从它执行的节点上获取数据，数据需要通过网络从具有这些数据的DataNode拷贝到执行Mapper任务的节点上（the data needs to be copied over the network from the DataNode which has the data to the DataNode which is executing the Mapper task）。假设一个MapReduce作业具有超过1000个Mapper，在同一时间每一个Mapper都试着去从集群上另一个DataNode节点上拷贝数据，这将导致严重的网络阻塞，因为所有的Mapper都尝试在同一时间拷贝数据（这不是一种理想的方法）。因此，将计算任务移动到更接近数据的节点上是一种更有效与廉价的方法，相比于将数据移动到更接近计算任务的节点上（it is always effective and cheap to move the computation closer to the data than to move the data closer to the computation）.

2. How is data proximity defined？

当JobTracker（MRv1）或ApplicationMaster（MRv2）接收到运行作业的请求时，它查看集群中的哪些节点有足够的资源来执行该作业的Mappers和Reducers。同时需要根据Mapper运行数据所处位置来考虑决定每个Mapper执行的节点（serious consideration is made to decide on which nodes the individual Mappers will be executed based on where the data for the Mapper is located）.

Hadoop上Data Locality的详解

3. Data Local 。

当数据所处的节点与Mapper执行的节点是同一节点，我们称之为Data Local。在这种情况下，数据的接近度更接近计算（ In this case the proximity of the data is closer to the computation.）。JobTracker（MRv1）或ApplicationMaster（MRv2）首选具有Mapper所需要数据的节点来执行Mapper.

4. Rack Local 。

虽然Data Local是理想的选择，但由于受限于集群上的资源，并不总是在与数据同一节点上执行Mapper（Although Data Local is the ideal choice, it is not always possible to execute the Mapper on the same node as the data due to resource constraints on a busy cluster）。在这种情况下，优选地选择在那些与数据节点在同一机架上的不同节点上运行Mapper（ In such instances it is preferred to run the Mapper on a different node but on the same rack as the node which has the data.）。在这种情况下，数据将在节点之间进行移动，从具有数据的节点移动到在同一机架上执行Mapper的节点，这种情况我们称之为Rack Local.

5. Different Rack 。

在繁忙的群集中，有时Rack Local也不可能。在这种情况下，选择不同机架上的节点来执行Mapper，并且将数据从具有数据的节点复制到在不同机架上执行Mapper的节点。这是最不可取的情况.

如有疑问请留言或者到本站社区交流讨论，感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！。

原文链接：http://blog.csdn.net/zhyooo123/article/details/77868170 。

最后此篇关于Hadoop上Data Locality的详解的文章就讲到这里了,如果你想了解更多关于Hadoop上Data Locality的详解的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

25

4

0

文章推荐： MySQL定时备份方案（利用Linux crontab）

文章推荐： spring boot集成pagehelper(两种方式)

文章推荐： Oracle数据库游标连接超出解决方案

文章推荐： java中初始化MediaRecorder的实现方法

c - 链接描述文件中 *(.data)、*(.data*) 和 *(.data.*) 之间的区别
只是想知道这些结构之间有什么区别(text、data、rodata、bss 等)在链接描述文件中: .data : { *(.data) } .data : { *(.data*) }
haskell - 从 Data.Data.Data 了解 gfoldl 的类型签名
Data 定义为其核心功能之一 gfoldl : gfoldl :: (Data a) => (forall d b. Data d => c (d -> b) -> d -> c b)
aem - data-sly-use、data-sly-resource、data-sly-include 和 data-sly-template 之间有什么区别？
以下之间有什么区别:data-sly-use、data-sly-resource、data-sly-include 和数据-sly-模板？我正在阅读 Sightly AEM 上的文档，我非常困惑。
spring-data - 休眠搜索与 spring-data-solr ， spring-data-elasticsearch
我有一个 Spring Boot、Spring Data JPA (hibernate) Web 应用程序，并且想引入文本搜索功能。我理解以下内容 hibernate search 或 spring
c - 错误: Expected expression before 'DATA/* : typedef struct DATA DATA */
我不知道我的代码有什么问题。我读了其他有同样问题的人的一些问题，但没有找到答案。当我尝试编译时出现以下错误: ||In function 'main':| |35|error: expected ex
r - as.data.frame.default(data): cannot coerce class “” formula“” to a data.frame中的错误
我不太确定为什么会收到此错误或其含义。我的数据框称为“数据”。 library(dplyr) data %>% filter(Info==1, Male==1) %>% lm(CFL_
html - data-value、data-title、data-original-title、original-title等的用途和用法是什么？
我一直在 GitHub 等更现代的网站上看到这些属性，它们似乎总是与自定义的弹出窗口一致，如 title 属性。 Option 1 Option 2 Option 3 Option 4 我在 HTML
core-data - Swift - 用 iCloud Core Data 替换 Core Data
如何用 iCloud Core Data 替换我现有的 Core Data？这是我的持久商店协调员: lazy var persistentStoreCoordinator: NSPersistent
html - data-value、data-title、data-original-title、original-title等的用途和用法是什么？
我一直在 GitHub 等更现代的网站上看到这些属性，它们似乎总是与自定义的弹出窗口一致，如 title 属性。 Option 1 Option 2 Option 3 Option 4 我在 HTML
android -/data/data/是安装路径的可靠假设吗？
我正在通过 this project 在 Android 上摆弄 node.js ，我需要一种方法将 js 文件部署到私有(private)目录(以隐藏源代码，防止用户篡改)，该目录也物理存在于文件系
core-data - SwiftUI ImagePicker 将 (Image -> UIImage --> Data) 保存到 Core Data
大家好我有点沮丧，所以我希望得到一些帮助。我的项目在 SwiftUI 中。我想使用图像选择器将图像保存到 Core Data。我实现了让 ImagePicker 工作，但我正在努力转换 Image -
r - 尽管 data.frame 可以，但为什么 data.table 没有从表中创建 data.table？
我有以下数据和代码: mydf grp categ condition value 1 A X P 2 2 B X P 5
r - mlogit.data() 错误 : Assigned data `ids` must be compatible with existing data
我一直在努力解决这个问题，但我根本找不到任何解决问题的方法。希望这里有人可以提供帮助。我正在尝试为具有以下结构的某些数据创建个人选择矩阵: # A tibble: 2,152 x 32 a
haskell - Data.Map 与 Data.Map.Strict 和 Data.Map.Lazy
我了解 Data.Map.Lazy 和 Data.Map.Strict 是不同的。但是，当您导入 Data.Map 时，您究竟导入了什么:严格的、惰性的还是两者的组合？最佳答案懒人。看着docs
c - 如何让 DBCursor->get(...) 识别我为 key.data 和 data.data 分配的内存
我正在开发一个 C 程序，用于从 BerkeleyDB DBTree 数据库中提取数据值与特定模式匹配的记录。我创建数据库，打开它，将键的 DBT 和数据的另一个 DBT 清零，将 DBT 标志设置为
mysql : Previous Row data if data on another row is equal to data on current row
所以我有以下成员(member)历史表 User_ID | Start date | End Date | Type(0-7) | ---------------------------
r - 基准 data.frame (base), data.frame(package dataframe) 和 data.table
随着最近推出的包dataframe ，我认为是时候正确地对各种数据结构进行基准测试，并突出每种数据结构的优势。我不是每个人的不同优势的专家，所以我的问题是，我们应该如何对它们进行基准测试。我尝试过的
javascript - Vue+Laravel : How to mounted data from api if data in form array in one of tuple data
我有来自 API 的数据，但无法将数组中的数据设置为 vue.js 中的 this.data这是来自 API 的数据(JSON) 你能告诉我这个语法吗 {"id":1613, "name_org":"
javascript - Vue.js 中 'data:' 、 'data: ()' 和 'data()' 之间有什么区别
在 Vue.js到目前为止，我已经找到了两种定义数据的方法:data: {} 和 data() { return; }. data: { defaultLayout: 'default' }
spring-data-rest - 如何在Spring Data Rest中添加自定义拦截器(spring-data-rest-webmvc 2.3.0)
我正在研究Spring Data Rest Services，并在自定义拦截器中遇到一些问题。之前我使用spring-data-rest-webmvc 2.2.0并以以下方式添加了拦截器。 publi

首页

博学

6Ren·AI

商城

Hadoop上Data Locality的详解