hadoop - 在 Hadoop 分布式缓存中重用文件-6ren

hadoop - 在 Hadoop 分布式缓存中重用文件

转载作者：可可西里更新时间：2023-11-01 14:34:20

26

4

我想知道是否有人可以解释分布式缓存在 Hadoop 中的工作原理。我多次运行一个作业，每次运行后我注意到每个节点上的本地分布式缓存文件夹的大小都在增加。

有没有办法让多个作业在分布式缓存中重复使用同一个文件？还是分布式缓存仅在任何单个作业的生命周期内有效？

我感到困惑的原因是 Hadoop 文档提到“DistributedCache tracks modification timestamps of the cache files”，所以这让我相信如果时间戳没有改变，那么它应该不需要重新 -将文件缓存或重新复制到节点。

我正在使用以下方法成功地将文件添加到分布式缓存:

DistributedCache.addFileToClassPath(hdfsPath, conf);

最佳答案

DistributedCache 使用引用计数来管理缓存。 org.apache.hadoop.filecache.TrackerDistributedCacheManager.CleanupThread负责清理引用计数为0的CacheDirs，每分钟检查一次(默认周期为1分钟，可以通过"mapreduce.tasktracker.distributedcache.checkperiod").

当作业完成或失败时，JobTracker 将向 TaskTracker 发送一个 org.apache.hadoop.mapred.KillJobAction。然后，如果 TaskTracker 收到 KillJobAction，它会将操作放入 tasksToCleanup。在 TaskTracker 中，有一个名为 taskCleanupThread 的后台线程，它从 tasksToCleanup 获取操作并执行清理工作。对于 KillJobAction，它将调用 purgeJob 来清理作业。在此方法中，它将减少此作业使用的引用计数 (rjob.distCacheMgr.release();)。

以上分析基于hadoop-core-2.0.0-mr1-cdh4.2.1-sources.jar。我还检查了 hadoop-core-0.20.2-cdh3u1-sources.jar，发现这两个版本之间存在细微差别。例如，0.20.2-cdh3u1 中没有 org.apache.hadoop.filecache.TrackerDistributedCacheManager.CleanupThread。当初始化一个 Job 时，TrackerDistributedCacheManager 会检查是否有足够的空间来放置这个 Job 的新缓存文件。如果不是，它将删除引用计数为 0 的缓存。

如果你使用的是cdh4.2.1，你可以增加“mapreduce.tasktracker.distributedcache.checkperiod”让清理工作延迟。那么多个Jobs使用同一个分布式缓存的概率就增加了。

如果您使用的是 cdh3u1，您可以增加缓存大小的限制(“local.cache.size”，默认为 10G)和缓存的最大目录(“mapreduce.tasktracker.cache.local.numberdirectories”，默认值为 10000)。这也适用于cdh4.2.1。

关于hadoop - 在 Hadoop 分布式缓存中重用文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18538280/

26

4

0

文章推荐： hadoop - 在 Oozie 中动态创建 fork

文章推荐：映射后 Hadoop 集群停止

文章推荐： hadoop - 数据节点之间的通信如何在 Hadoop 集群中工作？

文章推荐： hadoop - PIG - HBASE - 类型转换值

MPI 重用 MPI_Request
将已完成的 MPI_Request 重新用于另一个请求是否安全？我一直在使用 MPI_Request 池来提高性能并且没有错误。但肯定知道会很好。最佳答案 MPI_Request 类型的变量不是请求
qt QTranslator 重用
我注意到 Qt 文档在翻译的某些方面不是很冗长。我一直在玩弄它，试图通过反复试验来弄清楚他们的行为。最终目标是在运行时更改翻译，但我很困惑 QTranslator 对象在多大程度上可以重用。考虑一下
iphone - 重用 subview
我有一个 UIImageView 对象，它只是一个纯黑色矩形。这是我用来选择 View 中的按钮的方法。问题是，我的 View 中有 49 个这样的按钮，并且所有这些按钮都可以同时选择。我用来向按
重用 R 中内置的模型
在 R 中构建模型时，如何保存模型规范以便可以在新数据上重用它？假设我根据历史数据建立逻辑回归，但直到下个月才会有新的观察结果。最好的方法是什么？我考虑过的事情: 保存模型对象并在新 session
Redux Action 重用
我是 React/Redux 的初学者。我已经完成了一个基本组件在我的应用程序中，其操作/ reducer /商店运行良好。我将渲染另一个具有不同的设置( Prop )。我想做的是分离这两个组
java - 重用 ActionListener
我正在开发 GUI 纸牌游戏，我想知道是否有办法改进我的代码。这是我的情况。我有三张牌:A、B 和 C。玩家可以通过分别单击三个按钮之一来更换牌:分别是按钮 1、按钮 2 或按钮 3。 class
.net - 重用 OpenFileDialog
每个文本框旁边有 2 个文本框和 2 个按钮 [...]。是否可以使用一个 OpenFileDialog 并将 FilePath 传递到相应的文本框，基于单击哪个按钮？即...如果我单击第一个按钮并打
javascript - 重用 WebGLRenderTarget
我有两个场景:第一个场景，渲染纹理平面，第二个场景，应该渲染为纹理。该纹理应用作主场景中平面的贴图。出于某种原因，所有 THREE.WebGLRenderTarget 示例每帧都会重新绘制两个场景，
java - 重用 StringBuffer
我知道 concat、StringBuffer 和 StringBuilder 之间的区别。我知道 StringBuffer.toString 支持数组的内存问题可能会导致内存爆炸。我什至知道 JDK
Android 重用 Activity
我有 2 个 Activity 。 A 和 B。A 有一个包含 4 个项目的操作栏。每个项目显示不同的电影列表。 B extends A 因为我希望能够使用操作栏来更改电影列表。所以我的问题是，当我
MySql 重用 WHERE 子句的别名
我有一个查询，用于检查从搜索文本框中输入的每个关键字，并且必须返回最匹配的关键字。问题是，我想排除返回行中所有值为 0 的 KW_MATCHED。 SELECT A1.*, (
ios - UICollectionViewCell 重用
当方法重用时，是否有像这样的代码可以与 UICollectionViewCell 一起使用？ - (UITableViewCell *)tableView:(UITableView *)tableVi
ios - 重用 ScrollView
在我的项目中，我想在可 ScrollView 中以zig-zag 模式显示图像。所以我使用 uiscrollview 子查看其中的图像。它工作正常，但它占用了太多内存，因为我将所有图像加载到 Scro
ios - 重用 UIViewController
如果我有 UIViewController1 并且我让它以模态方式显示 UIViewController2，但我希望 UIViewController2 显示 UIViewController1 模式
ios - 重用 CCLabelTTF
我想在所有 CCMenuItem 中使用完全相同的标签。如果我创建相同的 CCLabelTTF 一次，那么我无法将其添加到多个 CCMenuItem 中，因为它会给出有关已添加标签的运行时错误。但是，
elasticsearch - 重用/缓存脚本字段以使用查询的其他部分
我正在做一个项目，我们需要显示列表与用户位置的距离。为了显示距离，当在输入中给出纬度/经度时，我们使用名为“distance”的脚本字段计算距离 "script_fields" : {
ios - 重用 UITableViewCell
我正在尝试重用我的 UITableViewCells。目前我的应用程序运行良好，在 tableView 中显示内容。然而，当我尝试实现 - 重用 UITableViewCells 时，我的应用程序崩溃
外部样式表中的 CSS 重用
假设我在外部样式表中定义了几个类 .b {font-weight:bold;} .c {text-align:center;} 现在我想要另一个类，它是 b 和 c 的组合 .bc 是否可以使用类 b
c++ - 协程 - 重用？
我目前经常分配新的协程实例(请参阅我的回答中的代码 here)。这样做的开销并不小。我猜想是否有某种方法可以通过重用之前分配的协程来降低成本？虽然不确定如何实现这一点？我可以为协程 Alloc
java - 重用 HttpURLConnection
在我的应用程序中，我使用如下代码下载多张图片。这样做是高性能还是我可以以某种方式重用连接？ for(int i = 0; i < 100; i++){ URL url = new UR

首页

博学

6Ren·AI

商城

hadoop - 在 Hadoop 分布式缓存中重用文件