Hadoop集群有一些磁盘空间不足的节点~-6ren

Hadoop集群有一些磁盘空间不足的节点~

转载作者：可可西里更新时间：2023-11-01 16:21:08

26

4

我现在拥有一个有 12 个节点的集群。其中一些，特别是 8 个节点，有足够的磁盘空间。但是其他 4 个只有很小的空间可以使用。

但是，其他 4 个节点的 RAM 和 CPU 配置仍然很高。所以我的意图是利用这些资源。但是现在，当我运行一个算法 SlopeOne 时， map 将输出如此多的中间数据并将它们存储在磁盘上。因此存在一些错误，我将其粘贴在此说明下。

我想知道:

如果一个节点发现它不能在本地存储数据，它会尝试将数据存储到其他有足够磁盘空间的节点吗？
如果单个节点在本地存储数据失败，是否会重新开始工作？
如果一些有足够磁盘空间的节点先完成一个映射作业，它会继续运行分配给低磁盘空间节点的作业吗？
我知道我可以设置一个参数，它可以限制本地空间的使用，如果一个节点超过了这个限制，jobtracker 就不会给那个节点更多的工作。但是这种方法是否只会让节点停留在那里而不工作？
关于我可以利用这些资源并避免错误的任何建议？

感谢任何想法。

java.io.IOException: Spill failed
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:860)
    at org.apache.hadoop.mapred.MapTask$OldOutputCollector.collect(MapTask.java:466)
    at slopeone.SlopeOneTrainer$SlopeOneTrainMapper.map(SlopeOneTrainer.java:71)
    at slopeone.SlopeOneTrainer$SlopeOneTrainMapper.map(SlopeOneTrainer.java:1)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:50)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:358)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:307)
    at org.apache.hadoop.mapred.Child.main(Child.java:170)
Caused by: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for taskTracker/jobcache/job_201104070658_0006/attempt_201104070658_0006_m_000000_0/output/spill897.out
    at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:343)
    at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:124)
    at org.apache.hadoop.mapred.MapOutputFile.getSpillFileForWrite(MapOutputFile.java:107)
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1221)
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$1800(MapTask.java:686)
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer$SpillThread.run(MapTask.java:1173)

最佳答案

您可以尝试减少复制次数，如本问题 HDFS Reduced Replication Factor 中所回答默认复制因子为3

关于Hadoop集群有一些磁盘空间不足的节点~，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5603023/

26

4

0

文章推荐： hadoop - 对大型动态数据集进行分析查询

文章推荐： c++ - 段错误 : and the disassembly is different between objdump and gdb

文章推荐： hadoop - 如何防止 `hadoop fs rmr ` 创建 $folder$ 文件？

文章推荐： c++ - 如何处理 "super"调用和递归

SQL 查询导致我 sleep 不足
所以我正在为考试复习，并在 SQL 河(或荒地)中撞到了一块大石头我制作了以下表格并插入了以下数据: create table Permissions ( fileName VARCHAR(
JQueryUI 对话框 maxWidth 不足
我有一个使用 maxWidth 定义的 jqueryui 对话框。 $("#myDialog").dialog({ autoOpen: false, width: 'a
c - 如何使用平方根优化c中的循环(完美、丰富、不足)
注意:我遗漏了不相关的代码所以我目前正在研究 CCC 1996 P1，这个问题的全部目的是能够计算一个整数输入是完美数、不足数还是充数。我上面列出的代码可以工作，但是我认为它太慢了。该代码会迭代每个
r - R 中的关联规则 RAM 不足
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
python - Redis 使用的 RAM 不足
我正在使用 Go 和 Redis 开发 API。问题是RAM使用不足，我找不到问题的根源。 TL;DR 版本有数百/数千个哈希对象。每个 1 KB 的对象(键+值)占用大约 0.5 MB 的 RAM
kubernetes - 由于 CPU 不足，Pod 处于挂起状态
在我的 GCE Kubernetes 集群上，我无法再创建 pod。 Warning FailedScheduling pod (www.caveconditions.com-f1be467e3
kubernetes - Amazon EKS Fargate中的 pod 不足
当我尝试在EKS Fargate群集上安装指标服务器时，它抛出错误: 0/4 nodes are available: 4 Insufficient pods. 按照以下说明从此处安装指标服务器:ht
ios - 为什么 iOS 终止后台应用程序而不是以不同方式处理 RAM 不足？
遍布this document Apple 提到 iOS 在某些情况下会终止应用程序，最常见的原因似乎是释放一些 RAM。这会导致未实现状态恢复的应用程序出现问题——用户正在处理和暂时离开的一些内容可
audio - Google Cloud Speech:配额组 token 不足
尝试处理一个10分钟的音频文件时出现以下错误。我刚刚开始使用Google Cloud产品，所以我是唯一访问此资源的人。我怎么可能超出配额？配额设置为其默认值，我认为我没有任何限制。还有其他原因吗？我
r - 对R中事物类型的全面考察； 'mode' 和 'class' 和 'typeof' 不足
R 语言让我感到困惑。实体有模式和类，但即使这样也不足以完全描述实体。这个answer说 In R every 'object' has a mode and a class. 所以我做了这些实验:
kubernetes - Openshift:没有与以下所有谓词匹配的可用节点::cpu 不足 (173)、MatchNodeSelector (5)
我在 west-1 有一个 Openshift v3 项目。在其中，我有一个运行良好的应用程序，但在 GitHub 提交代码中非常下游的内容后，该应用程序停止工作。问题在于制作 pod: No nod
kubernetes - Openshift:没有与以下所有谓词匹配的可用节点::cpu 不足 (173)、MatchNodeSelector (5)
我在 west-1 有一个 Openshift v3 项目。在其中，我有一个运行良好的应用程序，但在 GitHub 提交代码中非常下游的内容后，该应用程序停止工作。问题在于制作 pod: No nod
wolfram-mathematica - 我可以使用 Stackoverflow API 检查哪些 SO 回答者 sleep 不足？
在 how-do-i-access-the-stackoverflow-api-from-mathematica我概述了如何使用 SO API 让 Mathematica 制作一些有趣的顶级回答者声誉
node.js - 小型 Node.js 应用程序 Pod 的 GKE CPU 不足
所以在 GKE 上，我有一个 Node.js app，每个 pod 使用大约:CPU(cores): 5m, MEMORY: 100Mi 但是我只能为每个 Node 部署 1 个 pod。我使用的是
javascript - 消费者的服务 'AnalyticsDefaultGroup' 的配额 'USER-100s' 和限制 'analyticsreporting.googleapis.com' 的 token 不足
我正在使用 async.eachOfSeries 超过 300 个数组并请求一些 GA api，它工作正常但有时我会收到错误.. UnhandledPromiseRejectionWarning:错误
amazon-s3 - 0/3 个节点可用 : 1 node(s) had taints that the pod didn't tolerate, 2 cpu 不足。 MR3 hive
我正在尝试在 AWS ec2 上托管的 kubernetes 集群上使用 mr3 设置配置单元。当我运行命令 run-hive.sh 时，Hive 服务器启动，并且 master-DAg 被初始化，但
google-cloud-pubsub - 消费者 'administrator' 的服务 'CLIENT_PROJECT-100s' 的配额 'pubsub.googleapis.com' 和限制 'project_number:#' 的 token 不足
创建订阅时有时会出现以下错误: Insufficient tokens for quota 'administrator' and limit 'CLIENT_PROJECT-100s' of ser

首页

博学

6Ren·AI

商城

Hadoop集群有一些磁盘空间不足的节点~