hadoop - Hadoop 集群上的 Hive/Map-Reduce 作业 : How to (roughly) calculate the diskspace needed?-6ren

hadoop - Hadoop 集群上的 Hive/Map-Reduce 作业 : How to (roughly) calculate the diskspace needed?

转载作者：可可西里更新时间：2023-11-01 15:07:07

28

4

以下用例:

我对 .gz 压缩大小约为 500GB 的数据运行配置单元查询:

select count(distinct c1), c2 from t1 group by c2;

此查询产生约 2800 个映射作业和约 400 个缩减作业。

在设置具有 20 个实例(每个 160GB 实例存储)的 Hadoop 集群时，该工作将停止在 97% map 和 21% reduce progress，然后回落到 94% map 和 19% reduce progress，然后就没有任何进展了。我认为这是因为 HDFS 的磁盘空间已达到使用限制。也许我可以在当天晚些时候提供异常消息。

如何:有没有办法根据正在处理的数据的输入大小粗略地预先计算所需的 HDFS 磁盘空间？请记住，输入数据以 .gz 格式存储。

更新

有谁知道，为什么我的 MapReduce 作业只使用节点的本地存储，而不使用 DFS？

DFS usage overview http://img27.imageshack.us/img27/5805/dfsusageoverview.png

DFS usage detail http://img542.imageshack.us/img542/5026/dfsusagedetail.png

其中一个映射器的异常:

at org.apache.hadoop.hive.ql.exec.MapOperator.process(MapOperator.java:550)
        at org.apache.hadoop.hive.ql.exec.ExecMapper.map(ExecMapper.java:143)
        ... 8 more
Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: java.io.IOException: Spill failed
        at org.apache.hadoop.hive.ql.exec.ReduceSinkOperator.processOp(ReduceSinkOperator.java:304)
        at org.apache.hadoop.hive.ql.exec.Operator.process(Operator.java:471)
        at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:762)
        at org.apache.hadoop.hive.ql.exec.GroupByOperator.forward(GroupByOperator.java:959)
        at org.apache.hadoop.hive.ql.exec.GroupByOperator.flush(GroupByOperator.java:926)
        at org.apache.hadoop.hive.ql.exec.GroupByOperator.processHashAggr(GroupByOperator.java:779)
        at org.apache.hadoop.hive.ql.exec.GroupByOperator.processOp(GroupByOperator.java:722)
        at org.apache.hadoop.hive.ql.exec.Operator.process(Operator.java:471)
        at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:762)
        at org.apache.hadoop.hive.ql.exec.SelectOperator.processOp(SelectOperator.java:84)
        at org.apache.hadoop.hive.ql.exec.Operator.process(Operator.java:471)
        at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:762)
        at org.apache.hadoop.hive.ql.exec.TableScanOperator.processOp(TableScanOperator.java:83)
        at org.apache.hadoop.hive.ql.exec.Operator.process(Operator.java:471)
        at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:762)
        at org.apache.hadoop.hive.ql.exec.MapOperator.process(MapOperator.java:533)
        ... 9 more
Caused by: java.io.IOException: Spill failed
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1045)
        at org.apache.hadoop.mapred.MapTask$OldOutputCollector.collect(MapTask.java:599)
        at org.apache.hadoop.hive.ql.exec.ReduceSinkOperator.processOp(ReduceSinkOperator.java:289)
        ... 24 more

Caused by: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for output/s
pill15.out
        at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:381)
        at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:146)
        at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:127)
        at org.apache.hadoop.mapred.MapOutputFile.getSpillFileForWrite(MapOutputFile.java:121)
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1408)
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$1800(MapTask.java:869)
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer$SpillThread.run(MapTask.java:1360)

最佳答案

以下是摘自 the Cloudera blog 的一些笔记:

每个文件的默认复制因子为 3，您需要为中间 shuffle 文件留出大约 25% 的磁盘空间。因此，您需要存储在 HDFS 中的原始数据大小的 4 倍。然而，文件很少以未压缩的形式存储，根据文件内容和压缩算法，我们看到存储在 HDFS 中的文本文件的平均压缩率高达 10-20。因此实际所需的原始磁盘空间仅为原始未压缩大小的 30-50% 左右。

如果我可以添加一些东西，如果空间真的是一个限制，你应该考虑压缩中间输出(在 mapper 和 reducer 之间)以减少中间 shuffle 文件。您可以通过以下方式执行此操作，例如使用 Gzip 压缩:

conf.set(“mapred.compress.map.output”, “true”)
conf.set(“mapred.output.compression.type”, “BLOCK”);
conf.set(“mapred.map.output.compression.codec”, “org.apache.hadoop.io.compress.GzipCodec”);

关于hadoop - Hadoop 集群上的 Hive/Map-Reduce 作业 : How to (roughly) calculate the diskspace needed?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14356328/

28

4

0

文章推荐： django - 使 Django 返回响应为 "different filename"

文章推荐： c++ - 选择性能最高的容器(阵列)

文章推荐： c++ - C++11 中的委托(delegate)

文章推荐： http - 在 Telegram Bot 上访问 api 方法时出现错误 404

ios - 魔法记录: Calculate data with calculations
我知道 Magical Record 支持聚合操作，例如 sum:、max: 但是有没有办法进行一些简单的计算，例如: 总和:属性 * other_attributes 如果我们知道这些属性的值为 N
design-patterns - 用户统计 : "interative calculation" or bulk calculation + caching
我有一个项目可以计算一些关于用户表现的“统计数据”，然后将其展示给他们。所有这些统计数据最终都来自一个记录用户与网站交互的大型“交互”表。目前，所有这些统计数据都是通过查看这些数据来计算的。我们广泛使
Connors RSI Calculation Python Not Calculating Correctly(Connors RSI计算Python计算不正确)
我正在试着用熊猫和NumPy来计算蟒蛇中的Connors RSI。我想用ConnorsRSI的默认值(3，2,100)来计算它。。Connors RSI的公式为：[RSI(Close，3)+RSI(S
r - 面板数据 : Calculate group means while omitting first period from calculation
我对某种 mean() 计算有疑问。我使用带有两个标识符“ID”和“year”的面板数据集(使用 plm pkg) 我想计算变量“y”的分组平均值，但省略了第一年的计算条目，然后仅填写用于计算它的年份
excel - VBA捕获 "calculate sheet (shift+f9)"和 "calculate workbook"事件
我不知道这是否是微不足道的或实际上很棘手:是否可以捕获 VBA 中的“计算工作表 (shift+f9)”和“计算工作簿”事件？我想隐藏一些操作几千行的进程，只显示一些关键值。我正在计算分布，数千行，
sql - PostgreSQL View : Referencing one calculated field in another calculated field
我和#1895500有同样的问题, 但使用 PostgreSQL 而不是 MySQL。如何定义具有计算字段的 View ，例如: (mytable.col1 * 2) AS times_two .
sql - MySQL View : Referencing one calculated field (by name) in another calculated field
如何定义具有两个计算字段的 View ，例如... ('TableName'.'BlueSquares' + 'TableName'.'RedSquares') AS TotalSquares, (
powerbi - CALCULATE(m, x=red) 与 CALCULATE(m, KEEPFILTERS(x=red)) 之间的差异
CALCULATE(m, x=red) 和 CALCULATE(m, KEEPFILTERS(x=red)) 之间有什么区别显然它们不一样。我找到了文档和解释，但我仍然不明白。 https://le
java - 线程 "main"java.lang.NoClassDefFoundError : calculator (wrong name: apackage/calculator) 中出现异常
我正在尝试从命令提示符运行我的 Java 类文件，当我尝试这样做时，我收到此错误 C:\Users\New User\workspace\myproject\bin\apackage>java cal
calculator - If Then 语句显示所有可能性
我正在尝试根据用户的输入显示文本。例如输入单词 APPLE 应该让它显示 BANANA。这段代码工作正常: :Input X :If X=APPLE :Disp "BANANA" 但我不确定如何以此
calculator - 帮助程序员的最佳计算器软件
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想改善这个问题吗？更新问题，以便将其作为on-topic
calculation - 注册篮子计算结果查看
我们正在尝试实现自己的自定义购物篮计算规则集并注册新的结果 View 来获取购物篮计算结果，但我们无法找到一些如何注册新结果 View 类的信息？我们使用这里的示例:https://support.
calculator - TI 基本数字标准
数字变量是否遵循 TI 计算器上的记录标准？我真的很惊讶地注意到我的 TI 83 Premium CE 测试实际上返回了 true(即 1): 0.1 -> X 0.1 -> Y 0.01 -> Z
calculator - Snake 风格游戏的简约方法
大约两天前，我收到了我的 TI-82 STATS 可编程计算器(实际上更像是一个 TI-83) - 并想用内置的 TI-BASIC 语言编写一个贪吃蛇游戏。虽然我不得不找出:TI-BASIC 是极
calculator - 使用两个以上参数计算最小值/最大值
作为家庭作业，我们有一个基本的计算器，它只能进行+运算，我们必须实现更多的功能。我们必须实现括号运算符、符号运算符和最小最大函数。最后的任务之一是扩展最小/最大函数以计算具有两个以上参数的最小/最大，
Excel : calculate a column only
如何从 Excel 的单元格中选择一列，然后仅计算该列？我只知道 SHIFT + F9 可以计算整个工作表，F9 可以计算整个工作簿。谢谢你们;) 最佳答案我认为仅使用标准 Excel 无法做到这
Java-Calculator 多计算
我已经为计算器编写了代码，但它还不能 100% 可靠地工作。每次我进行计算时，例如:“1+1=2”，并且我想要进行另一次计算，我必须关闭小程序并重新启动它。我怎样才能让它回到开始的地方。这是代码:
C程序: Calculating Interest
意图:该程序要求用户提供其银行帐户中当前的金额、年利率和年数。输出是金额的开始和结束，显示用户指定年份的累计利息。问题:我正在尝试找到一种正确添加利息的方法，截至目前，在指定的年份里，我所做的就是乘
javascript calculator(我怎么让第一次点击不接受操作)
我怎么让第一次点击不接受操作返回“0” 这是我的功能 $(document).ready(function(){ $('button').on('click', function(){
224. Basic Calculator 基本计算器
题目地址：https://leetcode.com/problems/basic-calculator/description/ 题目描述 Implement a basic calculator

首页

博学

6Ren·AI

商城

hadoop - Hadoop 集群上的 Hive/Map-Reduce 作业 : How to (roughly) calculate the diskspace needed?