- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在尝试使用 distcp
在两个 hadoop 集群之间移动数据。大量的小文件需要移动大量的数据。为了让它更快,我尝试使用 -strategy dynamic
,根据文档,它“允许更快的数据节点比更慢的节点复制更多的字节”。
我将映射器的数量设置为 400。当我启 Action 业时,我看到此错误:java.io.IOException:使用 splitRatio:2、numMaps:400 创建的 block 太多。减少 numMaps 或降低拆分比率以继续。
当我用谷歌搜索时,我找到了这个链接:https://issues.apache.org/jira/browse/MAPREDUCE-5402在这个链接中,作者要求我们可以增加 distcp.dynamic.max.chunks.tolerable
的特性来解决这个问题。
工单上说问题已在 2.5.0
版本中解决。我使用的 hadoop 版本是 2.7.3
。所以我相信我应该可以增加 distcp.dynamic.max.chunks.tolerable
的值。
但是,我不确定如何增加它。是否可以通过像 -Dmapreduce.job.queuename
一样传递它来为单个 distcp 作业更新此配置,或者我是否必须在 mapred-site.xml
上更新它?任何帮助将不胜感激。
如果有大量小文件,这种方法是否也适用?我可以使用任何其他参数来使其更快吗?任何帮助将不胜感激。
谢谢。
最佳答案
我想通了。可以使用 distcp 命令传递参数,而不必更新 mapred-site.xml:
hadoop distcp -Ddistcp.dynamic.recordsPerChunk=50 -Ddistcp.dynamic.max.chunks.tolerable=10000 -skipcrccheck -m 400 -prbugc -update -strategy dynamic "hdfs://source" "hdfs://target"
关于Hadoop Distcp - 增加 distcp.dynamic.max.chunks.tolerable 配置和调整 distcp,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57514628/
我更新了kube-apiserver服务,默认容限为60秒。 --default-unreachable-toleration-seconds=60 --default-not-ready-toler
我有以下步骤: return stepBuilderFactory.get("billStep") .allowStartIfComplete(true)
我想为以下查询添加某种“容差”。这意味着,我可以指定一个值来表示四个(子)选择中有多少返回行 > 0。因此,如果该值为 2,我只想连接这两个表。有没有办法实现这一点? SELECT distinct(
我有这个 df : FRAME TRACK_ID SUM TC_17 1 15 0 1 2 15 0 1 3
@Tolerate注释是 lombok 中的一项实验性功能其中目标类型是方法或构造函数。 Lombok website提到: Any method or constructor can be anno
我有一个带有 float 字段的类。例如: public class MultipleFields { final int count; final float floatValue;
有人知道 JSLint 的“容忍愚蠢”选项是什么意思吗?它会禁用哪些警告系列? 我找到了一些关于 Node.js 和“Sync”方法的引用资料(包括 Crockford 的评论“它的名字非常好”),但
出于学习原因,我正在使用 scikit-learn 界面创建自定义分类器。所以,我想出了以下代码: import numpy as np from sklearn.utils.estimator_ch
HP NonStop 系统(以前称为“Tandem”)以其高可用性和可靠性以及更高的价格而闻名。 在这些方面和其他方面,基于 Linux 或 Unix 的集群与它们相比如何? 最佳答案 在容错机器上,
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 想改进这个问题?将问题更新为 on-topic对于堆栈溢出。 6年前关闭。 Improve this qu
我整合了许多有用的答案,并提出了我自己的 answer below 例如,我正在编写一个 API Foo这需要显式初始化和终止。 (应该与语言无关,但我在这里使用 C++) class Foo { p
据我从维基百科和令人难以置信的 HPE 网站收集到的信息,NonStop 系统架构的名声在于它可以实现单一故障 FT,而无需分配过多的备用容量(即在锁步架构中您通常需要 3 倍的超额配置)。 这似乎是
我经常使用 Boost.Test 来测试数值。我经常需要比较数学对象的值。下面是一个玩具示例,展示了我如何进行大量测试。 #define BOOST_TEST_MODULE VektorTest #i
[class.derived]的第一段说的是基类说明符, If the name found is not a class-name, the program is ill-formed. 但是,一个
在解析 Kaitai Struct 中的截断日志时,有什么方法可以传递一些字段吗?因为如果它读取一个字段(类型指定为枚举)但值不在其中,它将引发 NullPointer Exception。 所以我想
根据scikit-learn SGDClassifier documentation ,修改后的 Huber 损失函数可用于对异常值提供更高的容忍度。 看看 plot虽然是成本函数的一部分,但 Mod
我使用JSLint ST 插件(除了 SublimeLinter-jshint 插件)。 我不同意使用 ++ 或 -- 是邪恶的、棘手的等理论,并且可以非常自由地使用它们。因此,我不喜欢在整个代码中
我是 Kubernetes 的新手,并且遇到了一些错误。我想在我的本地系统(mac)上创建 Kubernetes 集群。 我的部署.yaml -- apiVersion: apps/v1 kind:
我无法找出导致应用程序在退出时崩溃的原因。更让人困惑的是,它并不总是崩溃,有时会崩溃,有时不会,而且它似乎完全是任意的。 该示例基本上创建了一个自定义图像提供程序,该提供程序将静态谷歌地图 API 请
在 xgb.cv 函数(来自库 xgboost)中,其中一个选项是 early_stopping_rounds。这个选项的描述是: 如果为 NULL,则不触发提前停止功能。如果设置为整数 k,如果性能
我是一名优秀的程序员,十分优秀!