- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
几天来我一直在与 distcp 作斗争,我发誓我已经用 google 搜索了足够多的东西。这是我的用例:
我在某个位置有一个主文件夹,比如 /hdfs/root,里面有很多子目录(深度不固定)和文件。
数量:200,000 个文件 ~= 30 GO
我只需要为客户端复制一个子集,/hdfs/root 在另一个位置,比如/hdfs/dest该子集由可以随时间更新的绝对路径列表定义。
数量:50,000 个文件 ~= 5 GO
你知道我不能使用简单的 hdfs dfs -cp/hdfs/root/hdfs dest
因为它没有优化,它会占用每个文件,而且它没有 -更新模式。
我最终以两种方式使用 hadoop distcp:
Algo 1 (simplified):
# I start up to N distcp jobs in parallel for each subdir, with N=MAX_PROC (~30)
foreach subdir in mylist:
# mylist = /hdfs/root/dirX/file1 /hdfs/root/dirX/file2 ...
mylist = buildList(subdirs)
hadoop distcp -i -pct -update mylist /hdfs/dest/subdir &
和
Algo 2
# I start one distcp that has a blacklist
blacklist = buildBlackList()
hadoop distcp -numListstatusThread 10 -filters blacklist -pct -update /hdfs/root /hdfs/dest
Algo 2 甚至没有开始,似乎在源和黑名单之间建立差异对他来说太难了,所以我使用 Algo 1,而且它有效。
知道我需要在 Oozie 工作流中安排所有工作流。我已将算法 2 放入 shell 操作中,因为我有很多 distcp 命令并且我不掌握 oozie 中的递归或循环。
启动后,过了一会儿,我收到以下错误:容器运行超出物理内存限制。当前使用情况:已使用 17.2 GB 的 16 GB 物理内存
好吧,我要添加更多内存:
<configuration>
<property>
<name>oozie.launcher.mapreduce.map.memory.mb</name>
<value>32768</value>
</property>
<property>
<name>oozie.launcher.mapreduce.map.java.opts</name>
<value>-Xmx512m</value>
</property>
</configuration>
我仍然得到:容器运行超出了物理内存限制。当前使用情况:使用了 32.8 GB 的 32 GB 物理内存但该作业的生命周期是前一个作业的两倍。
我的集群上的 RAM 不是无限的,所以我不能再进一步了。这是我的假设:
此外,关于内存管理还有很多我不了解的地方,它很模糊(yarn、oozie、jvm、mapreduce)。
在谷歌搜索时,我注意到很少有人在谈论真正的 distcp 用例,这篇文章已有 4 天了:https://community.hortonworks.com/articles/71775/managing-hadoop-dr-with-distcp-and-snapshots.html并解释了我无法在我的案例中使用的快照用法。
我也听说过 http://atlas.incubator.apache.org这最终会通过“标记”文件并授予特定用户访问权限来解决我的问题,这样我们就可以避免复制到某个位置。我的管理团队正在研究它,但我们不会让它投入生产。
我很绝望。帮助我。
最佳答案
YARN 容器构建于 Linux“cgroups”之上。这些“cgroups”用于对 CPU 进行软限制,而不是对 RAM...
因此,YARN 使用了一个笨拙的解决方法:它定期检查每个容器使用了多少 RAM,并残忍地杀死任何超过配额的东西。所以你丢失了执行日志,只得到你看到的那条可怕的消息。
在大多数情况下,您正在运行某种 JVM 二进制文件(即 Java/Scala 实用程序或自定义程序),因此您可以通过设置自己的 JVM 配额(尤其是 -Xmx
)来摆脱困境,因此你总是保持在 YARN 限制之下。这意味着由于安全裕度而浪费了一些 RAM。但更糟糕的情况是当 JVM 内存不足时完全失败,您可以充分获取执行日志,然后可以开始调整配额——或修复内存泄漏 :-/
那么在您的具体情况下会发生什么?您正在使用 Oozie 启动一个 shell——然后该 shell 启动一个在 JVM 中运行的 hadoop
命令。您必须在嵌入式 JVM 上设置最大堆大小。
oozie.launcher.mapreduce.map.memory.mb
),那么您必须确保 shell 中的 Java 命令不会消耗超过 28GB 的堆(为了安全起见)。
如果幸运的话,设置一个环境变量就可以了:
export HADOOP_OPTS=-Xmx28G
hadoop distcp ...........
如果你不走运,你将不得不打开 hadoop-env.sh
的整个困惑,将不同的 env 变量与不同的设置混合(由明显讨厌你的人设置,在初始化脚本中你甚至不知道)由 JVM 使用复杂的优先规则解释。玩得开心。你可以看看 that very old post有关挖掘位置的提示。
关于hadoop - Distcp - 容器运行超出物理内存限制,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41226242/
在文档中我们可以找到 The limits are based on a moving window that tracks the number of requests you send per h
我试图了解使用 Windows Azure 托管 Web 服务的正确方法。在阅读了一些可用的文档后,我已经达到以下几行: Windows Azure takes the following actio
我正在使用 unboundid ldap sdk 来执行 ldap 查询。运行 ldap 搜索查询时遇到一个奇怪的问题。当我对包含 50k 个条目的组运行查询时出现异常。我的异常(exception)
我有以下 docker-compose 文件: version: "2.4" services: auto_check: image: python mem_limit: 97M
我有副本集(托管在亚马逊上),其中有: 主要 中学 仲裁者 它们都是 3.2.6 版本,这个副本正在我的分片集群中创建一个分片(如果这很重要,尽管我认为它不重要)。 当我在 primary 上键入 r
我知道在 C++ 中访问缓冲区边界是未定义的行为。 这是来自 cppreference 的示例: int table[4] = {}; bool exists_in_table(int v) {
嗨,我有一个表单的 div。我希望当鼠标离开 div 时禁用单击事件。所以我尝试了这个,但它不起作用,div 仍然可以点击。有什么想法吗?? var flag = false; $("#foo").l
我正在使用我的客户端获取有关存储在我的 Swift 对象存储中的某个文件的一些信息,该文件可以通过 REST Api 访问。在 Swift 中,指向指定对象的 HEAD 方法和 url 返回它的元数据
如何在 Excel 的 CONCATENATE 函数中使用超过 255 个字符?我实际上也在 EXCEL 的 HYPERLINK 函数中使用 CONCATENATE 函数。一个例子如下: =HYPER
在 java 6 web 应用程序中,我尝试从执行的命令中检索大量输出。我在 javaworld article 上“借用/窃取/基于”它。我面临的问题是,由于输出被截断,长度似乎超出了大小限制。我已
我有一个更改事件,当选择框更改时会触发该事件。然而,选择框位于被替换的 div 内,因此会重新生成选择框。由于此错误可能是由于无限循环造成的,因此我猜测创建选择框时也必须触发我的触发事件。我尝试了很多
我正在 visual studio 2013 中用 c# 创建一个网络服务。我已连接到数据库并使用以下代码返回 json。 [WebMethod] [ScriptMethod(ResponseForm
我使用 php 脚本解析远程 xml 文件并将网页上的输出打印到 div 中。由于我需要输出必须与当前播放的轨道同步,所以我使用 Javascript 每 20 秒重新加载一次 div 内容。在测试页
#define MAX_BUFF_SIZE 64 char input[MAX_BUFF_SIZE]; int inSize = read(0, input, MAX_BUFF_SIZE); if
我在申请公司时遇到了问题。 我将总结系统的关键要素: 我公司的系统几年前就在 Windows XP 和 7(家庭版、专业版、基本版)机器上运行。 它是用 .NET 4.0 编写的,基于 WCF。 它使
我有一个渲染循环,用于监听数位板输入并从顶点/索引缓冲区(以及其他内容)中绘制。顶点数据可以增长,当它达到一定水平时,DispatchMsg(&msg) 会遇到这种情况: Unhandled exce
我通过 Postgres JDBC 驱动程序使用 Java 1.7 和 Postgres。将从 Web 服务使用数据库连接。在测试中,我得到了以下错误: FATAL: connection limit
我想知道当超过 Firebase 实时数据库的限制时会发生什么。问题是我知道我可以拥有的最大连接数仅为 100。现在,假设我的 Android 应用程序有 1,000 个活跃用户,并且我实现了实时数据
我正在将一组图像上传到我的 node.js Express 服务器,但收到错误 - “错误:超出 maxFieldsSize”。看起来默认的 maxFieldsSize 是 2MB。我需要能够上传最多
我正在使用 Django 构建一个小型 Web 项目,该项目有一个包含 ImageField 的模型 (Image)。当我尝试使用管理界面上传图片时,我遇到了这个问题(删除了个人身份信息): Runt
我是一名优秀的程序员,十分优秀!