- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
几天来我一直在与 distcp 作斗争,我发誓我已经用 google 搜索了足够多的东西。这是我的用例:
我在某个位置有一个主文件夹,比如 /hdfs/root,里面有很多子目录(深度不固定)和文件。
数量:200,000 个文件 ~= 30 GO
我只需要为客户端复制一个子集,/hdfs/root 在另一个位置,比如/hdfs/dest该子集由可以随时间更新的绝对路径列表定义。
数量:50,000 个文件 ~= 5 GO
你知道我不能使用简单的 hdfs dfs -cp/hdfs/root/hdfs dest
因为它没有优化,它会占用每个文件,而且它没有 -更新模式。
我最终以两种方式使用 hadoop distcp:
Algo 1 (simplified):
# I start up to N distcp jobs in parallel for each subdir, with N=MAX_PROC (~30)
foreach subdir in mylist:
# mylist = /hdfs/root/dirX/file1 /hdfs/root/dirX/file2 ...
mylist = buildList(subdirs)
hadoop distcp -i -pct -update mylist /hdfs/dest/subdir &
和
Algo 2
# I start one distcp that has a blacklist
blacklist = buildBlackList()
hadoop distcp -numListstatusThread 10 -filters blacklist -pct -update /hdfs/root /hdfs/dest
Algo 2 甚至没有开始,似乎在源和黑名单之间建立差异对他来说太难了,所以我使用 Algo 1,而且它有效。
知道我需要在 Oozie 工作流中安排所有工作流。我已将算法 2 放入 shell 操作中,因为我有很多 distcp 命令并且我不掌握 oozie 中的递归或循环。
启动后,过了一会儿,我收到以下错误:容器运行超出物理内存限制。当前使用情况:已使用 17.2 GB 的 16 GB 物理内存
好吧,我要添加更多内存:
<configuration>
<property>
<name>oozie.launcher.mapreduce.map.memory.mb</name>
<value>32768</value>
</property>
<property>
<name>oozie.launcher.mapreduce.map.java.opts</name>
<value>-Xmx512m</value>
</property>
</configuration>
我仍然得到:容器运行超出了物理内存限制。当前使用情况:使用了 32.8 GB 的 32 GB 物理内存但该作业的生命周期是前一个作业的两倍。
我的集群上的 RAM 不是无限的,所以我不能再进一步了。这是我的假设:
此外,关于内存管理还有很多我不了解的地方,它很模糊(yarn、oozie、jvm、mapreduce)。
在谷歌搜索时,我注意到很少有人在谈论真正的 distcp 用例,这篇文章已有 4 天了:https://community.hortonworks.com/articles/71775/managing-hadoop-dr-with-distcp-and-snapshots.html并解释了我无法在我的案例中使用的快照用法。
我也听说过 http://atlas.incubator.apache.org这最终会通过“标记”文件并授予特定用户访问权限来解决我的问题,这样我们就可以避免复制到某个位置。我的管理团队正在研究它,但我们不会让它投入生产。
我很绝望。帮助我。
最佳答案
YARN 容器构建于 Linux“cgroups”之上。这些“cgroups”用于对 CPU 进行软限制,而不是对 RAM...
因此,YARN 使用了一个笨拙的解决方法:它定期检查每个容器使用了多少 RAM,并残忍地杀死任何超过配额的东西。所以你丢失了执行日志,只得到你看到的那条可怕的消息。
在大多数情况下,您正在运行某种 JVM 二进制文件(即 Java/Scala 实用程序或自定义程序),因此您可以通过设置自己的 JVM 配额(尤其是 -Xmx
)来摆脱困境,因此你总是保持在 YARN 限制之下。这意味着由于安全裕度而浪费了一些 RAM。但更糟糕的情况是当 JVM 内存不足时完全失败,您可以充分获取执行日志,然后可以开始调整配额——或修复内存泄漏 :-/
那么在您的具体情况下会发生什么?您正在使用 Oozie 启动一个 shell——然后该 shell 启动一个在 JVM 中运行的 hadoop
命令。您必须在嵌入式 JVM 上设置最大堆大小。
oozie.launcher.mapreduce.map.memory.mb
),那么您必须确保 shell 中的 Java 命令不会消耗超过 28GB 的堆(为了安全起见)。
如果幸运的话,设置一个环境变量就可以了:
export HADOOP_OPTS=-Xmx28G
hadoop distcp ...........
如果你不走运,你将不得不打开 hadoop-env.sh
的整个困惑,将不同的 env 变量与不同的设置混合(由明显讨厌你的人设置,在初始化脚本中你甚至不知道)由 JVM 使用复杂的优先规则解释。玩得开心。你可以看看 that very old post有关挖掘位置的提示。
关于hadoop - Distcp - 容器运行超出物理内存限制,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41226242/
这是我想做的 1 - 点击提交 2 - 隐藏 DIV 容器 1 3 - 显示 DIV 容器 2 4 - 将“PricingDisclaimer.php”中找到的所有 DIV 加载到 Div 容器 2
我有一个 ios 应用程序,它使用 iCloudcontainer 来保存用户的一些数据,例如用户的“到期日期”。我要用不同的方式创建应用程序的副本开发者账号。我要将用户从第一个应用程序迁移到第二个应
这是场景。 我有三个容器。 Container1、container2 和 container3(基于 Ubuntu 的镜像),其中 container2 充当容器 1 和容器 2 之间的路由器。 我
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
我正在改造管道以使用声明式管道方法,以便我能够 to use Docker images在每个阶段。 目前我有以下工作代码,它执行连接到在 Docker 容器中运行的数据库的集成测试。 node {
我正在开发一个需要尽可能简单地为最终用户安装的应用程序。虽然最终用户可能是经验丰富的 Linux 用户(或销售工程师),但他们对 Tomcat、Jetty 等并不真正了解,我认为他们也不应该了解。 所
我从gvisor-containerd-shim(Shim V1)移到了containerd-shim-runsc-v1(Shim V2)。在使用gvisor-containerd-shim的情况下,
假设我们只在某些开发阶段很少需要这样做(冒烟测试几个 api 调用),让项目 Bar 中的 dockerized web 服务访问 Project Foo 中的 dockerized web 服务的最
各位,我的操作系统是 Windows 10,运行的是 Docker 版本 17.06.0-ce-win19。我在 Windows 容器中运行 SQL Server Express,并且希望将 SQL
谁能告诉我,为什么我们不能在 Azure 存储中的容器内创建容器?还有什么方法可以处理,我们需要在 azure 存储中创建目录层次结构? 最佳答案 您无法在容器中创建容器,因为 Windows Azu
#include template struct Row { Row() { puts("Row default"); } Row(const Row& other) { puts
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
RDF容器用于描述一组事物 例如,把一本书的所有作者列在一起 RDF容器有三种类型: <Bag> <Seq> <Alt> <rdf:
编辑:从到目前为止添加的答案和评论看来,我没有正确解释我想要什么。下面是一个例子: // type not supporting any type of comparison [] [] type b
我正在测试 spatie 的异步项目。我创建了一个这样的任务。 use Spatie\Async\Task; class ServiceTask extends Task { protecte
我想使用 Azure Blob 存储来上传和下载文档。有一些公司可以上传和下载他们的文档。我想保证这些文件的安全。这意味着公司只能看到他们的文件。不是别人的。 我可以在 blob 容器中创建多个文件夹
我正在尝试与 Azure 中的容器实例进行远程交互。我已执行以下步骤: 已在本地注册表中加载本地镜像 docker load -i ima.tar 登录远程 ACR docker登录--用户名--密码
我正在研究http://progrium.viewdocs.io/dokku/process-management/,并试图弄清楚如何从单个项目中运行多个服务。 我有一个Dockerfile的仓库:
我有一个想要容器化的单体应用程序。文件夹结构是这样的: --app | |-file.py <-has a variable foo that is passed in --configs
我正在学习 Docker,并且一直在为 Ubuntu 容器制作 Dockerfile。 我的问题是我不断获取不同容器之间的持久信息。我已经退出,移除了容器,然后移除了它的图像。在对 Dockerfil
我是一名优秀的程序员,十分优秀!