- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
几天来我一直在与 distcp 作斗争,我发誓我已经用 google 搜索了足够多的东西。这是我的用例:
我在某个位置有一个主文件夹,比如 /hdfs/root,里面有很多子目录(深度不固定)和文件。
数量:200,000 个文件 ~= 30 GO
我只需要为客户端复制一个子集,/hdfs/root 在另一个位置,比如/hdfs/dest该子集由可以随时间更新的绝对路径列表定义。
数量:50,000 个文件 ~= 5 GO
你知道我不能使用简单的 hdfs dfs -cp/hdfs/root/hdfs dest
因为它没有优化,它会占用每个文件,而且它没有 -更新模式。
我最终以两种方式使用 hadoop distcp:
Algo 1 (simplified):
# I start up to N distcp jobs in parallel for each subdir, with N=MAX_PROC (~30)
foreach subdir in mylist:
# mylist = /hdfs/root/dirX/file1 /hdfs/root/dirX/file2 ...
mylist = buildList(subdirs)
hadoop distcp -i -pct -update mylist /hdfs/dest/subdir &
和
Algo 2
# I start one distcp that has a blacklist
blacklist = buildBlackList()
hadoop distcp -numListstatusThread 10 -filters blacklist -pct -update /hdfs/root /hdfs/dest
Algo 2 甚至没有开始,似乎在源和黑名单之间建立差异对他来说太难了,所以我使用 Algo 1,而且它有效。
知道我需要在 Oozie 工作流中安排所有工作流。我已将算法 2 放入 shell 操作中,因为我有很多 distcp 命令并且我不掌握 oozie 中的递归或循环。
启动后,过了一会儿,我收到以下错误:容器运行超出物理内存限制。当前使用情况:已使用 17.2 GB 的 16 GB 物理内存
好吧,我要添加更多内存:
<configuration>
<property>
<name>oozie.launcher.mapreduce.map.memory.mb</name>
<value>32768</value>
</property>
<property>
<name>oozie.launcher.mapreduce.map.java.opts</name>
<value>-Xmx512m</value>
</property>
</configuration>
我仍然得到:容器运行超出了物理内存限制。当前使用情况:使用了 32.8 GB 的 32 GB 物理内存但该作业的生命周期是前一个作业的两倍。
我的集群上的 RAM 不是无限的,所以我不能再进一步了。这是我的假设:
此外,关于内存管理还有很多我不了解的地方,它很模糊(yarn、oozie、jvm、mapreduce)。
在谷歌搜索时,我注意到很少有人在谈论真正的 distcp 用例,这篇文章已有 4 天了:https://community.hortonworks.com/articles/71775/managing-hadoop-dr-with-distcp-and-snapshots.html并解释了我无法在我的案例中使用的快照用法。
我也听说过 http://atlas.incubator.apache.org这最终会通过“标记”文件并授予特定用户访问权限来解决我的问题,这样我们就可以避免复制到某个位置。我的管理团队正在研究它,但我们不会让它投入生产。
我很绝望。帮助我。
最佳答案
YARN 容器构建于 Linux“cgroups”之上。这些“cgroups”用于对 CPU 进行软限制,而不是对 RAM...
因此,YARN 使用了一个笨拙的解决方法:它定期检查每个容器使用了多少 RAM,并残忍地杀死任何超过配额的东西。所以你丢失了执行日志,只得到你看到的那条可怕的消息。
在大多数情况下,您正在运行某种 JVM 二进制文件(即 Java/Scala 实用程序或自定义程序),因此您可以通过设置自己的 JVM 配额(尤其是 -Xmx
)来摆脱困境,因此你总是保持在 YARN 限制之下。这意味着由于安全裕度而浪费了一些 RAM。但更糟糕的情况是当 JVM 内存不足时完全失败,您可以充分获取执行日志,然后可以开始调整配额——或修复内存泄漏 :-/
那么在您的具体情况下会发生什么?您正在使用 Oozie 启动一个 shell——然后该 shell 启动一个在 JVM 中运行的 hadoop
命令。您必须在嵌入式 JVM 上设置最大堆大小。
oozie.launcher.mapreduce.map.memory.mb
),那么您必须确保 shell 中的 Java 命令不会消耗超过 28GB 的堆(为了安全起见)。
如果幸运的话,设置一个环境变量就可以了:
export HADOOP_OPTS=-Xmx28G
hadoop distcp ...........
如果你不走运,你将不得不打开 hadoop-env.sh
的整个困惑,将不同的 env 变量与不同的设置混合(由明显讨厌你的人设置,在初始化脚本中你甚至不知道)由 JVM 使用复杂的优先规则解释。玩得开心。你可以看看 that very old post有关挖掘位置的提示。
关于hadoop - Distcp - 容器运行超出物理内存限制,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41226242/
我一直在寻找游戏/模拟解决方案,以便在时间流逝时寻找距离,但这不是我要找的。 我正在寻找一个 O(1) 公式来计算(0 或 1 或 2)时钟时间,其中两个圆圈彼此之间的距离恰好为 r1+r2。负时间是
我究竟做错了什么? > crossprod(1:3,4:6) [,1] [1,] 32 根据本网站:http://onlinemschool.com/math/assistance/ve
嗨,我目前正在为类开发一个迷你游戏(第一次做这样的事情),我根本不知道如何开始碰撞检测。好吧,我正在创建的游戏是一款在冰冷的圆形竞技场上自上而下的相扑格斗游戏,您可以四处移动以获得动力和速度,并尝试击
这段代码取自使用 XNA 框架构建的游戏。我想从三角学和物理学的角度解释一下它是如何工作的。 ball.velocity = new Vector2((float)Math.Cos(cannon.ro
因此,我正在努力自学 Canvas (HTML5) 并编写了大部分简单的游戏引擎代码。它是空间场景(行星、恒星、天体等)的二维表示。我的默认“Sprite”类有一个像这样的帧监听器: “baseCla
这个问题在这里已经有了答案: Are the physical memory addresses of an array also stored in order like the virtual o
我正在尝试阅读英特尔软件开发人员手册以了解操作系统的工作原理,这四个寻址术语让我感到困惑。以上是我的理解,如有不对请指正。 线性地址 : 对一个孤立的程序来说,似乎是一长串以地址0开头的内存。该程序的
我尝试在 AndEngine 示例包中复制并粘贴物理示例。 没有出现错误,但当我运行它时,模拟器显示“不幸的是,PhysicsActivity 已停止”。 模拟器使用 API 15,GPU 已开启,磁
当我运行此代码时,第一行 CollisionWithplayer 给了我一个错误的指令错误。该错误不会每次都会出现,只是偶尔出现一次,并且没有类似的条件来确定导致该错误的原因。 func didBeg
您好,我有以下 Canvas 应用程序:http://dev.driz.co.uk/canvas/ 正如您将看到的,它渲染了一堆球。我遇到的问题是当应用程序首次启动时,球被 Canvas 边缘切断。他
我有两个 3d 物理 vector ,带有 (x,y,z) 和方向。我想对它们做一些操作。但我有一些问题: 我应该如何在 C++ 中表示这个 vector ?换句话说,我在下面写了类,但我不知道如何表
我有一个有 body 的 Sprite 。我想通过路径移动 Sprite 。我已经尝试使用 PathModifier 执行此操作, Sprite 会按原样移动,但它的 body 不会跟随 Sprite
我开发了类似投币推土机的游戏。为了硬币的平稳移动,我为每个硬币添加了一种物理 Material ,但这样做之后我的游戏速度非常慢。有没有其他选择,或者我如何在不使用物理 Material 的情况下使硬
我正在开发一款简单的平台游戏,例如 super 马里奥。我将 Java 与 LibGdx 引擎一起使用。我的物理问题与帧率无关。在我的游戏中,角色可以跳跃,跳跃高度显然取决于帧率。 在我的桌面上,游戏
我正在开发一个可能包含数学、物理和化学符号的问答应用程序,因为这是一个实时游戏应用程序,每次问题将从服务器下载并针对特定主题显示。它需要是一个原生的 Android 应用程序,并且性能非常重要(两人游
我的任务是编写一个对象,该对象可以接收不同类型的路径/url,并返回它是什么类型的路径/url。例如路径可以是 1. [drive]:\Temp 2. \\Temp 3. Temp (assuming
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,
注意:当我提到层时,我指的是物理层。此站点上与“层”相关的许多问题都指的是逻辑层,这不是我要问的。 我正在设计一个使用标准“3 层”架构的应用程序,包括表示层、业务逻辑 (BLL) 层和数据访问层 (
如何检查设备上的屏幕或物理/电容式导航按钮 最佳答案 您可以使用 ViewConfiguration.get(context).hasPermanentMenuKey() 仅适用于 API 级别 14
我在我的 android 游戏中使用 AndEngine,我从 github 下载了主 AndEngine,但是没有主的 Physics Box2D 扩展。我不知道在哪里下载它或我可以使用它的哪个版本
我是一名优秀的程序员,十分优秀!