- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我在 YARN 客户端模式下运行一个 Spark 应用程序,有六个执行器(每个四个内核和执行器内存 = 6 GB,开销 = 4 GB,Spark 版本:1.6.3/2.1.0)。
我发现我的执行程序内存一直在增加,直到被节点管理器杀死;它给出了告诉我提升 spark.yarn.excutor.memoryOverhead
的信息。
我知道这个参数主要是控制堆外分配内存的大小。但是我不知道Spark引擎会在什么时候以及如何使用这部分内存。另外增加那部分内存并不总能解决我的问题。有时有效,有时无效。当输入数据很大时,它趋向于无用。
仅供引用,我的应用程序的逻辑非常简单。意思是把一天(一天一个目录)产生的小文件合并成一个,写回HDFS。这是核心代码:
val df = spark.read.parquet(originpath)
.filter(s"m = ${ts.month} AND d = ${ts.day}")
.coalesce(400)
val dropDF = df.drop("hh").drop("mm").drop("mode").drop("y").drop("m").drop("d")
dropDF.repartition(1).write
.mode(SaveMode.ErrorIfExists)
.parquet(targetpath)
源文件可能有几百到几千级的分区。 parquet 文件的总大小约为 1 到 5 GB。
另外我发现在shuffle从不同机器读取数据的步骤中,shuffle read的大小大约是输入大小的四倍,这是有线的还是一些我不知道的原理。
无论如何,我已经自己搜索了这个问题。有文章说在direct buffer memory上(我自己没设置)。
一些文章说人们通过更频繁的 full GC 来解决它。
此外,我在 Stack Overflow 上发现一个人的情况非常相似: Ever increasing physical memory for a Spark application in YARN
这个人声称这是 parquet 的一个错误,但有评论质疑他。此邮件列表中的人也可能在几个小时前收到一封来自 blondowski 的电子邮件,他在编写 JSON 时描述了这个问题: Executors - running out of memory
所以这看起来像是不同输出格式的常见问题。
希望有这方面经验的大侠给个解释。为什么会发生这种情况,解决这个问题的可靠方法是什么?
最佳答案
这几天正好和同事一起做一些调查。这是我的想法:从 spark 1.2 开始,我们使用带有堆外内存的 Netty 来减少 shuffle 和缓存 block 传输期间的 GC。就我而言,如果我尝试将内存开销增加得足够大。我将得到 Max 直接缓冲区异常。 Netty做 block 传输时,默认会有5个线程抓取数据 block 给目标执行器。在我的情况下,单个 block 太大而无法放入缓冲区。所以 gc 在这里无济于事。我最终的解决方案是在 repartition(1) 之前再做一次 repartition。只是为了制作比原来多 10 倍的分区。通过这种方式,我可以减少每个 chunk Netty 传输的大小。就这样我终于成功了。
另外我想说的是,将大数据集重新分区为单个文件并不是一个好的选择。这种极度不平衡的情况有点浪费您的计算资源。
欢迎大家评论,这部分我还不是很明白。
关于hadoop - YARN 上的 Spark 应用程序的物理内存使用量不断增加,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41789424/
我一直在寻找游戏/模拟解决方案,以便在时间流逝时寻找距离,但这不是我要找的。 我正在寻找一个 O(1) 公式来计算(0 或 1 或 2)时钟时间,其中两个圆圈彼此之间的距离恰好为 r1+r2。负时间是
我究竟做错了什么? > crossprod(1:3,4:6) [,1] [1,] 32 根据本网站:http://onlinemschool.com/math/assistance/ve
嗨,我目前正在为类开发一个迷你游戏(第一次做这样的事情),我根本不知道如何开始碰撞检测。好吧,我正在创建的游戏是一款在冰冷的圆形竞技场上自上而下的相扑格斗游戏,您可以四处移动以获得动力和速度,并尝试击
这段代码取自使用 XNA 框架构建的游戏。我想从三角学和物理学的角度解释一下它是如何工作的。 ball.velocity = new Vector2((float)Math.Cos(cannon.ro
因此,我正在努力自学 Canvas (HTML5) 并编写了大部分简单的游戏引擎代码。它是空间场景(行星、恒星、天体等)的二维表示。我的默认“Sprite”类有一个像这样的帧监听器: “baseCla
这个问题在这里已经有了答案: Are the physical memory addresses of an array also stored in order like the virtual o
我正在尝试阅读英特尔软件开发人员手册以了解操作系统的工作原理,这四个寻址术语让我感到困惑。以上是我的理解,如有不对请指正。 线性地址 : 对一个孤立的程序来说,似乎是一长串以地址0开头的内存。该程序的
我尝试在 AndEngine 示例包中复制并粘贴物理示例。 没有出现错误,但当我运行它时,模拟器显示“不幸的是,PhysicsActivity 已停止”。 模拟器使用 API 15,GPU 已开启,磁
当我运行此代码时,第一行 CollisionWithplayer 给了我一个错误的指令错误。该错误不会每次都会出现,只是偶尔出现一次,并且没有类似的条件来确定导致该错误的原因。 func didBeg
您好,我有以下 Canvas 应用程序:http://dev.driz.co.uk/canvas/ 正如您将看到的,它渲染了一堆球。我遇到的问题是当应用程序首次启动时,球被 Canvas 边缘切断。他
我有两个 3d 物理 vector ,带有 (x,y,z) 和方向。我想对它们做一些操作。但我有一些问题: 我应该如何在 C++ 中表示这个 vector ?换句话说,我在下面写了类,但我不知道如何表
我有一个有 body 的 Sprite 。我想通过路径移动 Sprite 。我已经尝试使用 PathModifier 执行此操作, Sprite 会按原样移动,但它的 body 不会跟随 Sprite
我开发了类似投币推土机的游戏。为了硬币的平稳移动,我为每个硬币添加了一种物理 Material ,但这样做之后我的游戏速度非常慢。有没有其他选择,或者我如何在不使用物理 Material 的情况下使硬
我正在开发一款简单的平台游戏,例如 super 马里奥。我将 Java 与 LibGdx 引擎一起使用。我的物理问题与帧率无关。在我的游戏中,角色可以跳跃,跳跃高度显然取决于帧率。 在我的桌面上,游戏
我正在开发一个可能包含数学、物理和化学符号的问答应用程序,因为这是一个实时游戏应用程序,每次问题将从服务器下载并针对特定主题显示。它需要是一个原生的 Android 应用程序,并且性能非常重要(两人游
我的任务是编写一个对象,该对象可以接收不同类型的路径/url,并返回它是什么类型的路径/url。例如路径可以是 1. [drive]:\Temp 2. \\Temp 3. Temp (assuming
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,
注意:当我提到层时,我指的是物理层。此站点上与“层”相关的许多问题都指的是逻辑层,这不是我要问的。 我正在设计一个使用标准“3 层”架构的应用程序,包括表示层、业务逻辑 (BLL) 层和数据访问层 (
如何检查设备上的屏幕或物理/电容式导航按钮 最佳答案 您可以使用 ViewConfiguration.get(context).hasPermanentMenuKey() 仅适用于 API 级别 14
我在我的 android 游戏中使用 AndEngine,我从 github 下载了主 AndEngine,但是没有主的 Physics Box2D 扩展。我不知道在哪里下载它或我可以使用它的哪个版本
我是一名优秀的程序员,十分优秀!