apache-spark - Spark : how to estimate size of Eden? 中的垃圾收集调整-6ren

apache-spark - Spark : how to estimate size of Eden? 中的垃圾收集调整

转载作者：行者123 更新时间：2023-12-05 06:34:53

26

4

我正在阅读 Bill Chambers 和 Matei Zaharia 所著的 Spark:权威指南 中有关垃圾收集调优的内容。本章主要基于Spark's documentation .尽管如此，作者还是通过一个示例扩展了文档，说明如何处理过多的次要集合但处理过多的主要集合。

官方文档和书中都指出:

If there are too many minor collections but not many major GCs, allocating more memory for Eden would help. You can set the size of the Eden to be an over-estimate of how much memory each task will need. If the size of Eden is determined to be E, then you can set the size of the Young generation using the option -Xmn=4/3*E. (The scaling up by 4/3 is to account for space used by survivor regions as well.) (See here)

本书提供了一个示例(Spark:权威指南，第一版，第 324 页):

If your task is reading data from HDFS, the amount of memory used by the task can be estimated by using the size of the data block read from HDFS. Note that the size of a decompressed block is often two or three times the size of the block. So if you want to have three or four tasks' worth of working space, and the HDFS block size is 128 MB, we can estimate size of Eden to be 43,128 MB.

假设每个未压缩的 block 甚至占用 512 MB 并且我们有 4 任务，并且我们按 4/3 扩展，我不真的不知道您是如何估算出 Eden 的 43,128 MB 内存的。

鉴于本书的假设，我宁愿回答 ~3 GB 应该足够用于 Eden。

谁能解释一下这个估计应该如何计算？

最佳答案

好吧，我想the new Spark docs说清楚:

As an example, if your task is reading data from HDFS, the amount of memory used by the task can be estimated using the size of the data block read from HDFS. Note that the size of a decompressed block is often 2 or 3 times the size of the block. So if we wish to have 3 or 4 tasks’ worth of working space, and the HDFS block size is 128 MB, we can estimate size of Eden to be 4*3*128MB.

因此，它是 4*3*128 MB 而不是书上所说的(即 43,128 MB)。

关于apache-spark - Spark : how to estimate size of Eden? 中的垃圾收集调整，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49954518/

26

4

0

文章推荐： maven - 无法使用 Maven 构建配置文件在 Jenkins 中构建

文章推荐： python - 如何在python中访问多行变量的第n行

文章推荐： php - 在检查器中生成代码覆盖率

Javascript 调整
我是 Javascript 新手，所以请原谅基本代码。有什么方法可以让我使用用户输入的指定调整来打印代码？ height: width: 最佳答案为按钮
javascript - 调整 A 框架中的屏幕截图大小
我有一个带有 A 框架的场景，我正在使用方法 getCanvas 来获取屏幕截图并将其发送到 PHP。有没有办法调整 getCanvas 图像大小？因为默认的是 4096x2048，我需要它更小。如果
Oracle 调整/分析表
安排自动“分析表”的方法是什么。当大量数据通过插入和删除发生更改时，是否可以请求自动“分析表”？参数化自动分析表过程的方法是什么，即设置何时应该触发的规则。最佳答案您使用的是哪个版本的 Oracl
C - 调整/放大图像
我只是想说，我是 C 语言的新手。好吧，除此之外，我在圣诞假期的任务是编写一个以各种方式操作 PNG 图像的程序。我已经完成了大部分事情，但是在尝试编写放大图像的程序时遇到了问题。我已经尝试过了，并且
postgresql - Postgres 调整
在 Postgres 中编写更快查询的有效方法是什么？请不要包括一般良好的数据库实践(例如使用索引或规范化)。我正在寻找像派生表比子查询工作得更快或使用 python 字符串函数似乎比 pgsql 字
用于对齐页面元素的 Css 调整？
我不知道自己做了什么，但我要么将页眉和导航向右移动，要么将页面的其余部分向左移动。使用 tw Bootstrap 。我想不通。我对它进行了调试并查看了我的 css 编辑，没有看到任何负边距(我怀疑是这
html - 调整/缩放内部容器中的字体
我希望能够增加默认字体大小，但只能在特定的 DIV 内。很明显，这似乎正是 ems 所针对的那种情况。我的问题是我只想增加字体大小，而不影响使用em设置大小的其他内容，例如填充和边距。这可能看起来
algorithm - 感知器算法 - 调整
我正在我的大学上数据挖掘类(class)。我真的不明白这个问题。谁能帮我理解一下？最佳答案重要性权重让您了解在采样时找到特定数据点的频率。您可以使用它来增加训练数据集。例如，如果您只有两个数据点:
C++ 调整/优化
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
c - 调整 argVector
我的部分程序如下所示: char *argVector[] = {"./doTasks","0", "1", "3", NULL}; int numChild = 3; int temp; char
c++ - 调整 Qt 窗口大小时出现闪烁的白色区域
我在调整 QWindow 大小时观察到一个奇怪的行为。当我调整窗口大小时使宽度和高度都增加或减少时，窗口不会以白色背景闪烁。但是当我增加宽度同时减小高度(或反之亦然)时，窗口会闪烁并暂时用白色填充新的
调整 ggplot geom_dotplot 的大小
我在使用 ggplot2 创建图形时遇到问题。我正在使用带有中心堆叠的 geom_dotplot 来显示我的数据，这些数据是 4 个类别的离散值。出于审美原因，我想自定义点的位置，这样沿 y 轴减
javascript - 调整 Canvas 大小以适应容器
在尝试让我的 Canvas/Stage 调整大小并使其正确适合父容器时遇到一些问题。我发现了其他类似的帖子，虽然答案确实帮助我获得了新的屏幕尺寸，但它仍然不想适应容器，而是直接进入屏幕的边缘(这在示例
svg - 调整 svg 组的路径
我想将路径大小调整为 20 像素左右。 SVG 的大小应为 500 * 500，现在路径宽度为 297，高度为 180.7。现在我需要这条路径，其宽度为 277，高度为 160.7，在之前的路径中。
javascript - 调整 SVG 的大小围绕其原点旋转
我有一个矩形 svg，可以围绕二维平面拖动，围绕它自己的原点旋转并调整大小。 class SVG extends React.Component { constructor(props) {
python - 调整 MLPRegressor 超参数
我一直在尝试调整 MLP 模型的超参数来解决回归问题，但我总是收到收敛警告。这是我的代码 def mlp_model(X, Y): estimator=MLPRegressor() param_gr
SwiftUI - 调整 ScrollView 滚动指示器插入
我正在创建一个聊天应用程序，我希望 ScrollView 的内容位于输入字段下方(向上滚动时)。我已经将 ScrollView 和输入字段放在 ZStack 中。 ScrollView 上的底部填充使
.NET 垃圾收集 (GC) 调整
我遇到 GC 来不及删除空闲对象的情况。该代码将一个大文档加载到内存中并循环处理它。如果我在此循环中停止(在 Debug模式下)或添加 GC.Collect()，内存使用量将下降到 70 MB 以下。
pdf - 调整 PDF 格式以更快地打印它
我正在使用 iTextSharp 和 PdfSharp 的组合来组装一个大型 PDF 文件，以便打印到 Canon Oce VarioPrint 6000 系列打印机。 PDF 正在替换后记文件。这
sql - 调整 mysql 查询以获得更好的性能
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar

首页

博学

6Ren·AI

商城

apache-spark - Spark : how to estimate size of Eden? 中的垃圾收集调整