apache-spark - Google Cloud Dataproc 配置问题-6ren

apache-spark - Google Cloud Dataproc 配置问题

转载作者：行者123 更新时间：2023-12-04 11:35:50

24

4

我在运行的一些 Spark LDA 主题建模中遇到了各种问题(主要是看似随机间隔的分离错误)，我认为这主要与我的执行程序上的内存分配不足有关。这似乎与有问题的自动集群配置有关。我最近的尝试使用 n1-standard-8 机器(8 核，30GB RAM)作为主节点和工作节点(6 个工作节点，所以总共 48 个内核)。

但是当我看 /etc/spark/conf/spark-defaults.conf我看到这个:

spark.master yarn-client
spark.eventLog.enabled true
spark.eventLog.dir hdfs://cluster-3-m/user/spark/eventlog

# Dynamic allocation on YARN
spark.dynamicAllocation.enabled true
spark.dynamicAllocation.minExecutors 1
spark.dynamicAllocation.initialExecutors 100000
spark.dynamicAllocation.maxExecutors 100000
spark.shuffle.service.enabled true
spark.scheduler.minRegisteredResourcesRatio 0.0

spark.yarn.historyServer.address cluster-3-m:18080
spark.history.fs.logDirectory hdfs://cluster-3-m/user/spark/eventlog

spark.executor.cores 4
spark.executor.memory 9310m
spark.yarn.executor.memoryOverhead 930

# Overkill
spark.yarn.am.memory 9310m
spark.yarn.am.memoryOverhead 930

spark.driver.memory 7556m
spark.driver.maxResultSize 3778m
spark.akka.frameSize 512

# Add ALPN for Bigtable
spark.driver.extraJavaOptions -Xbootclasspath/p:/usr/local/share/google/alpn/alpn-boot-8.1.3.v20150130.jar
spark.executor.extraJavaOptions -Xbootclasspath/p:/usr/local/share/google/alpn/alpn-boot-8.1.3.v20150130.jar

但这些值没有多大意义。为什么只使用 4/8 个执行器核心？并且只有 9.3/30GB RAM？我的印象是所有这些配置都应该自动处理，但即使我尝试手动调整也无济于事。

例如，我尝试使用以下命令启动 shell:

spark-shell --conf spark.executor.cores=8 --conf spark.executor.memory=24g

但后来这失败了

java.lang.IllegalArgumentException: Required executor memory (24576+930 MB) is above the max threshold (22528 MB) of this cluster! Please increase the value of 'yarn.scheduler.maximum-allocation-mb'.

我尝试更改 /etc/hadoop/conf/yarn-site.xml 中的关联值，没有效果。即使我尝试不同的集群设置(例如使用 60+ GB RAM 的执行程序)，我最终还是遇到了同样的问题。出于某种原因，最大阈值保持在 22528MB。

我在这里做错了什么，还是谷歌的自动配置有问题？

最佳答案

集群中的默认内存配置存在一些已知问题，其中主机器类型与工作机器类型不同，但在您的情况下，这似乎不是主要问题。

当您看到以下内容时:

spark.executor.cores 4
spark.executor.memory 9310m

这实际上意味着每个工作节点将运行 2 个执行程序，每个执行程序将使用 4 个内核，因此所有 8 个内核确实在每个工作程序上用完。这样，如果我们给 AppMaster 一半的机器，AppMaster 就可以成功打包到一个 executor 旁边。

分配给 NodeManagers 的内存量需要为 NodeManager 守护进程本身留下一些开销，以及其他。其他守护程序服务，例如 DataNode，因此大约 80% 留给 NodeManagers。此外，分配必须是最小 YARN 分配的倍数，因此在取到最接近的分配倍数之后，这就是 n1-standard-8 的 22528MB 的来源。

如果您添加具有 60+ GB RAM 的工作线程，那么只要您使用相同内存大小的主节点，您就会看到更高的最大阈值数。

无论哪种方式，如果您看到 OOM 问题，那么最重要的不是每个执行程序的内存，而是每个任务的内存。如果您在 spark.executor.cores 的同时增加 spark.executor.memory ，那么每个任务的内存实际上并没有增加，因此在这种情况下您不会真正为应用程序逻辑提供更多空间； Spark 将使用 spark.executor.cores 来确定在同一内存空间中运行的并发任务数。

要实际为每个任务获得更多内存，您应该主要尝试:

使用 n1-highmem-* 机器类型

尝试减少 spark.executor.cores 同时保留 spark.executor.memory 相同

尝试增加 spark.executor.memory 同时保持 spark.executor.cores 相同

如果您执行上面的 (2) 或 (3)，那么与尝试占用所有内核的默认配置相比，您确实会让内核处于空闲状态，但这确实是除了转到 highmem 之外每个任务获得更多内存的唯一方法实例。

关于apache-spark - Google Cloud Dataproc 配置问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34140667/

24

4

0

文章推荐： apache - HTTP/2 和 CNAME 如何协同工作？

文章推荐： flutter - ElevatedButton、TextButton 和 OutlinedButton 渐变

文章推荐： reactjs - Material -UI : DataGrid/XGrid How to detect density change?

文章推荐： r - 在管道操作符之后使用 ifelse

google-apps-script - 使用 Google 应用程序脚本刷新从 Google 表格粘贴到 Google 幻灯片中的表格
这里的这个问题对 updating Google Sheets charts linked to Google slides 有一个简洁的解决方案. function onOpen() { var
google-apps-script - 用于将 Google 表单添加到 Google 类作业的 Google 脚本
我正在尝试将 Google 表单添加到 Google 类作业中，但似乎不可能。首先，它在这里 ( https://developers.google.com/classroom/reference/
google-visualization - Google 日期时间格式化程序不适用于 Google 折线图
出于某种原因，无论我做什么以及我如何尝试，这个日期格式化程序都不起作用。工具提示仍然显示错误的格式。你可以试试代码here . 在代码中我必须注释掉 formatter.format(dataTabl
google-analytics - Google Analytics - 是否必须从托管 Google Analytics 帐户的 Google 配置文件创建服务帐户？
我目前正在使用访问 token 和刷新 token 从 Google Analytics Reporting API (v4) 中提取数据。当我致力于自动从 Google Analytics 中提取数
google-sheets - Google 电子表格中 Google 驱动器中的引用文件
我已在 Google 云端硬盘中创建了一个文件夹，例如测试一下，放入3个文件 a.jpg, b.jpg, c.jpg 我希望在同一帐户下的 Google 电子表格中访问文件，例如生成图像文件的链接，可
google-apps-script - 在 Google 网站中嵌入 Google 电子表格时，Google Apps 脚本可帮助解决错误？
电子表格 A 是欢迎新移民来到我们小镇的团队的主数据源。它里面有大量非常敏感的数据，不能公开，哪怕是一点点。 (我们谈论的是 child 的姓名和出生日期以及他们在哪里上学……保证电子表格 A 的安全
google-apps-script - 使用 Google Apps 脚本从 Google 表格数据表复制到 Google 文档表
有没有办法在 Google 文档中编写 Google Apps 脚本以从 Google 表格中检索仅限于非空白行的范围并将这些行显示为表格？我正在寻找一个脚本，用于使用 Google Apps 脚本
google-apps-script - 使用 Google Apps 脚本从 Google 表格数据表复制到 Google 文档表
有没有办法在 Google 文档中编写 Google Apps 脚本以从 Google 表格中检索仅限于非空白行的范围并将这些行显示为表格？我正在寻找一个脚本，用于使用 Google Apps 脚本
google-apps-script - 使用 Google Apps 脚本从 Google Firebase 写入 Google Sheets
尝试检索存储在 google firebase 中名为条目的节点下的表单条目，并使用谷歌工作表中的脚本编辑器附加到谷歌工作表。我已将 FirebaseApp 库添加到谷歌表脚本编辑器。然后我的代码看
google-oauth - Google oauth - 限制登录到特定的 google 组
是否可以将我的 Web 应用程序的登录限制为仅限 google 组中的帐户？我不希望每个人都可以使用他们的私有(private) gmail 登录，而只能使用我的 google 组中的用户。最佳答
google-oauth - 带有 Google 自定义搜索功能的 Google 附加链接搜索框
我们想使用 Google 自定义搜索实现 Google 附加链接搜索框。在谷歌 documentation , 我发现我们需要包含以下代码来启用附加链接搜索框 { "@context"
google-trends - 我可以将 Google 趋势图添加到 Google 数据洞察吗？
我想将特定搜索词的 Google 趋势图表添加到我的 Google Data Studio 报告中，但趋势不是数据源列表中的选项。我也找不到嵌入 JavaScript 的选项。是否可以将趋势图表添加到
google-drive-api - 将文件从 Google Drive 复制到 Google 内的 Google Cloud Storage
是否可以将文件从 Google Drive 复制到 Google Cloud Storage？我想它会非常快，因为两者都在类似的存储系统上。我还没有看到有关无缝执行此操作的任何方法的任何信息，而无需
google-analytics - Google Universal Analytics Google-自定义维度
之间有什么区别 ga('send', 'pageview', { 'dimension1': 'data goes here' }); 和 ga('set', 'dimension1', 'da
google-analytics - Google Universal Analytics Google-浏览量
我正在尝试记录每个博客站点作者的点击率。 ga('send', 'pageview'); (in the header with the ga code to track each page) ga(
google-analytics - 自定义变量值未从 Google 跟踪代码管理器传递到 Google Analytics
我设置了 Google Tag Manager 和 2 个数据层变量:一个用于跟踪用户 ID，传递给 Google Analytics 以同步用户 session ，另一个用于跟踪访问者类型。在使用
google-search - Google for Jobs 显示的工作位置不正确(Google 使用的是我们公司的总部)
我在我们的网站上遇到多个职位发布的问题。我们在加拿大多个地点提供工作机会。所有职位页面都包含一个“LD+JSON ”职位发布的结构化数据，基于 Google 的职位发布文档: https://dev
google-analytics - 无需 Google 帐户即可访问 Google Analytics
公司未使用 Google 套件，使用个人(消费者)帐户(甚至是 Google 帐户)违反公司政策。需要访问 Google Analytics - 没有 Google 帐户是否可能？谢谢最佳答案
google-analytics - Google Play 应用页面的 Google Analytics
我想分析人们使用哪些搜索关键字在 Play 商店中找到我的应用。那可能吗？我怎么能这样做？最佳答案自 2013 年 10 月起，您可以关联您的 Google Analytics(分析)和 Goo
google-api - 是否有用于访问 Google Now 或 Google Keep 中设置的提醒的公共(public) Google API？
Google Now 和 Google Keep 中基于时间和位置的提醒与 Google Calendar 事件提醒不同。是否有公共(public) API 可以访问 Now 和 Keep 中的这些事

首页

博学

6Ren·AI

商城

apache-spark - Google Cloud Dataproc 配置问题