PySpark 错误 java.lang.OutOfMemoryError : GC overhead limit exceeded-6ren

PySpark 错误 java.lang.OutOfMemoryError : GC overhead limit exceeded

转载作者：行者123 更新时间：2023-12-02 01:03:06

25

4

我该如何修复我的 GC overhead limit exceeded发生在 PySpark 2.2.1 版中。安装在 Ubuntu 16.04.4 上。

在 Python 3.5.2 脚本中，我将 spark 设置为:

 spark = SparkSession.builder.appName('achats_fusion_files').getOrCreate()                                                                                                                              
 spark.conf.set("spark.sql.pivotMaxValues", "1000000")                                                                                                                                                  
 spark.conf.set("spark.sql.autoBroadcastJoinThreshold", "-1")                                                                                                                                           
 spark.conf.set("spark.executor.memory", "1g")                                                                                                                                                          
 spark.conf.set("spark.driver.memory", "1g")

如何通过使用 Python 脚本中的良好设置来解决问题？

波纹管错误消息:

18/03/14 09:57:25 ERROR Executor: Exception in task 34.0 in stage 36.0 (TID 2076)                                                                                                                         
java.lang.OutOfMemoryError: GC overhead limit exceeded                                                                                                                                                     
    at java.util.regex.Pattern.compile(Pattern.java:1667)                                                                                                                                              
    at java.util.regex.Pattern.<init>(Pattern.java:1351)                                                                                                                                               
    at java.util.regex.Pattern.compile(Pattern.java:1028)                                                                                                                                              
    at org.apache.spark.network.util.JavaUtils.byteStringAs(JavaUtils.java:266)                                                                                                                        
    at org.apache.spark.network.util.JavaUtils.byteStringAsBytes(JavaUtils.java:302)                                                                                                                   
    at org.apache.spark.util.Utils$.byteStringAsBytes(Utils.scala:1087)                                                                                                                                
    at org.apache.spark.SparkConf.getSizeAsBytes(SparkConf.scala:310)                                                                                                                                  
    at org.apache.spark.io.LZ4CompressionCodec.compressedOutputStream(CompressionCodec.scala:114)                                                                                                      
    at org.apache.spark.serializer.SerializerManager.wrapForCompression(SerializerManager.scala:156)                                                                                                   
    at org.apache.spark.serializer.SerializerManager.wrapStream(SerializerManager.scala:131)                                                                                                           
    at org.apache.spark.storage.DiskBlockObjectWriter.open(DiskBlockObjectWriter.scala:120)                                                                                                            
    at org.apache.spark.storage.DiskBlockObjectWriter.write(DiskBlockObjectWriter.scala:237)                                                                                                           
    at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:151)                                                                                         
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:96)                                                                                                                      
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53)                                                                                                                      
    at org.apache.spark.scheduler.Task.run(Task.scala:108)                                                                                                                                             
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:338)                                                                                                                           
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)                                                                                                                 
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)                                                                                                                 
    at java.lang.Thread.run(Thread.java:748)

最佳答案

直接从文档中获取，

GC 调优的第一步是收集有关垃圾收集发生频率和 GC 花费时间的统计信息。这可以通过将 -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps 添加到 Java 选项来完成。

Spark 中 GC 调优的目标是确保只有长生命周期的 RDD 存储在老年代，并且年轻代的大小足以存储短生命周期的对象。这将有助于避免完整的 GC 来收集在任务执行期间创建的临时对象。

通过收集 GC 统计信息来检查是否有太多垃圾收集。如果在任务完成之前多次调用 full GC，则意味着没有足够的内存可用于执行任务。

如果有太多次要收集但没有太多主要 GC，为 Eden 分配更多内存会有所帮助。您可以将 Eden 的大小设置为高估每个任务需要多少内存。如果确定 Eden 的大小为 E，则可以使用选项 -Xmn=4/3*E 设置 Young 代的大小。 (扩大 4/3 也是为了考虑幸存者区域使用的空间。)

在打印的 GC 统计信息中，如果 OldGen 接近满，则通过降低 spark.memory.fraction 来减少用于缓存的内存量；缓存更少的对象比减慢任务执行速度更好。或者，考虑减少年轻代的大小。这意味着降低 -Xmn 如果您已按上述设置。如果没有，请尝试更改 JVM 的 NewRatio 参数的值。许多 JVM 将其默认为 2，这意味着 Old 代占用堆的 2/3。它应该足够大，使得这个分数超过 spark.memory.fraction。

尝试使用 -XX:+UseG1GC 的 G1GC 垃圾收集器。在垃圾收集成为瓶颈的某些情况下，它可以提高性能。 (这对我有帮助)

帮助我的更多参数是，

-XX:ConcGCThreads=20

-XX:InitiatingHeapOcuupancyPercent=35

可以通过在作业的配置中设置 spark.executor.extraJavaOptions 来指定执行程序的所有 GC 调整标志。

查询 this出来了解更多详情。

编辑:

在你 spark-defaults.conf 中写，

spark.executor.JavaOptions -XX:+UseG1GC

spark.executor.extraJavaOptions -XX:ConcGCThreads=20 -XX:InitiatingHeapOcuupancyPercent=35

关于PySpark 错误 java.lang.OutOfMemoryError : GC overhead limit exceeded，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49274213/

25

4

0

文章推荐： php - 在 laravel Controller 构造函数中注入(inject)模型

文章推荐： java - 在 java 中使用 SOAP webservice，只有 WSDL 在手

文章推荐： asp.net - 从用户控件调用父级中的方法

文章推荐： r - 使用字符输入在 R 中定义函数

JAVA GC 主要 GC 与次要 GC
在我们对延迟敏感的应用程序中，我们有缓存数据(驻留在 TG 中)和在 YG 中消亡的短暂对象。我已经看到次要 GC 时间和主要 GC 时间有显着差异。我怀疑这与TG的尺寸相对较大有关。谁能解释 GC
c# - GC.Collect() 和 GC.Collect(GC.MaxGeneration) 有什么区别？
我看到了多个建议运行 GC.Collect(GC.MaxGeneration) 的答案。既然方法GC.Collect()会收集所有存在的分代，那么两者有什么区别吗？也许如果只有两代而不是三代，GC
java - GC 日志中的 GC 暂停持续时间
我们正在使用 UseParallelGC。 GC 日志看起来像 2016-06-09T19:38:17.362+0000:655312.397:[完整GC(人体工程学)[PSYoungGen:2291
c++ - 到 GC 或不到 GC
我最近看到了两个非常好的和有教育意义的语言讲座: This first one由 Herb Sutter 撰写，介绍了 C++0x 的所有漂亮和酷炫的特性，为什么 C++ 的 future 似乎比以往
Gerrit GC vs Git GC——或者两者兼而有之？
我们正在运行 gerrit 2.10.7，我们偶尔会遇到损坏的对象没有被 gerrit gc 修复的问题，即使 git gc 可以很好地修复它们。另一方面，我读到 gerrit gc 会创建优化其他
java - GC 调优 - 防止 Full GC
我试图避免 Full GC(来自下面的 gc.log 示例)在生产中的 Tomcat 中运行 Grails 应用程序。关于如何更好地配置 GC 有什么建议吗？ 14359.317:[完整 GC 143
.net - GC.Collect() + GC.WaitForPendingFinalizers() 会不会回收所有可回收的内存？
我试图通过在析构函数中使用 console.WriteLine() 来确保释放某个类的实例，但输出从未出现。我仔细搜索了任何挥之不去的引用资料以及事件订阅，但没有找到。只是为了我自己的理智，在我继续
java - 如何在某些代码执行之间禁用 GC 或获取 GC 暂停时间？
之前看过一篇文章，说FGC影响时序，导致application出错结果。代码示例如下: long start = System.currentTimeInMillis(); doSomething(
java - System.gc() 与 GC.Collect()
在 Java 中，我们可以使用 System.gc() 方法来建议 GC。今天我从this link开始了解C#中的GC.Collect()方法。 . 但我对解释有些不清楚。第一行。 Forces
python GC - 引用计数仅在 gc.collect() 时有效？
我理解 Python GC 有两种工作方式: 1) 基本引用计数 - 当“name”设置为“Tom”时，“John”下方的引用计数为零 name = "John" name = "Tom" (Refe
C# - 手动调用 GC.Collect()(禁用后台 GC)
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
java - 为并发 GC 指定额外的 GC 有什么意义吗？
今天我们使用并发标记清除，具体如下: -XX:+UseConcMarkSweepGC 我看到一些文章推荐使用这种形式的附加参数: -XX:+UseConcMarkSweepGC -XX:+CMSInc
Android GC - LogCat 始终显示 GC Activity
当我运行我的程序时，logcat 显示很多 GC Activity 喜欢 GC freed 10324 objects/ 510376 bytes in 103 ms GC freed 10324 o
java - 奇怪的次要 gc 发生在正常的次要 gc 之后
2013-11-26T10:19:30.011+0800: [GC [ParNew: 2432484K->19997K(2696640K), 0.0378270 secs] 5560240K->315
java - 为什么老年代的 gc 比年轻代的 gc 花费的时间更长
在执行 GC 时，JVM 会遍历 Activity 对象，并清除未标记的对象。根据: How to Tune Java Garbage Collection “Full GC的执行时间相对Minor
java - G1 gc 日志没有显示长时间 gc 暂停的线索
我有一个分布式缓存应用程序(内存绑定(bind)，由于与集群中其他节点的交互而具有网络 I/O)在 JVM 1.7.0_51 中运行，带有 G1 垃圾收集器。这是 JVM 配置: -server -X
Java GC : How does Java GC clears WeakReference object?
首先，我想让您知道，这是一个理论问题而不是实际问题，我只是好奇弱引用对象是如何被释放的。让我们快速记住 Java 中的弱引用是什么。粗略地说WeakReference意味着当没有指向“我”的强引用时，
java - 对于我的 gc 输出，什么是好的 gc 调整策略？
这是运行大约 10 分钟后的输出。 Heap PSYoungGen total 7040K, used 0K [0x24060000, 0x247c0000, 0x26790000)
java - CMS 垃圾收集日志中的 "Full GC Before GC"是什么意思？
我正在运行一个应用程序，在 Weblogic 上使用 java 5 和 CMS 垃圾收集器。在垃圾收集日志中，我看到了消息日志，其中大部分消息我可以使用 Sun 的 Java HotSpot 虚拟机中
java - 如果 SoftReference 的引用已被 GC，如何对其进行 GC
我有一个 ConcurrentMap> map = new ConcurrentHashMap>(); 并且希望当 SoftReference 的引用被 GC 时从映射中删除键/值对。我该如何实现这

首页

博学

6Ren·AI

商城

PySpark 错误 java.lang.OutOfMemoryError : GC overhead limit exceeded