java - 挂起的 JVM 占用 100% CPU-6ren

java - 挂起的 JVM 占用 100% CPU

转载作者：搜寻专家更新时间：2023-10-30 21:12:46

我们有一个在 Linux 32 位 (CentOS) 上的 Sun JRE 6u20 上运行的 JAVA 服务器。我们使用带有 CMS 收集器的服务器热点和以下选项(我只提供了相关的选项):

-Xmx896m -Xss128k -XX:NewSize=384M -XX:MaxPermSize=96m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC

有时，在运行一段时间后，JVM 似乎进入挂起状态，即使我们没有向应用程序发出任何请求，CPU 仍继续以 100% 的速度旋转(我们有 8 个逻辑 CPU，所以看起来只有一个 CPU 进行旋转)。在此状态下，JVM 不响应 SIGHUP 信号 (kill -3)，我们无法使用 jstack 正常连接到它。我们可以使用“jstack -F”连接，但输出不可靠(我们可以从 JStack 看到很多 NullPointerExceptions，显然是因为它无法“遍历”某些堆栈)。所以“jstack -F”输出似乎没有用。

不过，我们已经从“gdb”运行了一个堆栈转储，并且我们能够将旋转 CPU 的线程 ID(我们发现使用“top”和每线程 View - “H”选项)与出现在 gdb 结果中的线程堆栈，它是这样的:

Thread 443 (Thread 0x7e5b90 (LWP 26310)):
#0  0x0115ebd3 in CompactibleFreeListSpace::block_size(HeapWord const*) const () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#1  0x01160ff9 in CompactibleFreeListSpace::prepare_for_compaction(CompactPoint*) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#2  0x0123456c in Generation::prepare_for_compaction(CompactPoint*) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#3  0x01229b2c in GenCollectedHeap::prepare_for_compaction() () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#4  0x0122a7fc in GenMarkSweep::invoke_at_safepoint(int, ReferenceProcessor*, bool) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#5  0x01186024 in CMSCollector::do_compaction_work(bool) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#6  0x011859ee in CMSCollector::acquire_control_and_collect(bool, bool) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#7  0x01185705 in ConcurrentMarkSweepGeneration::collect(bool, bool, unsigned int, bool) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#8  0x01227f53 in GenCollectedHeap::do_collection(bool, bool, unsigned int, bool, int) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#9  0x0115c7b5 in GenCollectorPolicy::satisfy_failed_allocation(unsigned int, bool) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#10 0x0122859c in GenCollectedHeap::satisfy_failed_allocation(unsigned int, bool) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#11 0x0158a8ce in VM_GenCollectForAllocation::doit() () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#12 0x015987e6 in VM_Operation::evaluate() () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#13 0x01597c93 in VMThread::evaluate_operation(VM_Operation*) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#14 0x01597f0f in VMThread::loop() () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#15 0x015979f0 in VMThread::run() () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#16 0x0145c24e in java_start(Thread*) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#17 0x00ccd46b in start_thread () from /lib/libpthread.so.0
#18 0x00bc2dbe in clone () from /lib/libc.so.6

似乎 JVM 线程在执行一些与 CMS 相关的工作时正在旋转。我们已经检查了盒子上的内存使用情况，似乎有足够的可用内存并且系统没有交换。有没有人遇到过这种情况？它看起来像 JVM 错误吗？

更新

我已经获得了有关此问题的更多信息(它在运行超过 7 天的服务器上再次发生)。当 JVM 进入“挂起”状态时，它会保持这种状态 2 小时，直到服务器被手动重启。我们已经获得了进程的核心转储和 gc 日志。我们也尝试获取堆转储，但“jmap”失败了。我们尝试使用 jmap -F 但在程序异常中止之前只写入了一个 4Mb 的文件(关于内存位置无法访问的问题)。到目前为止，我认为最有趣的信息来自 gc 日志。似乎 GC 日志记录也停止了(可能是在 VM 线程进入长循环时):

657501.199: [Full GC (System) 657501.199: [CMS: 400352K->313412K(524288K), 2.4024120 secs] 660634K->313412K(878208K), [CMS Perm : 29455K->29320K(68568K)], 2.4026470 secs] [Times: user=2.39 sys=0.01, real=2.40 secs] 
657513.941: [GC 657513.941: [ParNew: 314624K->13999K(353920K), 0.0228180 secs] 628036K->327412K(878208K), 0.0230510 secs] [Times: user=0.08 sys=0.00, real=0.02 secs] 
657523.772: [GC 657523.772: [ParNew: 328623K->17110K(353920K), 0.0244910 secs] 642036K->330523K(878208K), 0.0247140 secs] [Times: user=0.08 sys=0.00, real=0.02 secs] 
657535.473: [GC 657535.473: [ParNew: 331734K->20282K(353920K), 0.0259480 secs] 645147K->333695K(878208K), 0.0261670 secs] [Times: user=0.11 sys=0.00, real=0.02 secs] 
....
....
688346.765: [GC [1 CMS-initial-mark: 485248K(524288K)] 515694K(878208K), 0.0343730 secs] [Times: user=0.03 sys=0.00, real=0.04 secs] 
688346.800: [CMS-concurrent-mark-start]
688347.964: [CMS-concurrent-mark: 1.083/1.164 secs] [Times: user=2.52 sys=0.09, real=1.16 secs] 
688347.964: [CMS-concurrent-preclean-start]
688347.969: [CMS-concurrent-preclean: 0.004/0.005 secs] [Times: user=0.00 sys=0.01, real=0.01 secs] 
688347.969: [CMS-concurrent-abortable-preclean-start]
 CMS: abort preclean due to time 688352.986: [CMS-concurrent-abortable-preclean: 2.351/5.017 secs] [Times: user=3.83 sys=0.38, real=5.01 secs] 
688352.987: [GC[YG occupancy: 297806 K (353920 K)]688352.987: [Rescan (parallel) , 0.1815250 secs]688353.169: [weak refs processing, 0.0312660 secs] [1 CMS-remark: 485248K(524288K)] 783055K(878208K), 0.2131580 secs] [Times: user=1.13 sys
=0.00, real=0.22 secs] 
688353.201: [CMS-concurrent-sweep-start]
688353.903: [CMS-concurrent-sweep: 0.660/0.702 secs] [Times: user=0.91 sys=0.07, real=0.70 secs] 
688353.903: [CMS-concurrent-reset-start]
688353.912: [CMS-concurrent-reset: 0.008/0.008 secs] [Times: user=0.01 sys=0.00, real=0.01 secs] 
688354.243: [GC 688354.243: [ParNew: 344928K->30151K(353920K), 0.0305020 secs] 681955K->368044K(878208K), 0.0308880 secs] [Times: user=0.15 sys=0.00, real=0.03 secs]
....
....
688943.029: [GC 688943.029: [ParNew: 336531K->17143K(353920K), 0.0237360 secs] 813250K->494327K(878208K), 0.0241260 secs] [Times: user=0.10 sys=0.00, real=0.03 secs] 
688950.620: [GC 688950.620: [ParNew: 331767K->22442K(353920K), 0.0344110 secs] 808951K->499996K(878208K), 0.0347690 secs] [Times: user=0.11 sys=0.00, real=0.04 secs] 
688956.596: [GC 688956.596: [ParNew: 337064K->37809K(353920K), 0.0488170 secs] 814618K->515896K(878208K), 0.0491550 secs] [Times: user=0.18 sys=0.04, real=0.05 secs] 
688961.470: [GC 688961.471: [ParNew (promotion failed): 352433K->332183K(353920K), 0.1862520 secs]688961.657: [CMS

我怀疑这个问题与日志中的最后一行有关(我添加了一些“....”以跳过一些不感兴趣的行)。服务器保持挂起状态 2 小时(可能是在尝试 GC 和压缩老年代)这一事实对我来说似乎很奇怪。此外，gc 日志随该消息突然停止，不再打印任何其他内容，可能是因为 VM 线程进入某种无限循环(或需要 2 小时以上的时间)。

最佳答案

看起来像是 GC 调优问题，可能是由内存泄漏引发的。我建议您添加打开 GC 日志记录的 JVM 参数，看看是否能给您带来任何见解。

Does it look like a JVM bug?

对我来说不是。

当您用完堆空间(例如，由于存储泄漏)时，通常会看到 GC 运行得越来越频繁，并且使用越来越大的 CPU 百分比。您可以设置一些 JVM 参数来避免这种情况，但它们会导致您的 JVM 因 OOME 更快崩溃。 (这听起来可能很奇怪，但在很多情况下这是一件好事，因为它减少了系统重新启动并能够再次正常运行的时间。)

关于java - 挂起的 JVM 占用 100% CPU，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4884630/

文章推荐： java - 使用 Java 从 MacOS X keystore 获取私钥

文章推荐： typescript - TSLint 找不到带有自定义 d.ts 文件的自定义模块

文章推荐： java - 在安卓中使用 lambdaj

java - 是否有可能复制 JVM，以便我可以简单地从主 jvm 切换到辅助 jvm，以防主 jvm 出现故障
是否可以复制一个完整的 JVM，并且在故障转移的情况下只需将负载转移到复制的 JVM 上？如果是，那我们该怎么做呢？最佳答案如果您的应用程序是 Web 应用程序，请阅读“集群”和“负载平衡”。大
java - JVM 规范、JVM 实现、JVM 运行时之间有什么区别
我读了下面的话，但我想知道它们之间的区别...... JVM 规范、JVM 实现、JVM 运行时最佳答案 JVM 规范:描述 JVM 应如何运行的文档。 JVM 实现:基于 JVM 规范的 JVM
java - JVM 内存使用情况，一个带线程的 JVM 还是四个 JVM 用于我的四个应用程序？
我目前有四个不同的 java 应用程序，它们由 .bat 文件启动的 jar 运行，这些文件位于 Windows XP Embedded 开始菜单的 starup 文件夹中。我还启动了 Firefox
jvm - 强制 64 位 jvm 到 32 位 jvm？
有人能给我一些关于强制 64 位 jvm 作为 32 位 jvm 运行的想法吗？我需要为蓝牙连接编写一个 jse 桌面应用程序。为此，我需要实现 Bluecove jar 。它只有 32 位文件。所
jvm - 永久代是堆的一部分还是在 jvm 中位于自身的不同空间
我看到过关于这个问题的多条评论——有人说是，有人说不是，许多答案模棱两可。任何人都可以用更简单的术语描述它所在的位置吗？在一篇文章中，我什至看到有人说它与类加载器加载类的类内存共享相同的内存位置 -
jvm - 是否有完整的 JVM 退出代码列表
我正在寻找所有可能的 jvm 退出代码的完整列表(不是 java System.exit(x))。我使用搜索引擎唯一能找到的是 SIGTERM 退出代码列表:http://journal.thobe.
jvm - 监控 WebSphere JVM
为了监视任何正常的 Java 进程 JVM，我们可以使用 Attach API。是否有可用于监控 WebSphere JVM 的 API？最佳答案您可以使用 PMI(性能监控基础设施)来监控 JV
jvm - 如何 fork JVM？
这个问题在这里已经有了答案: 8年前关闭。 Possible Duplicate: Java - C-Like Fork? 我想知道如何从 JDK fork 子 JVM，甚至有可能这样做吗？一些框架
jvm - 哪些 JVM 语言是无堆栈的？
JVM 上的哪些图灵完备语言实现不使用 JVM 堆栈作为调用堆栈？ (我问是因为我想在同一个线程中实现 Scala 和另一种语言之间的协程。) 最佳答案闪蝶 SISC(方案代码的第二解释者) 曾经不
jvm - 为什么我们需要其他 JVM 语言
我看到here除了 Java 之外，还有很多语言可以在 JVM 上运行。我对在 JVM 中运行的其他语言的整个概念有些困惑。所以: 为 JVM 使用其他语言有什么优势？为 JVM 编写语言/编译器需
jvm - 寻找 JVM 堆的分配
我已经运行了 straced JVM (OpendJDK 11): strace -e trace=mmap java -Xms8192m Main 输出是: mmap(NULL, 8192, PRO
jvm - 寻找 JVM 堆的分配
我已经运行了 straced JVM (OpendJDK 11): strace -e trace=mmap java -Xms8192m Main 输出是: mmap(NULL, 8192, PRO
jvm - 为什么 JVM 在启动时随着时间的推移执行相同的程序会更快？
我编写了一个简单的数独求解器。为了粗略测试性能，我使用简单的 System.currentTimeMillis 调用。我在文本文件中准备了一组初始数独配置。该程序读取该文件并解决每个数独配置。运行测
jvm - 为什么 JVM 被认为是如此出色的软件工程？
JVM 被广泛使用:Scala、Groovy、Jython 等。我听说它被描述为“卓越”、“出色”和“严重低估”。为什么？更具体地说，是什么让 JVM 独一无二？随着所有资金投入 .NET，或者 C
jvm - 启动/停止 JVM
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: Are there any Java VMs which can save their state to a fi
jvm - 任意 JVM 行为
想象一下 6-7 台服务器的设置都完全相同Java 版本“1.6.0_18”OpenJDK 运行时环境 (IcedTea6 1.8) (fedora-36.b18.fc11-i386)OpenJDK
jvm - 什么启动 JVM 线程？
(如有错误请指正) 我了解到，当您通过发出 java 命令来运行 java 程序时， java MyProg 程序将在新的 JVM 上运行。什么将程序加载到新的 JVM 中？是生成新线程的 JRE
jvm - 是否可以指定 JVM 故障转储的位置？
我们有一个使用 JNI 的桌面应用程序偶尔会导致 JVM 崩溃。幸运的是，JVM 会生成一个 hs_err_pidXXXX.log 文件，这对于调试此类错误非常有用。然而，它似乎总是转到当前工作目录，
jvm - 自为 ActorSystem 启用 'akka.jvm-exit-on-fatal-error' 以来线程关闭 JVM 的未捕获错误
我在命令提示符下运行一个程序集 jar 文件并得到下面的异常。并导致终止。 Uncaught error from thread [ccp-akka.persistence.dispatchers.d
01、JVM 实战 - 初识 JVM
一、什么是Java虚拟机虚拟机：指以软件的方式模拟具有完整硬件系统功能、运行在一个完全隔离环境中的完整计算机系统，是物理机的软件实现。常用的虚拟机有VMWare，Visual Box，Java

搜寻专家

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 挂起的 JVM 占用 100% CPU