java - JVM 在完全 gc 后偶尔会锁定-6ren

java - JVM 在完全 gc 后偶尔会锁定

转载作者：塔克拉玛干更新时间：2023-11-03 04:30:41

26

4

最近我们只是注意到我们的许多服务器偶尔和突然(没有明显的逐渐退化)锁定以下堆栈(所有其他 theads 被阻塞、IN_NATIVE 或 IN_VM)(在我们的代码开始处被截断)，使用 jstack 获得 - F

Thread 18334: (state = IN_JAVA)
 - java.util.Calendar.updateTime() @bci=1, line=2469 (Compiled frame; information may be imprecise)
 - java.util.Calendar.getTimeInMillis() @bci=8, line=1088 (Compiled frame)
(truncated)

故障似乎发生在一次完整的 gc 后不久，top -H -p 显示有两个线程，一个似乎是上面的线程，另一个是 gc 线程或 jitc，根据以下输出pstack 的(不是 VMThread::run()):

Thread 331 (Thread 0x7f59641bc700 (LWP 16461)):
#0  0x00007f63f9ed0ef8 in SafepointSynchronize::begin() () from /usr/java/jdk1.6.0_33/jre/lib/amd64/server/libjvm.so
#1  0x00007f63f9fbab7c in VMThread::loop() () from /usr/java/jdk1.6.0_33/jre/lib/amd64/server/libjvm.so
#2  0x00007f63f9fba68e in VMThread::run() () from /usr/java/jdk1.6.0_33/jre/lib/amd64/server/libjvm.so
#3  0x00007f63f9e5e7af in java_start(Thread*) () from /usr/java/jdk1.6.0_33/jre/lib/amd64/server/libjvm.so
#4  0x00000035bb807851 in start_thread () from /lib64/libpthread.so.0
#5  0x00000035bb4e811d in clone () from /lib64/libc.so.6

有没有人知道为什么会开始发生这种情况？

我们在 CentOS 版本 5.7 和 6.3 上使用 jdk1.6.0_33，服务器上有 24 个内核(12 个物理内核)。

这里还有一些堆栈，我们的代码被截断了:

Thread 22561: (state = IN_VM)
 - java.lang.String.toLowerCase(java.util.Locale) @bci=428, line=2782 (Compiled frame; information may be imprecise)
 - java.lang.String.toLowerCase() @bci=4, line=2847 (Compiled frame)
(truncated)

Thread 22562: (state = IN_VM)
 - java.util.HashMap.put(java.lang.Object, java.lang.Object) @bci=20, line=403 (Compiled frame; information may be imprecise)
 - java.util.HashSet.add(java.lang.Object) @bci=8, line=200 (Compiled frame)
(truncated)

Thread 22558: (state = BLOCKED)
 - sun.nio.ch.EPollSelectorImpl.wakeup() @bci=6, line=173 (Compiled frame)
 - org.mortbay.io.nio.SelectorManager$SelectSet.wakeup() @bci=10, line=706 (Compiled frame)
 - org.mortbay.io.nio.SelectChannelEndPoint.updateKey() @bci=135, line=344 (Compiled frame)
 - org.mortbay.io.nio.SelectChannelEndPoint.undispatch() @bci=10, line=204 (Compiled frame)
 - org.mortbay.jetty.nio.SelectChannelConnector$ConnectorEndPoint.undispatch() @bci=54, line=382 (Compiled frame)
 - org.mortbay.io.nio.SelectChannelEndPoint.run() @bci=44, line=449 (Compiled frame)
 - org.mortbay.thread.QueuedThreadPool$PoolThread.run() @bci=25, line=534 (Compiled frame)

Thread 22557: (state = BLOCKED)
 - java.lang.Object.wait(long) @bci=0 (Compiled frame; information may be imprecise)
 - java.lang.Object.wait(long, int) @bci=58, line=443 (Compiled frame)
 - com.stumbleupon.async.Deferred.doJoin(boolean, long) @bci=244, line=1148 (Compiled frame)
 - com.stumbleupon.async.Deferred.join(long) @bci=3, line=1028 (Compiled frame)
(truncated)

Thread 20907: (state = IN_NATIVE)
 - java.net.PlainSocketImpl.socketAccept(java.net.SocketImpl) @bci=0 (Interpreted frame)
 - java.net.PlainSocketImpl.accept(java.net.SocketImpl) @bci=7, line=408 (Interpreted frame)
 - java.net.ServerSocket.implAccept(java.net.Socket) @bci=60, line=462 (Interpreted frame)
 - java.net.ServerSocket.accept() @bci=48, line=430 (Interpreted frame)
 - sun.rmi.transport.tcp.TCPTransport$AcceptLoop.executeAcceptLoop() @bci=55, line=369 (Interpreted frame)
 - sun.rmi.transport.tcp.TCPTransport$AcceptLoop.run() @bci=1, line=341 (Interpreted frame)
 - java.lang.Thread.run() @bci=11, line=662 (Interpreted frame)

Thread 22901: (state = IN_NATIVE)
 - sun.nio.ch.EPollArrayWrapper.epollWait(long, int, long, int) @bci=0 (Compiled frame; information may be imprecise)
 - sun.nio.ch.EPollArrayWrapper.poll(long) @bci=18, line=210 (Compiled frame)
 - sun.nio.ch.EPollSelectorImpl.doSelect(long) @bci=28, line=65 (Compiled frame)
 - sun.nio.ch.SelectorImpl.lockAndDoSelect(long) @bci=37, line=69 (Compiled frame)
 - sun.nio.ch.SelectorImpl.select(long) @bci=30, line=80 (Compiled frame)
 - net.spy.memcached.MemcachedConnection.handleIO() @bci=126, line=188 (Compiled frame)
 - net.spy.memcached.MemcachedClient.run() @bci=11, line=1591 (Compiled frame)

最佳答案

回答我自己的问题，因为我们部分找到了问题的根源。我们的系统中有一段代码如下:

LinkedList<Foo> foo = getSomePotentiallyLargeList();
long someValue = someCalendar.getTimeInMillis();
for (int i = 0; i < foo.size; i++) {
    if (foo.get(i).someField < someValue) break;
}

这本质上是我们代码中的一个错误，因为上面的 for 循环可能需要 n^2 时间来执行，因为 foo 是一个 LinkedList。但是，如果我们在一个线程中遇到一个长列表，它不应该把我们所有的线程都锁起来(那个线程应该卡了很久，而其他线程继续前进，jvm偶尔暂停gc等。 ).

我们的应用程序卡住的原因是，当它遇到 gc 时，所有 gc 线程都会阻塞，直到所有线程都到达安全点，而所有 java 线程都会在到达安全点时阻塞，直到 gc 完成。似乎 JVM 无法以某种方式在 for 循环内放置一个安全点，因此它需要继续执行，可能持续数天或更长时间，直到循环结束并到达安全点。

到达的最后一个安全点是在对 getTimeInMillis() 的调用中，所以这就是为什么 jstack -F 报告那里附近的大概执行位置。这似乎一定是一个 JVM 错误，因为据我所知，安全点应该位于执行中的每个分支中，以防止 gc 卡在等待一个循环线程上的此类问题。

不幸的是，我无法通过一个小示例在我自己的桌面上重现该问题。例如，如果我运行两个线程，其中一个以上述方式执行，另一个只是分配适度的内存量，当第一个线程陷入长循环时，gc 不会阻塞第二个线程。

最好验证确实是这种情况并隔离问题，或者更好地了解如何确保在触发 gc 后快速到达安全点。不用说，我们的解决方法不是在循环中花费 n^2 时间，但鉴于我们的输出，找到这个特定问题非常困难。不仅 gc 卡住了，而且由于 jstack 无法报告 jvm 在循环内的执行位置，因此很难将我们代码中的这个错误归零。

关于java - JVM 在完全 gc 后偶尔会锁定，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13385324/

26

4

0

文章推荐： java - RunWith(PowerMockRunner.class) 不适用于包注释

文章推荐： algorithm - 用 N 个给定元素构建 BST 是 O(n lg n) 吗？

文章推荐： c - 如何找到数组中两个素数的最大乘积？

文章推荐： java - 反序列化版本冲突

Java同步/锁定
我对 Java 并发性比较陌生(还没有阅读 JCIP，但它在我的列表中!)并且我有一个关于锁定行为的问题。具体来说，Java 是锁定对象的引用，还是锁定对象本身？代码示例(不是 sscce，因为我不
svn - 锁定 TortoiseSVN
我的团队使用 TortoiseSVN 编写版本控制代码。有时，有人使用“获取锁定”选项。是否有可能看到解决方案中的锁？最佳答案 http://tortoisesvn.net/docs/nightly
SVN提交/锁定/清理问题
我在使用 SVN 时遇到了一个小问题。当我跑 svn stat我明白了: ~ some/dir 当我跑 svn commit -m "test"我明白了:svn: working copy
security - 锁定 Jenkins
我启用了 jenkins 安全性，认为它会提示我创建一个帐户。我尝试在 c:/program files/jenkins 中删除和编辑我的 config.xml 文件，但我不确定如何在没有访问权限的情
使用 S3 锁定
实现与 S3 结合使用的简单锁定机制的推荐方法是什么？我想做的例子: 通过对象 ID 获取锁从 S3 读取对象修改数据将对象写入 S3 释放锁理想情况下寻找基于云的锁定机制。我可以在本地使用
Oracle索引-全表扫描/锁定
找到这个here : 一般来说，在以下任何情况下，请考虑在列上创建索引: 索引列上存在引用完整性约束，或者列。索引是避免全表锁的一种方法，否则，如果您更新父表主键，则需要，合并到父表中，或从父表中删除
Java-跨多个文件的同步/锁定
在我的程序中，我将把每个“ block ”数据存储在一个单独的文件中。多个线程都会读取和写入各种文件，我想避免因未正确同步而可能出现的问题。本质上，我想要一个设置，其中每个文件的行为就好像它有自己的
windows - 使用WINAPI找出特殊文件上的进程事件句柄(锁定)
我想使用此script作为资源，通过使用Windows API(重置管理器)与Go for Windows中的内容相同到目前为止，我的代码是 Rstrtmgr := syscall.NewLazyD
Java 锁定 <这有什么问题？>
这里的问题是:“这些选择中的哪一个对于线程安全选择的剧院具有最佳性能？” public static List lockList = initializeLocks(); public boolean
javascript - 锁定/防止关闭菜单reactjs
我有一个侧面菜单，单击图标时打开，单击页面或单击菜单上的项目时关闭。我正在尝试实现锁定，因此当单击锁定图标时，即使您单击菜单项或页面，菜单也不会关闭。我能够将图标从锁定图标更改为解锁图标，但我在停止
c - TTF_RenderText 锁定
使用 TRueType 字体编写 SDL 程序。我调用 TTF_Init() 来初始化 TTF 并使用 TTF_OpenFont( name, size ) 打开我的字体。我有一个例程，可以使用以下
Cortex-M4 锁定
我正在尝试调试基于运行 FreeRTOS 的 STM32F3 uC 的应用程序。我已在应用程序的线程上下文中的随机位置手动将 PSP 设置为无效值(例如 0)，希望触发 memManageFault/
c# - 锁定/并发问题
我有以下 C# 代码: 1. List bandEdgeList; 2. 3. bandEdgeList = CicApplication.BandEdgeCache.Where(r
Swift - 锁定/点击按钮
我正在用骰子制作游戏。这个想法是持有/锁定骰子。我把骰子做成按钮，这样现在就可以点击它们了。示例:我抛出一个“6”和一个“1”。我点击“6”，所以现在只会抛出“1”。我对这个有点迷失了，我需要创建
swift - 写入非常大的文件时应用程序卡住/锁定
我正在使用以下代码下载约 200mb 的播客并将其写入文档目录: var podcastRequest = NSURLRequest(URL: audioUrl) NSURLConnection.se
java - 对同步函数的外部调用保持/锁定
下面的类 DoStuff 启动一个线程并同步以保护监听器对象在 null 时不被访问。现在，当从外部访问 DoStuff 类函数 setOnProgressListener() 时，我遇到了问题，因
jquery - 防止浏览器调整大小(锁定)
我正在编写一个使用巨大背景 Canvas 的网站。我试图锁定浏览器调整大小处理程序以避免滚动问题(背景越界等) 这是我第一次做一个完整的后台网站。任何有关优化的建议(png 大小 580.72 KB
c# - 防止多次调用事件方法(锁定)
我是 C# 和线程的新手，我有这个问题要解决: 我有一个处理一些数据的线程，它会不时(必要时)触发我在启动线程之前设置的事件方法 (DataProcessor)。该线程位于专有 dll 中。所以我不能
android - 锁定/解锁设备时的相机示例错误
我正在使用相机，我使用的是文档中给出的完全相同的示例: http://developer.android.com/resources/samples/ApiDemos/src/com/example/
多个服务器上的 Java 锁定
我有几个座位可供用户预订。同一时间，只有一个用户可以参与预订过程，这样同一个座位就不会被多个用户预订。在我的 Java 代码中，我使用了“synchronized”关键字来完成它。这行得通。但是，现

首页

博学

6Ren·AI

商城

java - JVM 在完全 gc 后偶尔会锁定