记一次使用gdb诊断gc问题全过程-6ren

记一次使用gdb诊断gc问题全过程

转载作者：我是一只小鸟更新时间：2023-02-04 22:31:15

26

4

原创：扣钉日记（微信公众号ID：codelogs），欢迎分享，转载请保留出处.

简介

上次解决了GC长耗时问题后，系统果然平稳了许多，这是之前的文章《GC耗时高，原因竟是服务流量小？》然而，过了一段时间，我检查GC日志时，又发现了一个GC问题，如下：从这个图中可以发现，我们GC有一些尖峰，有时会突然有大量的内存分配.

查看GC日志，发现有大对象分配的记录，如下:

                        
                          $ grep 'concurrent humongous allocation' gc.log | awk 'match($0,/allocation request: (\w+) bytes/,a){print a[1]}' |sort -nr
1941835784
1889656848

可以看到，一次大对象分配，分配大小竟然有1.9G，这谁能抗得住啊！。

async-profiler定位大对象分配

上面提到的文章介绍过，使用async-profiler可以很容易的定位大对象分配的调用栈，方法如下:

                        
                          ./profiler.sh start --all-user -e G1CollectedHeap::humongous_obj_allocate -f ./humongous.jfr jps

然后使用jmc打开humongous.jfr文件，调用栈如下:

这是在做thrift反序列化操作，调用了 TCompactProtocol.readDouble 方法，方法代码如下：可是，这里只创建了8字节的数组，怎么也不可能需要分配1.9G内存吧，真是奇了怪了！。

经过一番了解，这是因为async-profiler是通过AsyncGetCallTrace来获取调用栈的，而AsyncGetCallTrace获取的栈有时是不准的，Java社区有反馈过这个问题，至今未解决。问题链接： https://bugs.openjdk.org/browse/JDK-8178287 。

寻找其它tracer

linux上有很多内核态的tracer，如perf、bcc、systemtap，但它们都需要root权限，而我是不可能申请到这个权限的😔 。

在用户态上，基于ptrace系统调用实现的有strace、ltrace，我试了一下它们，并无法直接跟踪G1中的大对象分配函数 G1CollectedHeap::humongous_obj_allocate .

我也在网上搜索了好几天，希望找到一个有用的纯用户态tracer，但可惜几天都没找到，最后，我只能将目标放在c/c++的调试工具gdb上，我想gdb既然是一个调试工具，那它必然能够查看指定函数的调用参数与调用栈，只要找到相应用法即可！。

编写gdb脚本

经过一番学习与探索(PS：其实花了我快2周😂)，我终于编写出了实际可用的gdb脚本，如下:

                        
                          handle all nostop noprint pass
handle SIGINT stop print nopass

break *(_ZN15G1CollectedHeap22humongous_obj_allocateEmh + 0x58c06f - 0x58c060)
while 1
    continue
    # 如果是Ctrl+c，则退出
    if $_siginfo
        if $_siginfo.si_signo == 2
            detach
            quit
        end
    end
    printf "word_size is %d\n",$rsi
    if $rsi > 100*1024*1024/8
        # 打印当前时间
        shell date +%FT%T   
        # 打印当前线程
        thread              
        # 打印当前调用栈
        bt                  
        python import subprocess
        # 向jvm发送kill -3信号，即SIGQUIT信号
        python proc = subprocess.Popen(['kill','-3',str(gdb.selected_inferior().pid)], stdout=subprocess.PIPE, stderr=subprocess.PIPE, bufsize=1, universal_newlines=True)
        python stdout, stderr = proc.communicate()
        python print(stdout)
        python print(stderr)
        detach
        quit
    end
end

没学过gdb的同学可能看不明白，没关系，我们慢慢来.

                        
                          handle all nostop noprint pass
handle SIGINT stop print nopass

这2句handle是处理Linux信号用的，由于我们并不需要调试信号问题，所以让gdb都不处理信号，保留SIGINT是为了按Ctrl+c时能退出gdb脚本.

                        
                          break *(_ZN15G1CollectedHeap22humongous_obj_allocateEmh + 0x58c06f - 0x58c060)

这个break是给G1中的大对象分配函数 G1CollectedHeap::humongous_obj_allocate 设置断点，方法源码如下： word_size参数表示分配多少字的内存，而在64位机器上，1字等于8字节，所以如果能追踪到这个参数值，就能知道每次分配大对象的大小了.

由于JVM是使用C++写的，而C++编译会做函数名改写(mangle)以兼容C的ABI，所以编译后的函数名就变成了奇奇怪怪的 _ZN15G1CollectedHeap22humongous_obj_allocateEmh ，通过nm查询二进制文件的符号表，可以获取这个名称.

                        
                          $ which java
/usr/local/jdk/jdk1.8.0_202/bin/java

# jvm相关实现，都在libjvm.so动态库中
$ find /usr/local/jdk/jdk1.8.0_202 | grep libjvm.so
/usr/local/jdk/jdk1.8.0_202/jre/lib/amd64/server/libjvm.so

$ nm /usr/local/jdk/jdk1.8.0_202/jre/lib/amd64/server/libjvm.so |grep humongous_obj_allocate
000000000058c060 t _ZN15G1CollectedHeap22humongous_obj_allocateEmh
000000000058b1a0 t _ZN15G1CollectedHeap41humongous_obj_allocate_initialize_regionsEjjmh

再看回之前设置断点的脚本代码:

                        
                          break *(_ZN15G1CollectedHeap22humongous_obj_allocateEmh + 0x58c06f - 0x58c060)

+ 0x58c06f - 0x58c060 这个是在做地址偏移操作，了解过汇编的同学应该清楚，调用函数后，函数开头的一些汇编指令，一般是参数寄存器的相关操作，x86参数寄存器如下:

                        
                          rdi 表示第一个参数
rsi 表示第二个参数
rdx 表示第三个参数
rcx 表示第四个参数
r8 表示第五个参数
r9 表示第六个参数

可以使用objdump反汇编libjvm.so，看看汇编代码，以确定断点该偏移到哪一行指令上，看官们坚持住，汇编相关内容就下面一点😁 。

                        
                          $ objdump -d /usr/local/jdk/jdk1.8.0_202/jre/lib/amd64/server/libjvm.so |less -S

然后在less里面搜索 _ZN15G1CollectedHeap22humongous_obj_allocateEmh 函数，如下：之所以要加偏移量，是因为在 + 0x58c06f - 0x58c060 这个位置后，rsi寄存器(第二个参数)才会有值，之所以获取每二个参数的值，是因为C++对象编程中，第一个参数是this.

然后后面的逻辑就好理解了，如下：首先是循环，然后continue表示让程序运行起来，当程序命中断点后，continue才会执行完。中间是信号处理，主要是为了能Ctrl+c退出循环。最后通过print将rsi的值打印出来，这样就追踪到了word_size参数的值.

再然后是打印线程与调用栈信息，如下：当分配内存大于100M时，打印当前时间、当前线程与当前调用栈.

但gdb的bt命令打印的调用栈是这样子的，如下：因为Java是解释执行的，java部分的调用栈bt是获取不到的.

没有java调用栈，这个追踪脚本就瘸了呀，我在这里卡了好久，也尝试了许多种方法🤣 。

对java比较熟悉的同学应该知道，jvm有一个隐藏的诊断功能，如果给jvm进程发SIGQUIT信号，jvm会在标准输出中打印线程栈信息，而SIGQUIT信号可以通过 kill -3 发送，因此就有了下面的代码： gdb真是强大，内嵌了python扩展，而通过python的subprocess包，就可以执行 kill -3 命令了.

后面的 detach 与 quit ，用于退出gdb的，不用深究.

运行gdb脚本追踪大对象

把上面的gdb脚本命名为trace.gdb，然后就可以使用gdb命令运行它了，如下:

                        
                          $ gdb -q --batch -x trace.gdb -p `pgrep java`

其中 pgrep java 用于获取java进程的进程号.

注：gdb本质上是基于ptrace系统调用的调试器，断点命中时对进程有不小切换开销，所以这种方式只能追踪调用频次不高的函数.

运行后，追踪到的参数与线程信息如下：其中LWP后面的166就是线程号，转成十六进制就是0xa6。然后到java进程的标准输出日志中，去找这个线程的Java调用栈，如下:

大对象分配由readBinary函数发起，调试下这个函数，如下：妈呀，它创建了一个超大的byte数组，难怪会出现1.9G的大对象分配呢！。

而readBinary的调用，由这个代码触发:

                        
                          TProtocolFactory factory = new TCompactProtocol.Factory();
TDeserializer deserializer = new TDeserializer(factory);
deserializer.deserialize(deserializeObj, sourceBytes);

这是在做thrift反序列化，将sourceBytes字节数组反序列化到deserializeObj对象中.

当sourceBytes是由deserializeObj对象序列化出来时，反序列化就没有任何问题.

而当sourceBytes不是由deserializeObj对象序列化出来时，反序列化代码从sourceBytes中解析出字段长度时(length)，可能是任意值，进而导致可能创建超大的字节数组.

但我们写这个代码，就是为了检测sourceBytes是否由deserializeObj序列化而来，所以sourceBytes确实有可能不是由deserializeObj序列化而来！。

简单查看了一会thrift代码，发现可以限制字段的最大长度，如下：想一想，反序列的某个字段的长度，肯定不会有整个反序列化的数据长呀，因此使用sourceBytes.length来限制即可.

                        
                          TProtocolFactory factory = new TCompactProtocol.Factory(sourceBytes.length, sourceBytes.length);
TDeserializer deserializer = new TDeserializer(factory);
deserializer.deserialize(deserializeObj, sourceBytes);

限制了后，若字段超长了会抛异常，所以若反序列化异常了，说明当前sourceBytes不是由deserializeObj序列化出来.

总结

编写这个gdb脚本，确实花费了我相当多的时间，因为事前我也不知道gdb是否能够做到这个事情，且我不是C/C++程序员，对汇编相关知识并不熟悉，中途有好几次想放弃😣 。

好在最后成功了，并让我又Get到了一种新的问题解决路径，还是非常值得的😁 。

最后此篇关于记一次使用gdb诊断gc问题全过程的文章就讲到这里了,如果你想了解更多关于记一次使用gdb诊断gc问题全过程的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

26

4

0

文章推荐：重学c#系列——IO流[三十四]

文章推荐：两台蓝牙音箱组立体声

文章推荐：图解B树及C#实现（3）数据的删除

javascript - 使用 WebScriptEndpoint 使用 javascript 使用 WCF 服务
我在网上搜索但没有找到任何合适的文章解释如何使用 javascript 使用 WCF 服务，尤其是 WebScriptEndpoint。任何人都可以对此给出任何指导吗？谢谢最佳答案这是一篇关于
c - 没有结果!!使用 fork() 使用 dup2 使用 2 个管道运行 execlp()
我正在编写一个将运行 Linux 命令的 C 程序，例如: cat/etc/passwd | grep 列表 |剪切-c 1-5 我没有任何结果 *这里 parent 等待第一个 child (chi
python - 处理文件上传，使用 Pillow 调整大小，使用 SQLAlchemy 存储，使用 Flask 提供文件
所以我正在尝试处理文件上传，然后将该文件作为二进制文件存储到数据库中。在我存储它之后，我尝试在给定的 URL 上提供文件。我似乎找不到适合这里的方法。我需要使用数据库，因为我使用 Google 应用引
excel - 使用 IF 使用 VBA 在单元格中添加公式的问题
我正在尝试制作一个宏，将下面的公式添加到单元格中，然后将其拖到整个列中并在 H 列中复制相同的公式我想在 F 和 H 列中输入公式的数据 Range("F1").formula = "=IF(ISE
使用 OperatorPrecedenceParser 使用 FParsec 解析函数应用程序？
问题类似于this one ，但我想使用 OperatorPrecedenceParser 解析带有函数应用程序的表达式在 FParsec . 这是我的 AST: type Expression =
sql - 使用 sequelize 使用 where 查询编码计数
我想通过使用 sequelize 和 node.js 将这个查询更改为代码取决于在哪里 select COUNT(gender) as genderCount from customers where
bash - 使用 “let”分配Bash失败，使用 “/”
我正在使用GNU bash，版本5.0.3(1)-发行版(x86_64-pc-linux-gnu)，我想知道为什么简单的赋值语句会出现语法错误: #/bin/bash var1=/tmp
javascript - 使用 JavaScript 使用 FOR OF 数组循环时出现错误？
这里，为什么我的代码在 IE 中不起作用。我的代码适用于所有浏览器。没有问题。但是当我在 IE 上运行我的项目时，它发现错误。而且我的 jquery 类和 insertadjacentHTMl 也不
javascript - 使用 javascript 使用 for 属性更改表单标签内容
我正在尝试更改标签的innerHTML。我无权访问该表单，因此无法编辑 HTML。标签具有的唯一标识符是“for”属性。这是输入和标签的结构:
javascript - 使用 jquery 使用 .on() 将事件附加到页面上的动态插入按钮
我有一个页面，我可以在其中返回用户帖子，可以使用一些 jquery 代码对这些帖子进行即时评论，在发布新评论后，我在帖子下插入新评论以及删除按钮。问题是 Delete 按钮在新插入的元素上不起作用，
使用 awk 使用 sha1sum 进行散列
我有一个大约有 20 列的“管道分隔”文件。我只想使用 sha1sum 散列第一列，它是一个数字，如帐号，并按原样返回其余列。使用 awk 或 sed 执行此操作的最佳方法是什么？ Accounti
mysql - 使用 insert into 使用 mysql
我需要将以下内容插入到我的表中...我的用户表有五列 id、用户名、密码、名称、条目。 (我还没有提交任何东西到条目中，我稍后会使用 php 来做)但由于某种原因我不断收到这个错误:#1054 - U
jquery - 将输入字段值修剪为仅字母数字字符/使用 .使用 jQuery
所以我试图有一个输入字段，我可以在其中输入任何字符，但然后将输入的值小写，删除任何非字母数字字符，留下“。”而不是空格。例如，如果我输入: 地球的 70% 是水，-!*#$^^ & 30% 土地输
javascript - 使用 .innerHTML 使用 DOM
我正在尝试做一些我认为非常简单的事情，但出于某种原因我没有得到想要的结果？我是 javascript 的新手，但对 java 有经验，所以我相信我没有使用某种正确的规则。这是一个获取输入值、检查选择
php - 使用 angularjs 使用 where 子句从数据库获取数据
我想使用 angularjs 从 mysql 数据库加载数据。这就是应用程序的工作原理；用户登录，他们的用户名存储在 cookie 中。该用户名显示在主页上我想获取这个值并通过 angularjs
ios - 使用 UITableViewCell 使用 AutoLayout
我正在使用 autoLayout，我想在 UITableViewCell 上放置一个 UIlabel，它应该始终位于单元格的右侧和右侧的中心。这就是我想要实现的目标所以在这里你可以看到我正在谈论的
mysql - 使用 ElasticSearch 使用 or 和运算符搜索多个字段
我需要与 MySql 等效的 elasticsearch 查询。我的 sql 查询: SELECT DISTINCT t.product_id AS id FROM tbl_sup_price t
ios - 使用 Swift 使用 JSON
我正在实现代码以使用 JSON。 func setup() { if let flickrURL = NSURL(string: "https://api.flickr.com/
javascript - 使用 JavaScript 使用 for 循环声明变量
我尝试使用for循环声明变量，然后测试cols和rols是否相同。如果是，它将运行递归函数。但是，我在 javascript 中执行 do 时遇到问题。有人可以帮忙吗？现在，在比较 col.1 和
jquery - 使用 :after 使用 jquery 更改样式
我举了一个我正在处理的问题的简短示例。 HTML代码: 1 2 3 CSS 代码: .BB a:hover{ color: #000; } .BB > li:after {

首页

博学

6Ren·AI

商城