linux - 在内核故障转储期间分析 CPU 寄存器-6ren

linux - 在内核故障转储期间分析 CPU 寄存器

转载作者：塔克拉玛干更新时间：2023-11-02 23:16:37

25

4

我正在调试一个问题并遇到了以下内核崩溃以及正在生成的故障转储。在某种程度上我确实知道如何使用 gdb (l *(debug_fucntion+0x19)) 命令到达代码中出现问题的确切行。

<1>BUG: unable to handle kernel paging request at ffffc90028213000
<1>IP: [<ffffffffa0180279>] debug_fucntion+0x19/0x160 [dise]
<4>PGD 103febe067 PUD 103febf067 PMD fd54e1067 PTE 0
<4>Oops: 0000 [#1] SMP
<4>last sysfs file: /sys/kernel/mm/ksm/run
<4>CPU 7
<4>Modules linked in: dise(P)(U) ebtable_nat ebtables ipt_MASQUERADE iptable_nat nf_nat xt_CHECKSUM iptable_mangle bridge autofs4 8021q garp stp llc ipt_REJECT nf_conntrack_ipv4 nf_defrag_ipv4 iptable_filter ip_tables ip6t_REJECT nf_conntrack_ipv6 nf_defrag_ipv6 xt_state nf_conntrack ip6table_filter ip6_tables ipv6 vhost_net macvtap macvlan tun kvm uinput ipmi_devintf power_meter microcode iTCO_wdt iTCO_vendor_support dcdbas sg ses enclosure serio_raw lpc_ich mfd_core i7core_edac edac_core bnx2 ext4 jbd2 mbcache sr_mod cdrom sd_mod crc_t10dif pata_acpi ata_generic ata_piix megaraid_sas dm_mirror dm_region_hash dm_log dm_mod [last unloaded: dise]
<4>
<4>Pid: 1126, comm: diseproc Tainted: P        W  ---------------    2.6.32-431.el6.x86_64 #1 Dell Inc. PowerEdge R710/0MD99X
<4>RIP: 0010:[<ffffffffa0180279>]  [<ffffffffa0180279>] debug_fucntion+0x19/0x160 [dise]
<4>RSP: 0018:ffff880435fc5b88  EFLAGS: 00010282
<4>RAX: 0000000000000000 RBX: 0000000000010000 RCX: ffffc90028213000
<4>RDX: 0000000000010040 RSI: 0000000000010000 RDI: ffff880fe36a0000
<4>RBP: ffff880435fc5b88 R08: ffffffffa025d8a3 R09: 0000000000000000
<4>R10: 0000000000000004 R11: 0000000000000004 R12: 0000000000010040
<4>R13: 000000000000b101 R14: ffffc90028213010 R15: ffff880fe36a0000
<4>FS:  00007fbe6040b700(0000) GS:ffff8800618e0000(0000) knlGS:0000000000000000
<4>CS:  0010 DS: 0000 ES: 0000 CR0: 000000008005003b
<4>CR2: ffffc90028213000 CR3: 0000000fc965b000 CR4: 00000000000007e0
<4>DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
<4>DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
<4>Process diseproc (pid: 1126, threadinfo ffff880435fc4000, task ffff8807f8be8ae0)
<4>Stack:
<4> ffff880435fc5be8 ffffffffa0180498 0000000081158f46 00000c200000fd26
<4><d> ffffc90028162000 0000fec635fc5bc8 0000000000000018 ffff881011d80000
<4><d> ffffc90028162000 ffff8802f18fe440 ffff880fc80b4000 ffff880435fc5cec
<4>Call Trace:
<4> [<ffffffffa0180498>] cmd_dump+0x1c8/0x360 [dise]
<4> [<ffffffffa01978e1>] debug_log_show+0x91/0x160 [dise]
<4> [<ffffffffa013afb9>] process_debug+0x5a9/0x990 [dise]
<4> [<ffffffff810792c7>] ? current_fs_time+0x27/0x30
<4> [<ffffffffa013bc38>] dise_ioctl+0xd8/0x300 [dise]
<4> [<ffffffff8105a501>] ? hotplug_hrtick+0x21/0x60
<4> [<ffffffff8119db42>] vfs_ioctl+0x22/0xa0
<4> [<ffffffff8119dce4>] do_vfs_ioctl+0x84/0x580
<4> [<ffffffff8119e261>] sys_ioctl+0x81/0xa0
<4> [<ffffffff810e1e5e>] ? __audit_syscall_exit+0x25e/0x290
<4> [<ffffffff8100b072>] system_call_fastpath+0x16/0x1b
<4>Code: be c4 10 e1 48 8b 5d d8 44 01 f0 4c 8b 65 e0 4c 8b 6d e8 4c 8b 75 f0 4c 8b 7d f8 c9 c3 0f 1f 44 00 00 55 48 89 e5 0f 1f 44 00 00 <48> 8b 01 48 c1 e8 3c 83 f8 08 76 0b e8 f6 fb ff ff c9 c3 0f 1f
<1>RIP  [<ffffffffa0180279>] debug_fucntion+0x19/0x160 [dise]
<4> RSP <ffff880435fc5b88>
<4>CR2: ffffc90028213000

我的问题是

打印出来的CPU寄存器内容能给出更多信息吗？我如何解码它们？
我能否从导致崩溃的崩溃转储中了解变量值或数据结构值？
“代码:be c4 10 e1 48 8b 5d ...”在这里告诉我什么？

最佳答案

您必须了解您是在汇编级别(而非源代码)进行检查(而非调试)。这是您在检查故障转储时必须牢记的重要事项。

您必须逐行仔细阅读您的故障转储报告，因为它包含很多信息，而且您只有这些信息。

当您找到代码崩溃的位置时 - 您必须通过阅读崩溃转储报告和反汇编来找出发生这种情况的原因。

崩溃转储报告中的第一行告诉您

BUG: unable to handle kernel paging request at ffffc90028213000

这意味着您正在使用无效内存。

线

Process diseproc (pid: 1126, threadinfo ffff880435fc4000, task ffff8807f8be8ae0)

告诉你崩溃时用户空间发生了什么。似乎用户空间进程 diseproc 向您的驱动程序发出了一些导致崩溃的命令。

非常重要的一行是

IP: [<ffffffffa0180279>] debug_fucntion+0x19/0x160 [dise]

尝试发出dis debug_function 命令来反汇编debug_function，找到debug_function+25(0x19 hex = 25 dec) 并环顾四周。将其与 debug_function 的 C 源代码并排阅读。通常您可以通过比较 callq 指令找到 C 代码中的崩溃位置 - 反汇编将显示被调用函数的可打印名称。

接下来也是最重要的是调用跟踪:

Call Trace:
 [<ffffffffa0180498>] cmd_dump+0x1c8/0x360 [dise]
 [<ffffffffa01978e1>] debug_log_show+0x91/0x160 [dise]
 [<ffffffffa013afb9>] process_debug+0x5a9/0x990 [dise]
 [<ffffffff810792c7>] ? current_fs_time+0x27/0x30
 [<ffffffffa013bc38>] dise_ioctl+0xd8/0x300 [dise]
 [<ffffffff8105a501>] ? hotplug_hrtick+0x21/0x60
 [<ffffffff8119db42>] vfs_ioctl+0x22/0xa0
 [<ffffffff8119dce4>] do_vfs_ioctl+0x84/0x580
 [<ffffffff8119e261>] sys_ioctl+0x81/0xa0
 [<ffffffff810e1e5e>] ? __audit_syscall_exit+0x25e/0x290
 [<ffffffff8100b072>] system_call_fastpath+0x16/0x1b

从下往上阅读:内核获得了 ioctl(显然来自 diseproc)，内核调用了 dise 模块中的 ioctl 处理程序 dise_ioctl，然后是 current_fs_time 、process_debug、debug_log_show 最后是 cmd_dump。

现在你知道了:

代码路径:dise_ioctl -> current_fs_time -> process_debug -> debug_log_show -> cmd_dump -> 以某种方式debug_function。
C 代码中导致崩溃的大概位置
崩溃原因:访问无效内存

有了这些信息，您必须使用最后也是最强大的方法——思考。尝试了解导致崩溃的变量/结构。也许其中一些在您到达 debug_function 时已被释放？也许您在指针运算中输入错误？

问题的答案:

大多数时候 CPU 寄存器值是没有意义的，因为它与您的 C 代码无关。只是一些值，指向一些内存 - 随便什么。是的，有一些非常有用的寄存器，例如 RIP/EIP 和 RSP/ESP，但其中大多数都太脱离上下文了。
不太可能。你实际上并没有调试——你正在检查你的转储——你没有任何调试上下文。
我同意@user2699113 的观点，它只是 RIP 指针下的内存内容。

请记住 - 最好的调试工具是您的大脑。

关于linux - 在内核故障转储期间分析 CPU 寄存器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21850618/

25

4

0

文章推荐： android - HTC One 手机的 Sencha Touch 2.X 解决方法

文章推荐： android - 进度对话框在异步任务中给出异常

文章推荐： c - Linux 套接字 : Close socket in C

JavaScript 故障
有人可以解释一下为什么这个脚本不起作用吗？ function destroy(ID) { if (confirm("Deleting is a very bad thing! Sure?")
wcf - Silverlight 故障
我正在尝试使 WCF Silverlight 故障按此方式工作: MSDN aricle 将 SL 故障添加到我的 Web.config 文件后，我收到以下警告: The element 'behav
Haskell mod 故障？
这是我要删除的 Haskell 函数 2::Int和 5::Int从列表中: remPrimesFactors25 :: [Int] -> [Int] remPrimesFactors25 [] =
FFmpeg DTS 故障
当我想用 ffmpeg 连接和录制两个 mp4 视频时，我遇到了这个问题。我得到的输出是: [concat @ 0x2566e80] DTS 4079 #0:0 (h264 (native) ->
delphi - SetCursorPos 故障？
我想在delphi中编写一个程序来模拟以特定速度移动的鼠标指针(类似于AutoIT MouseMove函数)。要么是我的代码错误，要么是 SetCursorPos 在被调用太多次后出现故障。这是我的功
JavaScript 故障，无法正确重定向
我将“wa、or 和 id”(来自这些州的访问者)设置为重定向到 website1.com - 当我访问该网站时，它会将我重定向到 website1.com(因此它知道我在 WA) 。但如果我将 wa
WCF - 故障/异常与消息
我们目前正在争论通过 WCF channel 抛出错误与传递指示状态或服务响应的消息是否更好。故障带有 WCF 的内置支持，您可以使用内置的错误处理程序并做出相应的 react 。然而，这会带来开销
r - c() 故障？
不确定我在这里做错了什么，如果有任何帮助，我们将不胜感激。尝试创建一个名为“control”的新变量，并在行变量等于这些数字时将其编码为 1，否则编码为 0。 data$control= ifels
.net - 遥测采样而不影响错误/故障
我想在应用洞察中记录成功调用的百分比。我看到这篇文章https://learn.microsoft.com/en-us/azure/azure-monitor/app/sampling我认为固定速率采
python - 如何区分Python或Matlab是否错误/故障？
我正在尝试使用 SVD 和特征分解来使用动态模式分解进行一些数据分析。我遇到了一个简单的问题，即从 Matlab 和 Python 获得不同的结果。我很困惑，不知道为什么 Python 给我错误的结果
php - 我迫切需要帮助来排除mysqli_error()故障。
This question already has an answer here: mysqli_fetch_assoc() expects parameter / Call to a member
c - 结构链接表分段-故障
我刚刚开始我的一个实验室，在那里我计算类(class)的 GPA，其信息存储在结构的链接列表中。截至目前，我正在尝试打印所有类(class)信息，以确保它们已正确初始化并添加到链接列表中。我遇到了一
c++ - GetWindowText 故障
我正在尝试学习如何使用 visual studio 为 C++ 制作 GUI。但是我在使用 GetWindowText() 函数时遇到了一些问题。它不会将 LPTSTR 标题更改为文本框中的文本，并且
ios - NSNumberFormatter 故障
我有一个奇怪的问题。它似乎只出现在测试者的 iPhone 5s 上。它可以在运行最新 iOS (8.3) 的 iPhone 5、6 和 6 plus 上正常运行。这是代码 -(NSString *)
ios - 更新核心数据记录<故障>
我正在尝试更新 Core Data 中的一些记录。我正在采取以下步骤来完成它带谓词的获取函数从核心数据中检索记录将结果集存储在对象数组中遍历数组并更新每条记录调用保存上下文我遇到了两个问题
iphone - viewWithTag 故障。
我通过 Storyboard设计了 tableView，在一个单元格中我有一个按钮和一个标签。按钮在 Storyboard上有标签 1 和标签在 Storyboard上有标签 2。在 cellForR
ios - textFieldShouldEndEditing 故障？
我实现了这个方法，当在文本字段中输入了未经授权的字符或已使用的用户名时，向用户发送多个警报 View : func textFieldShouldEndEditing(textField: UITex
C++ Rnd() 故障
伙计们，我在运行程序时遇到了这个非常奇怪的错误。这是重要的代码: 变量(编辑): const short int maxX = 100; const short int maxZ = 100; con
JavaScript 错误/故障？
我有这个修改过的 Matrix Javascript 代码，我想摆脱第一次运行的所有与自身重叠的字符串。有人知道我该如何管理吗？另外，我想在我的网页上多次使用此代码，我需要声明新变量，不是吗？但是当我
c# - COMException 故障
有谁知道是否有网站(甚至非 Microsoft)有关于 COMExceptions/HRESULTS 的详细信息。当我尝试在使用 Copy() 函数后保存我的 Excel 工作簿时，我收到此错误:

首页

博学

6Ren·AI

商城

linux - 在内核故障转储期间分析 CPU 寄存器