gpt4 book ai didi

linux - 系统挂起可能与 "clocksource tsc unstable"相关?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:00:24 26 4
gpt4 key购买 nike

我们有六台服务器在运行几天后随机挂起。检查消息日志我发现它们都有“clocksource tsc unstable”,然后是“Time: acpi_pm clocksource has been installed”。所有这些消息都发生在我们的一个应用程序调整系统时间的时刻,该应用程序使服务器时间偶尔与远程系统保持同步。在每种情况下,服务器都会在安装“acpi_am”时钟源后的几个小时内挂起。

我们使用stime()函数直接设置系统时间。

我是这种调试的新手,但我试图通过阅读 tsc.c 源代码来了解它。我们的内核版本是2.6.23.8,cpu是Intel Core 2 Quad Q9400。

这是内核错误吗?还是 acpi_pm 时钟源有问题?

编辑 1:在 git log 搜索当前 Linux 内核树中与“clocksource”相关的所有新更改后,发现有大量关于 clocksources 的更改。这看起来很难找到可能适用于我的问题的现有修复。

编辑 2:看起来我没有 HPET

cat /sys/devices/system/clocksource/clocksource0/available_clocksource  
tsc acpi_pm jiffies

编辑 3:谢谢@thkala。 “挂起”的描述:我仍然可以 ping 服务器。使用 telnet 我仍然可以探测到 21、80 等公共(public)端口仍然打开。但是 SSH、VNC 会“挂起”(服务器无响应)。将显示器连接到服务器,可以用鼠标光标看到 GUI,但屏幕只是停在同一张图片上。将usb光电鼠标连接到服务器,红灯会闪烁一次然后完全熄灭。.连接usb键盘,caplock numlock都不亮。

编辑 4:至于证据。 @thkala 真的说得很有道理。我检查了我所有的 5 个服务器,在强制它们关闭和重新启动后,它们的消息存在“挂起”问题,除了“clocksource tsc unstable”之外没有其他异常消息。 “tsc”日志在特定的引导 session 期间发生一次,并且在每种情况下挂起都发生在安装“acpi_pm”时钟源之后。一些服务器运行了很多 ~16 天,在安装“acpi_pm”后的 1 到 13 小时内,服务器挂起。其他服务器没有显示此消息也没有挂起..你是对的这不是决定性的但我一直在根据推测朝这个方向挖掘..

有人对此有想法吗?

最佳答案

(我不太喜欢通过 Crystal 球进行调试,但我会试一试...)

注意几点:

  1. 您没有在问题的上下文中指定“hung” 的确切含义。内核是否完全停止 - 还是只是您的应用程序?它会达到 100% CPU 并保持在那里吗?它对任何刺激都有反应吗?出现问题时是否有相关的控制台消息?

  2. 你没有提到你是如何最终得到时钟和计时系统的,因为你的嫌疑人 - “几个小时内” 并不是确凿的证据。排除硬件问题(包括电源波动)了吗?您还排除了什么?为什么?

  3. 不稳定的时钟源比您想象的更常见 - 来 self 自己的系统:

    kernel: Marking TSC unstable due to TSC halts in idle
  4. 您使用的是非常旧的内核 - 有几个与调整时间时内核锁定相关的修复程序,例如现在著名的 June 30, 2012 leap second issue。 .

  5. 您似乎患有 NIH syndrome - 使用自定义应用程序进行时间同步而不是 NTP听起来像是一场灾难……

关于linux - 系统挂起可能与 "clocksource tsc unstable"相关?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13796944/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com