gpt4 book ai didi

c++ - 描述和发现导致看似随机崩溃的状态破坏错误

转载 作者:塔克拉玛干 更新时间:2023-11-03 00:17:01 26 4
gpt4 key购买 nike

我目前正面临着我的团队正在处理的大型复杂项目中遇到过的最严重的错误之一。我们使用 C++ 作为编程语言,目前使用 Visual Studio 进行开发,尽管最终产品旨在跨平台运行。

漏洞:

我们的系统中存在一个错误,它会在看似随机的执行点触发崩溃。崩溃的原因通常是地址的读取访问冲突,每次执行程序时地址都会发生变化。有时我们也会遇到堆损坏错误。调用堆栈将我们引向代码库中的变化点,并且很少引向某些外部库(在我们的例子中是 Lua),而错误显然并不存在。

似乎这个错误在过去 4 个月内一直在发展。那段时间之前,大致上,我的一些团队成员看到前端程序崩溃的方式和位置与现在发生的情况非常相似。

更多细节:

我们的代码库大约有 800,000 行纯 C++(不包括注释)大,开发历时 3 年。当前项目的重量约为 300K。我们使用过多的单元测试和其他方法来在错误发生之前将其消除,例如断言、智能指针等。

我和其他人已经尝试查找此错误 2 个多星期了。对我来说,这不仅仅是一场噩梦。在如此复杂的项目中,面对现在的复杂性,即使是良好的旧 printf 调试似乎也失败了。

我的问题

  • 我们在这里面临什么样的错误?这甚至有一个名字吗?这种错误在其他大型项目中是否经常出现?

  • 在使用各种实用程序、各种平台和各种build设置进行了 2 周无果调试后,我们可以做些什么来找到并消除它?

(我之前的问题已经结束,所以这次我尝试用更多的细节来更好地表述它,链接:https://stackoverflow.com/questions/7154645/how-is-this-kind-of-bug-called)

最佳答案

您描述的症状是堆损坏的典型症状(并非所有堆损坏都报告为带有错误消息!)。您将需要审核程序中所有对象的生命周期;确保你没有两次释放东西,或者在释放它们之后使用它们,并确保你没有溢出任何缓冲区。您可能想借此机会使用诸如 std::smart_ptr(或 boost::smart_ptr)之类的东西来自动化部分堆管理。

如果您使用的是 Linux 或 Mac 操作系统,请尝试在 valgrind 下运行您的程序- 它将检测到许多堆和堆栈损坏错误。在 Windows 上,使用 application verifier ;它可以帮助使错误导致崩溃的时间更接近真正发生的时间点。

如果您正在使用线程,则导致堆损坏的竞争条件是另一种可能性。还要审核您的锁定机制。

如果您可以轻松地重现此错误,并且拥有适当的源代码控制系统,请考虑使用二分法来确定引入它的确切时间。也就是说,对您的源代码历史执行二进制搜索以找到带有错误的第一个提交。 Git 有一个工具可以自动执行此操作 - git-bisect - 如果您还没有使用 git,可以将存储库的拷贝导入 git 以运行此工具。

此外,看看您是否可以禁用程序的某些部分(完全阻止调用有问题的代码)以缩小问题范围。请注意,这可能有误报 - 如果您禁用模块 X 并且它停止崩溃,则可能意味着模块 X 正在破坏堆,或者它可能意味着模块 W 破坏了堆而模块 X 恰好善于注意到它.

关于c++ - 描述和发现导致看似随机崩溃的状态破坏错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7154862/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com