c++ - 为什么在这个解散的 std::string dtor 中有一个锁定的 xadd 指令？-6ren

c++ - 为什么在这个解散的 std::string dtor 中有一个锁定的 xadd 指令？

转载作者：太空宇宙更新时间：2023-11-03 10:22:47

我有一个非常简单的代码:

#include <string>
#include <iostream>

int main() {
    std::string s("abc");
    std::cout << s;
}

然后，我编译它:

g++ -Wall test_string.cpp -o test_string -std=c++17 -O3 -g3 -ggdb3

然后反编译，最有趣的一段是:

00000000004009a0 <_ZNSs4_Rep10_M_disposeERKSaIcE.isra.10>:
  4009a0:       48 81 ff a0 11 60 00    cmp    rdi,0x6011a0
  4009a7:       75 01                   jne    4009aa <_ZNSs4_Rep10_M_disposeERKSaIcE.isra.10+0xa>
  4009a9:       c3                      ret    
  4009aa:       b8 00 00 00 00          mov    eax,0x0
  4009af:       48 85 c0                test   rax,rax
  4009b2:       74 11                   je     4009c5 <_ZNSs4_Rep10_M_disposeERKSaIcE.isra.10+0x25>
  4009b4:       83 c8 ff                or     eax,0xffffffff
  4009b7:       f0 0f c1 47 10          lock xadd DWORD PTR [rdi+0x10],eax
  4009bc:       85 c0                   test   eax,eax
  4009be:       7f e9                   jg     4009a9 <_ZNSs4_Rep10_M_disposeERKSaIcE.isra.10+0x9>
  4009c0:       e9 cb fd ff ff          jmp    400790 <_ZdlPv@plt>
  4009c5:       8b 47 10                mov    eax,DWORD PTR [rdi+0x10]
  4009c8:       8d 50 ff                lea    edx,[rax-0x1]
  4009cb:       89 57 10                mov    DWORD PTR [rdi+0x10],edx
  4009ce:       eb ec                   jmp    4009bc <_ZNSs4_Rep10_M_disposeERKSaIcE.isra.10+0x1c>

为什么 _ZNSs4_Rep10_M_disposeERKSaIcE.isra.10 (这是

std::basic_string<char, std::char_traits<char>, std::allocator<char> >::_Rep::_M_dispose(std::allocator<char> const&) [clone .isra.10]

)是一个以 xadd 为前缀的锁？

一个后续问题是我如何避免它？

最佳答案

它看起来像与 copy on write 相关联的代码字符串。锁定指令递减一个引用计数，然后调用 operator delete仅当包含实际字符串数据的可能共享缓冲区的引用计数为零时(即，它不是共享的:没有其他字符串对象引用它)。

由于 libstdc++ 是开源的，我们可以通过查看源代码来确认这一点!

你反汇编的函数，_ZNSs4_Rep10_M_disposeERKSaIcE de-mangles1 到 std::basic_string<char>::_Rep::_M_dispose(std::allocator<char> const&) .这是corresponding source对于 gcc-4.x 时代 2 中的 libstdc++:

    void
    _M_dispose(const _Alloc& __a)
    {
#if _GLIBCXX_FULLY_DYNAMIC_STRING == 0
      if (__builtin_expect(this != &_S_empty_rep(), false))
#endif
        {
          // Be race-detector-friendly.  For more info see bits/c++config.
          _GLIBCXX_SYNCHRONIZATION_HAPPENS_BEFORE(&this->_M_refcount);
          if (__gnu_cxx::__exchange_and_add_dispatch(&this->_M_refcount,
                             -1) <= 0)
        {
          _GLIBCXX_SYNCHRONIZATION_HAPPENS_AFTER(&this->_M_refcount);
          _M_destroy(__a);
        }
        }
    }  // XXX MT

鉴于此，我们可以注释您提供的程序集，将每条指令映射回 C++ 源代码:

00000000004009a0 <_ZNSs4_Rep10_M_disposeERKSaIcE.isra.10>:

  # the next two lines implement the check:
  # if (__builtin_expect(this != &_S_empty_rep(), false))
  # which is an empty string optimization. The S_empty_rep singleton
  # is at address 0x6011a0 and if the current buffer points to that
  # we are done (execute the ret)
  4009a0: cmp    rdi,0x6011a0
  4009a7: jne    4009aa <_ZNSs4_Rep10_M_disposeERKSaIcE.isra.10+0xa>
  4009a9: ret

  # now we are in the implementation of
  # __gnu_cxx::__exchange_and_add_dispatch(&this->_M_refcount, -1)
  # which dispatches either to an atomic version of the add function
  # or the non-atomic version, depending on the value of `eax` which
  # is always directly set to zero, so the non-atomic version is 
  # *always called* (see details below)
  4009aa: mov    eax,0x0
  4009af: test   rax,rax
  4009b2: je     4009c5 <_ZNSs4_Rep10_M_disposeERKSaIcE.isra.10+0x25>

  # this is the atomic version of the decrement you were concerned about
  # but we never execute this code because the test above always jumps
  # to 4009c5 (the non-atomic version)
  4009b4: or     eax,0xffffffff
  4009b7: lock xadd DWORD PTR [rdi+0x10],eax
  4009bc: test   eax,eax
  # check if the result of the xadd was zero, if not skip the delete
  4009be: jg     4009a9 <_ZNSs4_Rep10_M_disposeERKSaIcE.isra.10+0x9>
  # the delete call
  4009c0: jmp    400790 <_ZdlPv@plt> # tailcall

  # the non-atomic version starts here, this is the code that is 
  # always executed
  4009c5: mov    eax,DWORD PTR [rdi+0x10]
  4009c8: lea    edx,[rax-0x1]
  4009cb: mov    DWORD PTR [rdi+0x10],edx
  # this jumps up to the test eax,eax check which calls operator delete
  # if the refcount was zero
  4009ce: jmp    4009bc <_ZNSs4_Rep10_M_disposeERKSaIcE.isra.10+0x1c>

一个关键注意事项是 lock xadd你关心的代码永远不会被执行。有一个 mov eax, 0后跟一个 test rax, rax; je - 这个测试总是成功并且总是发生跳转，因为 rax始终为零。

这里发生的是 __gnu_cxx::__atomic_add_dispatch以一种检查进程是否绝对是单线程的方式实现。如果它肯定是单线程的，那么它不会费心为 __atomic_add_dispatch 之类的事情使用昂贵的原子指令。 - 它只是使用常规的非原子添加。它通过检查 pthreads 函数的地址来做到这一点， __pthread_key_create - 如果为零，则 pthread库尚未链接，因此该进程绝对是单线程的。在您的情况下，此 pthread 函数的地址在链接时解析为 0 (你的编译命令行上没有 -lpthread)，这是 mov eax, 0x0来自。在链接时，优化此知识为时已晚，因此残留的原子增量代码保留但从未执行。此机制在 this answer 中有更详细的描述。 .

执行的代码是函数的最后一部分，从 4009c5 开始.这段代码也减少了引用计数，但是以非原子的方式。在这两个选项之间决定的检查可能基于进程是否是多线程的，例如，是否 -lpthread已链接。无论出于何种原因，此检查在 __exchange_and_add_dispatch 内, 以防止编译器实际删除分支的原子一半的方式实现，即使在构建过程中的某个时刻知道永远不会被采用的事实(毕竟，硬编码 mov eax, 0以某种方式到达那里)。

A follow-up question is how I can avoid it?

好吧，您已经避开了 lock add部分，所以如果这是你关心的，你就可以了。但是，您仍然有理由担心:

复制写入 std::string实现 are not standards compliant due to changes made in C++11 ，所以问题仍然是为什么即使在指定 -std=c++17 时你也会得到这个 COW 字符串行为.

问题很可能与发行版有关:CentOS 7 默认使用古老的 gcc 版本 < 5，它仍然使用不兼容的 COW 字符串。但是，您提到您使用的是 gcc 8.2.1，默认情况下在使用非 COW 字符串的正常安装中。似乎如果您使用 RHEL“devtools”方法安装 8.2.1，您将获得一个新的 gcc，它仍然使用旧的 ABI 和针对旧系统 libstdc++ 的链接。

要确认这一点，您可能需要 check the value of _GLIBCXX_USE_CXX11_ABI macro在您的测试程序中，还有您的 libstdc++ version (版本信息 here 可能有用)。

您可以通过使用 CentOS 以外的不使用古 gcc 和 glibc 版本的操作系统来避免。如果您出于某种原因需要坚持使用 CentOS，则必须查看是否有支持的方式在该发行版上使用较新的 libstdc++ 版本。您还可以考虑使用容器化技术来构建独立于本地主机库版本的可执行文件。

1 你可以像这样去破坏它: echo '_ZNSs4_Rep10_M_disposeERKSaIcE' | c++filt .

2 我正在使用 gcc-4 时代的源代码，因为我猜这就是您最终在 CentOS 7 中使用的源代码。

关于c++ - 为什么在这个解散的 std::string dtor 中有一个锁定的 xadd 指令？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57205494/

文章推荐： mysql - Azure SQL 和 MySQL

文章推荐： c# - 如何使用时区信息解析日期时间

Java同步/锁定
我对 Java 并发性比较陌生(还没有阅读 JCIP，但它在我的列表中!)并且我有一个关于锁定行为的问题。具体来说，Java 是锁定对象的引用，还是锁定对象本身？代码示例(不是 sscce，因为我不
svn - 锁定 TortoiseSVN
我的团队使用 TortoiseSVN 编写版本控制代码。有时，有人使用“获取锁定”选项。是否有可能看到解决方案中的锁？最佳答案 http://tortoisesvn.net/docs/nightly
SVN提交/锁定/清理问题
我在使用 SVN 时遇到了一个小问题。当我跑 svn stat我明白了: ~ some/dir 当我跑 svn commit -m "test"我明白了:svn: working copy
security - 锁定 Jenkins
我启用了 jenkins 安全性，认为它会提示我创建一个帐户。我尝试在 c:/program files/jenkins 中删除和编辑我的 config.xml 文件，但我不确定如何在没有访问权限的情
使用 S3 锁定
实现与 S3 结合使用的简单锁定机制的推荐方法是什么？我想做的例子: 通过对象 ID 获取锁从 S3 读取对象修改数据将对象写入 S3 释放锁理想情况下寻找基于云的锁定机制。我可以在本地使用
Oracle索引-全表扫描/锁定
找到这个here : 一般来说，在以下任何情况下，请考虑在列上创建索引: 索引列上存在引用完整性约束，或者列。索引是避免全表锁的一种方法，否则，如果您更新父表主键，则需要，合并到父表中，或从父表中删除
Java-跨多个文件的同步/锁定
在我的程序中，我将把每个“ block ”数据存储在一个单独的文件中。多个线程都会读取和写入各种文件，我想避免因未正确同步而可能出现的问题。本质上，我想要一个设置，其中每个文件的行为就好像它有自己的
windows - 使用WINAPI找出特殊文件上的进程事件句柄(锁定)
我想使用此script作为资源，通过使用Windows API(重置管理器)与Go for Windows中的内容相同到目前为止，我的代码是 Rstrtmgr := syscall.NewLazyD
Java 锁定 <这有什么问题？>
这里的问题是:“这些选择中的哪一个对于线程安全选择的剧院具有最佳性能？” public static List lockList = initializeLocks(); public boolean
javascript - 锁定/防止关闭菜单reactjs
我有一个侧面菜单，单击图标时打开，单击页面或单击菜单上的项目时关闭。我正在尝试实现锁定，因此当单击锁定图标时，即使您单击菜单项或页面，菜单也不会关闭。我能够将图标从锁定图标更改为解锁图标，但我在停止
c - TTF_RenderText 锁定
使用 TRueType 字体编写 SDL 程序。我调用 TTF_Init() 来初始化 TTF 并使用 TTF_OpenFont( name, size ) 打开我的字体。我有一个例程，可以使用以下
Cortex-M4 锁定
我正在尝试调试基于运行 FreeRTOS 的 STM32F3 uC 的应用程序。我已在应用程序的线程上下文中的随机位置手动将 PSP 设置为无效值(例如 0)，希望触发 memManageFault/
c# - 锁定/并发问题
我有以下 C# 代码: 1. List bandEdgeList; 2. 3. bandEdgeList = CicApplication.BandEdgeCache.Where(r
Swift - 锁定/点击按钮
我正在用骰子制作游戏。这个想法是持有/锁定骰子。我把骰子做成按钮，这样现在就可以点击它们了。示例:我抛出一个“6”和一个“1”。我点击“6”，所以现在只会抛出“1”。我对这个有点迷失了，我需要创建
swift - 写入非常大的文件时应用程序卡住/锁定
我正在使用以下代码下载约 200mb 的播客并将其写入文档目录: var podcastRequest = NSURLRequest(URL: audioUrl) NSURLConnection.se
java - 对同步函数的外部调用保持/锁定
下面的类 DoStuff 启动一个线程并同步以保护监听器对象在 null 时不被访问。现在，当从外部访问 DoStuff 类函数 setOnProgressListener() 时，我遇到了问题，因
jquery - 防止浏览器调整大小(锁定)
我正在编写一个使用巨大背景 Canvas 的网站。我试图锁定浏览器调整大小处理程序以避免滚动问题(背景越界等) 这是我第一次做一个完整的后台网站。任何有关优化的建议(png 大小 580.72 KB
c# - 防止多次调用事件方法(锁定)
我是 C# 和线程的新手，我有这个问题要解决: 我有一个处理一些数据的线程，它会不时(必要时)触发我在启动线程之前设置的事件方法 (DataProcessor)。该线程位于专有 dll 中。所以我不能
android - 锁定/解锁设备时的相机示例错误
我正在使用相机，我使用的是文档中给出的完全相同的示例: http://developer.android.com/resources/samples/ApiDemos/src/com/example/
多个服务器上的 Java 锁定
我有几个座位可供用户预订。同一时间，只有一个用户可以参与预订过程，这样同一个座位就不会被多个用户预订。在我的 Java 代码中，我使用了“synchronized”关键字来完成它。这行得通。但是，现

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 为什么在这个解散的 std::string dtor 中有一个锁定的 xadd 指令？