c++ - 为什么 move ctor 比 copy ctor 慢？-6ren

c++ - 为什么 move ctor 比 copy ctor 慢？

转载作者：太空宇宙更新时间：2023-11-04 15:59:25

26

4

我有下面的代码来测试std::string类的copy ctor和move ctor，结果让我吃惊，move ctor慢了~1.4倍比抄袭者。

据我了解， move 构造不需要分配内存，对于std::string的情况， move 构造的对象中可能有一个内部指针直接设置为 move 的对象，它应该比为缓冲区分配内存然后在复制构造时从对象中复制内容更快。

代码如下:

#include <string>
#include <iostream>

void CopyContruct(const std::string &s) {
  auto copy = std::string(s);
}

void MoveContruct(std::string &&s) {
  auto copy = std::move(s);
  //auto copy = std::string(std::move(s));
}

int main(int argc, const char *argv[]) {
  for (int i = 0; i < 50000000; ++i) {
    CopyContruct("hello world");
    //MoveContruct("hello world");
  }

  return 0;
}

编辑:

从两个函数的集合中，我可以看到对于 MoveConstruct 有一个 std::remove_reference 类模板的实例化，我认为这应该是罪魁祸首但我对汇编不熟悉，谁能详细说明一下？

以下代码是在https://godbolt.org/上反编译的使用 x86-64 gcc7.2:

CopyContruct(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&):
  push rbp
  mov rbp, rsp
  sub rsp, 48
  mov QWORD PTR [rbp-40], rdi
  mov rdx, QWORD PTR [rbp-40]
  lea rax, [rbp-32]
  mov rsi, rdx
  mov rdi, rax
  call std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >::basic_string(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&)
  lea rax, [rbp-32]
  mov rdi, rax
  call std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >::~basic_string()
  nop
  leave
  ret
MoveContruct(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >&&):
  push rbp
  mov rbp, rsp
  sub rsp, 48
  mov QWORD PTR [rbp-40], rdi
  mov rax, QWORD PTR [rbp-40]
  mov rdi, rax
  call std::remove_reference<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >&>::type&& std::move<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >&>(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >&)
  mov rdx, rax
  lea rax, [rbp-32]
  mov rsi, rdx
  mov rdi, rax
  call std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >::basic_string(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >&&)
  lea rax, [rbp-32]
  mov rdi, rax
  call std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >::~basic_string()
  nop
  leave
  ret

编辑2:

事情变得有趣了，我把 std::string 改成 std::vector 正如@FantasticMrFox 在评论中提到的，结果是相反的， MoveConstruct 比 CopyConstruct 快 ~1.9 倍，看来 std::remove_reference 不是罪魁祸首，而是优化这两个类可能是。

编辑3:

以下代码在 MacOS 上使用 Apple LLVM 版本 8.0.0 (clang-800.0.42.1) 编译，优化标志为 -O3。

    .section    __TEXT,__text,regular,pure_instructions
    .macosx_version_min 10, 11
    .globl  __Z12CopyContructRKNSt3__112basic_stringIcNS_11char_traitsIcEENS_9allocatorIcEEEE
    .align  4, 0x90
__Z12CopyContructRKNSt3__112basic_stringIcNS_11char_traitsIcEENS_9allocatorIcEEEE: ## @_Z12CopyContructRKNSt3__112basic_stringIcNS_11char_traitsIcEENS_9allocatorIcEEEE
    .cfi_startproc
## BB#0:
    pushq   %rbp
Ltmp0:
    .cfi_def_cfa_offset 16
Ltmp1:
    .cfi_offset %rbp, -16
    movq    %rsp, %rbp
Ltmp2:
    .cfi_def_cfa_register %rbp
    pushq   %rbx
    subq    $24, %rsp
Ltmp3:
    .cfi_offset %rbx, -24
    movq    %rdi, %rax
    leaq    -32(%rbp), %rbx
    movq    %rbx, %rdi
    movq    %rax, %rsi
    callq   __ZNSt3__112basic_stringIcNS_11char_traitsIcEENS_9allocatorIcEEEC1ERKS5_
    movq    %rbx, %rdi
    callq   __ZNSt3__112basic_stringIcNS_11char_traitsIcEENS_9allocatorIcEEED1Ev
    addq    $24, %rsp
    popq    %rbx
    popq    %rbp
    retq
    .cfi_endproc

    .globl  __Z12MoveContructONSt3__112basic_stringIcNS_11char_traitsIcEENS_9allocatorIcEEEE
    .align  4, 0x90
__Z12MoveContructONSt3__112basic_stringIcNS_11char_traitsIcEENS_9allocatorIcEEEE: ## @_Z12MoveContructONSt3__112basic_stringIcNS_11char_traitsIcEENS_9allocatorIcEEEE
    .cfi_startproc
## BB#0:
    pushq   %rbp
Ltmp4:
    .cfi_def_cfa_offset 16
Ltmp5:
    .cfi_offset %rbp, -16
    movq    %rsp, %rbp
Ltmp6:
    .cfi_def_cfa_register %rbp
    subq    $32, %rsp
    movq    16(%rdi), %rax
    movq    %rax, -8(%rbp)
    movq    (%rdi), %rax
    movq    8(%rdi), %rcx
    movq    %rcx, -16(%rbp)
    movq    %rax, -24(%rbp)
    movq    $0, 16(%rdi)
    movq    $0, 8(%rdi)
    movq    $0, (%rdi)
    leaq    -24(%rbp), %rdi
    callq   __ZNSt3__112basic_stringIcNS_11char_traitsIcEENS_9allocatorIcEEED1Ev
    addq    $32, %rsp
    popq    %rbp
    retq
    .cfi_endproc

最佳答案

这种微基准测试通常具有误导性，因为它没有测试您认为它测试的东西。

但是，对于您的情况，我可以解释您所看到的测量结果最可能的原因。

std::string，在所有现代实现中，都使用称为“小缓冲区优化”或 SBO 的东西。 (@FantasticMrFox 在关于使用享元的评论中的断言是错误的。我认为除了空字符串之外，没有任何流行的实现使用过享元。他的意思是写时复制，过去 GNU 的标准库使用它，但是GNU 切换了，因为兼容的 C++11 字符串不能使用 COW。)

在这个优化中，字符串对象内部预留了一些空间来存储短字符串，避免为它们分配堆。

这意味着字符串的复制和 move 构造函数大致如下实现:

copy(source) {
  if source length > internal buffer capacity
    allocate space
  copy source buffer to my buffer
}

move(source) {
  if source uses internal buffer {
    copy source buffer to my buffer
    set source length to zero
    set first byte of source buffer to zero
  } else {
    steal source buffer
  }
}

如您所见， move 构造函数有点复杂。它也比某些实现中的优化更优化，但一般逻辑保持不变。

因此，对于小的缓冲区字符串(我怀疑您正在测试的字符串适合您的特定实现)，只需要做更少的复制工作，因为不需要重置源字符串。

但是当你打开完全优化时，编译器可能会识别出一些死存储并将它们删除。 (当然，编译器可能会删除您的整个基准测试，因为它实际上并没有做任何事情。)

关于c++ - 为什么 move ctor 比 copy ctor 慢？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48144898/

26

4

0

文章推荐： html - 从 html 元素中获取 data-id

文章推荐： html - CSS:如何制作包含表单 "submittable"的列表项？

文章推荐： javascript - native .click() 不会触发 Chrome 57 中的 Blob 下载

文章推荐： css - 一个流畅的自适应无序水平列表

javascript - 将按钮的文本从 'Copy' 转换为 'Copied'，几秒钟后又转换回 'Copy'
如何将 jQuery 代码转换为 React JS？我有一个带有文本“复制”的按钮。当我单击它时，应将其文本更改为“已复制”并复制到剪贴板。复制后，几秒钟后我希望文本返回到“复制”。我相信以下功能将
Python copy.copy() 与 NumPy np.copy()
在任何情况下我都想使用 NumPy 的 np.copy() 而不是 Python 的 copy.copy() 方法？据我所知，两者都创建浅拷贝，但 NumPy 仅限于数组。 NumPy 是否有任何性能
python - copy.copy 与 copy.deepcopy 在元组上的性能
%python -m timeit -s "import copy" "x = (1, 2, 3)" "copy.deepcopy(x)" 100000 loops, best of 3: 10.1
Python - copy.copy() 的元素是否仍与原始元素共享内存？
我想制作一个列表的副本(字面意思是一个单独的克隆，与原始列表没有任何共享)。我使用了 copy.copy() 并创建了 2 个单独的列表，但为什么每个副本的元素似乎仍然共享？这很难解释，请查看以下输
copy - 在 DOS COPY 命令中使用通配符会损坏目标文件
我不明白使用通配符时 COPY 命令的行为。我在 C:\Source 中有一个文本文件叫 mpt*.asm我想把它复制到 C:\Dest .这是批处理脚本所需要的，我不能确定 mpt*.asm 的确
golang : copy of context when copy is background
相关但不等同于:Golang: How to copy Context object without deriving 是否可以推导出 context.WithTimeout来自 context.Ba
copy - 如果可能，是否应该始终实现 Copy 特性？
您可以实现 Copy 特性来为类型提供复制语义而不是 move 语义。仅当其所有组成元素(产品类型的每个因素，或总和类型的每个变体的每个因素)也都是复制时，才能执行此操作。这还允许您制作相当大的类型
Copy an object that can't implement Copy(复制无法实现复制的对象)
我有一段代码，我需要确定编码值的类型，但我不知道它是字符串、无符号整数还是字符串的矢量。我想做以下几件事：。然而，来自弯曲板条箱的值不能实现复制，它在调用Decode_Bencode_Object之后
python - Python 中 copy.copy 的效率
我需要复制一些对象，我读到 copy.copy 模块可以在 Python 上执行此操作。问题是，这些对象有一些属性是长数组。那么这个方法效率高吗？由于性能在我所做的这项工作中很重要。有更好的方法吗
路亚: copying a table efficiently (deep copy)
我尝试高效地制作 lua 表的副本。我编写了以下运行良好的函数 copyTable()(见下文)。但我想我可以使用函数的“按值传递”机制获得更高效的东西。我做了一些测试来探索这个机制: functio
ruby - copy-history 实际上是复制 'copy-history'
使用 pry 插件:pry-clipboard 当我输入“copy-history”来复制我历史的最后一行时，它实际上是在复制“copy-history”并粘贴“copy-history”。我是不是
copy-paste - CITRIX 和禁用 "Copy/Paste"
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 11 个月前关闭。 Improve this
copy - 通过 “accessor”和 “copy”处理字段有什么区别
我不了解Kotlin中通过访问器处理字段和复制方法之间的区别。就像这样: 访问者示例: class Person(val name: String, var age: Int
xml - XSL :copy-of How to copy some attributes from a node?
如何从节点复制一些属性。例如。我只想从节点“Extn”复制“Srno”，“RollNo”，“right”。
XSLT 链接或组合 xsl :copy-of and xsl:copy
我有以下两个 XSL 转换，我希望将它们链接到一个 XSL 文件中。第一次转换: 第二个转换(使用第一个转换的输出作为输入): 我的目标是从 WSDL
copy - 使用 COPY 查询在 Vertica 中插入唯一记录
我是 Vertica DB 的新手，之前使用过 Mysql。我想在 vertica 表中插入唯一记录，但 vertica 在插入时不支持唯一约束。我通过 COPY 查询在表中插入记录。所以我无法在插入
c++ - copy(...) 和 copy(seq, ...) 的关系
std::copy 与执行策略参数之间是否存在正式关系？无论是在实践中还是在标准中。例如，会不会只是这样， namespace std{ template It copy(std::
linux - 大小差异 : Copy command doesn't copy all contents
我用 root 运行了以下命令来备份同一主机上的文件夹:cp -r master 主备 size of master : 76GB size of master-backup : 71GB 知道为什么
python - copy.copy 与 python 中的赋值不同吗
我遇到过一段代码，乍一看似乎毫无意义。但我意识到这可能会产生一些我不知道的未知含义，因为 Python 不是我最熟悉的语言。 import copy node = copy.copy(node) 阅读
python - copy(foo) 什么时候调用 foo.copy？
我正在设计一个基类，我希望它为 copy.copy 定义基本行为。此行为包括在控制台中打印警告，然后复制实例，就好像它没有 __copy__ 一样。属性。当定义一个空白时Foo类并复制它的一个实例，

首页

博学

6Ren·AI

商城

c++ - 为什么 move ctor 比 copy ctor 慢？