64-bit - memcpy() 性能 - Ubuntu x86

64-bit - memcpy() 性能 - Ubuntu x86_64

转载作者：行者123 更新时间：2023-12-01 02:46:17

27

4

我观察到一些我无法解释的奇怪行为。以下是详细信息:-

#include <sched.h>
#include <sys/resource.h>
#include <time.h>
#include <iostream>

void memcpy_test() {
    int size = 32*4;
    char* src = new char[size];
    char* dest = new char[size];
    general_utility::ProcessTimer tmr;
    unsigned int num_cpy = 1024*1024*16; 
    struct timespec start_time__, end_time__;
    clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &start_time__);
    for(unsigned int i=0; i < num_cpy; ++i) {
        __builtin_memcpy(dest, src, size);
    }
    clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &start_time__);
    std::cout << "time = " << (double)(end_time__.tv_nsec - start_time__.tv_nsec)/num_cpy << std::endl;
    delete [] src;
    delete [] dest;
}

当我在编译器选项中指定 -march=native 时，生成的二进制文件运行速度慢 2.7 倍。这是为什么？如果有的话，我希望 -march=native 生成优化的代码。是否有其他功能可以显示这种类型的行为？

编辑 1:
另一个有趣的一点是，如果 size > 32*4 那么由此生成的二进制文件的运行时间之间没有区别

编辑2:
以下是详细的性能分析(__builtin_memcpy()):-

大小 = 32 * 4，没有 -march=native - 7.5 ns，有 -march=native - 19.3

大小 = 32 * 8，没有 -march=native - 26.3 ns，有 -march=native - 26.5

编辑 3:

即使我分配了 int64_t/int32_t，这个观察结果也不会改变。

编辑 4:

size = 8192，没有-march=native ~ 2750 ns，有-march=native ~ 2750(之前报这个数字有错误，写错了26.5，现在是正确的)

我已经跑了很多次，每次运行的数字都是一致的。

最佳答案

我已将您的发现复制到:g++ (Ubuntu/Linaro 4.5.2-8ubuntu4) 4.5.2 , Linux 2.6.38-10-generic #46-Ubuntu x86_64在我的 Core 2 Duo 上。结果可能会因您的编译器版本和 CPU 而异。我得到 ~26 和 ~9。

When I specify -march=native in compiler options, generated binary runs 2.7 times slower. Why is that ?

因为 -march=native 版本被编译成(使用 objdump -D 发现，你也可以使用 gcc -S -fverbose-asm ):

    rep movsq %ds:(%rsi),%es:(%rdi) ; where rcx = 128 / 8

没有的版本被编译成 16 个加载/存储对，例如:

    mov    0x20(%rbp),%rdx
    mov    %rdx,0x20(%rbx)

这在我们的计算机上显然更快。

If anything, I would expect -march=native to produce optimized code.

在这种情况下，结果证明是悲观的支持 rep movsq在一系列 Action 中，但情况可能并非总是如此。第一个版本较短，在某些(大多数？)情况下可能会更好。或者它可能是优化器中的错误。

Is there other functions which could show this type of behavior ?

指定 -march=native 时生成的代码不同的任何函数, 嫌疑人包括在头文件中实现为宏或静态的函数，其名称以 __builtin 开头.可能还有(浮点)数学函数。

Another interesting point is that if size > 32*4 then there is no difference between the run time of the binaries thus generated

这是因为它们都编译为 rep movsq , 128 可能是 GCC 将生成一系列加载/存储的最大大小(看看这是否也适用于其他平台会很有趣)。顺便说一句，当编译器在编译时不知道大小(例如 int size=atoi(argv[1]); )时，它只会变成对 memcpy 的调用。带或不带开关。

关于64-bit - memcpy() 性能 - Ubuntu x86_64，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6801440/

27

4

0

文章推荐： jQuery colorbox onclose 更新父级

文章推荐： javascript - json api get请求错误

文章推荐：选择后 Jsoup baseUri 消失了

c - 如何生成 _ _ _ 形式的随机数。 _ _ _ _(C语言)
过去几天我一直试图解决这个问题，但我做不到。我正在尝试生成 _ _ _ 形式的随机数。 _ _ _ _ 小数点前 3 位，然后是 4 位小数。非常感谢任何帮助。谢谢，院长最佳答案您发布的代码有
java - 生成 "_ _ _ "的方法仅返回 "_ "
我的方法有问题。我需要从主类调用的方法的输出打印我: 需要这个输出:_ _ _ _ _ 我知道我可以将 System 的静态方法放入循环中，但这不是我想要的解决方案。我需要它来打印主类中方法的输出。
scala - 为什么 ((_ : Int, _ : Int) => _/_) not compile when ((_: Int)/(_: Int)) does?
我正在学习 Scala，有一个非常基本的问题。考虑以下两个使用占位符语法的表达式 - // Syntax A val fnA = (_: Int, _: Int) => _ / _ // Synta
ios - swift 无法将类型 (_, _) -> _ 的值转换为预期的参数类型 '((_, CGFloat)) -> _
我正在使用图书馆 URLEmbeddedView 它在其库中定义了以下代码: func addConstraints(with view: UIView, center: CGPoint, multi
haskell - 这个语法在 Haskell 中是什么意思 : _|_ or (_|_)
我一直在许多受人尊敬的文档中看到这个相当令人尴尬的事情:_|_ 或 (_|_) 找不到它的定义(Google 不能很好地处理符号)。那到底是什么呢？最佳答案来自 here :- Bottom Th
bash - 这个命令在 bash 中有什么作用 : , _,( ){ ,_,| ,_,&};,_,
,_,( ){ ,_,| ,_,&};,_, 不知道是什么意思... 看起来像一个 bash 命令，但它可能是 s bash shell 指令或其他东西如果有人可以帮助理解这一点，我们将不胜感激。当我
haskell - 模式不匹配 : (_:_:_)
所以我正在尝试构建一个函数，它接受一个元组列表并找到具有最大第二个元素的元组。但是我遇到了模式匹配错误。这是我的代码。 resultTuple :: [((Int,Int),Int)] ->
javascript - 流量: Cannot assign _ to _ because property _ is missing in _
我在 try Flow 编辑器中重现了我的情况，可以访问 here . 以下是链接发生问题时的代码: /* @flow */ type PayloadType = 1 | 2 | 3; type Tr
agda - _≡⟨_⟩_ Agda 标准库在哪里？
我在plfa读到这样一段代码。 import Relation.Binary.PropositionalEquality as Eq open Eq using (_≡_; refl; cong; s
swift - 最大(_ :_:) and min(_:_:) in an Int extension in Swift
这个问题在这里已经有了答案: Swift 3.0: compiler error when calling global func min(T,T) in Array or Dictionary e
javascript - Underscore 的类似函数 : _. 包含 vs. _.some 和 _.map vs _.each
是否有理由使用一个而不是另一个？似乎 _.some 和 _.map 更易于使用或适用于更多情况(根据我非常有限的经验)，但从阅读它来看，它们听起来好像应该做同样的事情。我敢肯定还有其他这样的例子，我很
ios - 无法使用类型为 'dataTaskWithRequest' 的参数列表调用 '(NSMutableURLRequest, (_, _, _) throws -> _)'
在 Xcode 7 Beta 中开始使用 Swift 2 后，出现错误 cannot invoke。是什么导致了这个问题？我试图通过以下两个问题找出我的问题，但我仍然收到错误:Question 1
scala - 为什么编译器想不通 (_ > : T) => (_ <: V[_ <: U]) <: T => V[U] for V[+_]?
所以我玩了一会儿，试图写一些关于存在和变化的东西，我遇到了这段有趣的代码。 final case class Box[+T](val value: T) { def >>=[U](f: T =>
ios - Objective-C iOS 中的谷歌地图集成问题(_ OBJC _ CLASS _ $ _ GMSPlacesClient，引用自 :)
Here is the screenshot for the error. 遵循本教程 https://developers.google.com/places/ios-api/start 在本教程中
javascript - 如何使用 _.reduce(和 _.each)从 Underscore.js 重写 _.every/_.all
我正在为许多标准的 Underscore.js 函数重写底层代码，以提高我的 JavaScript 技能，但我有点受困于 _.every/ _.全部。似乎在库本身中，_.every/_.all 函数仅
linux - if比较中加入 "_"的原因 "if [ "_$str"= "_"]; then ....; fi"
我在 shell 脚本中多次看到他们在 if 比较中使用 "_"，如下所示: if [ "_$str" = "_" ]; then ....; fi 上面的代码通过比较 if [ "_$str"= "
ios - Swift 过滤器字典错误 : Cannot assign a value of type '[(_, _)]' to a value of type '[_ : _]'
我正在尝试快速过滤字典: var data: [String: String] = [:] data = data.filter { $0.1 == "Test" } 上面的过滤器代码在 Swift
c# - 不支持从 _ 到 _ 的关系，因为拥有的实体类型 _ 不能位于非所有权关系的主体端
我在 Entity Framework 核心映射方面遇到了问题。我收到此异常“不支持从‘付款’到‘购买。付款’的关系，因为拥有的实体类型‘购买’不能位于非所有权关系的主要方面。”在调试此功能的测试时。
grails - 模拟groovy.sql.Sql.call(_，_，_)方法
我正在尝试模拟groovy.sql.Sql调用(查询，params []，闭包)类。下面是我正在尝试在DatabaseService类文件中的方法。 public void getUsers(Lis
flutter - 在 dart/flutter 中调用函数时传递下划线 _ "_"(_) 是什么意思？
在阅读 dart 代码时，我经常看到一些仅使用下划线 _ 参数调用的函数。这让我困扰了一段时间，由于 flutter 改进了它的分析消息，我有了一些线索......但我觉得我并没有真正理解这个概念:-

首页

博学

6Ren·AI

商城

64-bit - memcpy() 性能 - Ubuntu x86_64