- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我观察到一些我无法解释的奇怪行为。以下是详细信息:-
#include <sched.h>
#include <sys/resource.h>
#include <time.h>
#include <iostream>
void memcpy_test() {
int size = 32*4;
char* src = new char[size];
char* dest = new char[size];
general_utility::ProcessTimer tmr;
unsigned int num_cpy = 1024*1024*16;
struct timespec start_time__, end_time__;
clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &start_time__);
for(unsigned int i=0; i < num_cpy; ++i) {
__builtin_memcpy(dest, src, size);
}
clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &start_time__);
std::cout << "time = " << (double)(end_time__.tv_nsec - start_time__.tv_nsec)/num_cpy << std::endl;
delete [] src;
delete [] dest;
}
最佳答案
我已将您的发现复制到:g++ (Ubuntu/Linaro 4.5.2-8ubuntu4) 4.5.2
, Linux 2.6.38-10-generic #46-Ubuntu x86_64
在我的 Core 2 Duo 上。结果可能会因您的编译器版本和 CPU 而异。我得到 ~26 和 ~9。
When I specify -march=native in compiler options, generated binary runs 2.7 times slower. Why is that ?
objdump -D
发现,你也可以使用
gcc -S -fverbose-asm
):
rep movsq %ds:(%rsi),%es:(%rdi) ; where rcx = 128 / 8
mov 0x20(%rbp),%rdx
mov %rdx,0x20(%rbx)
If anything, I would expect -march=native to produce optimized code.
rep movsq
在一系列 Action 中,但情况可能并非总是如此。第一个版本较短,在某些(大多数?)情况下可能会更好。或者它可能是优化器中的错误。
Is there other functions which could show this type of behavior ?
-march=native
时生成的代码不同的任何函数, 嫌疑人包括在头文件中实现为宏或静态的函数,其名称以
__builtin
开头.可能还有(浮点)数学函数。
Another interesting point is that if size > 32*4 then there is no difference between the run time of the binaries thus generated
rep movsq
, 128 可能是 GCC 将生成一系列加载/存储的最大大小(看看这是否也适用于其他平台会很有趣)。顺便说一句,当编译器在编译时不知道大小(例如
int size=atoi(argv[1]);
)时,它只会变成对
memcpy
的调用。带或不带开关。
关于64-bit - memcpy() 性能 - Ubuntu x86_64,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6801440/
是否可以在没有 bit.dev 帐户的情况下将 bit 设置为本地服务器以进行内部处理? 我知道您可能没有相同的功能 -- bit's FAQ page说“与 Bit CLI 不同,bit.dev 服
我是一名计算机科学学生,学习如何用 C 语言编程。我有 3 个文件和一个 Makefile。我有 logic.c logic.h main.c logic.c 的顶部是: #include "log
我有一个特殊的无符号长整型(32 位),我需要一点一点地转换它的字节序 - 我的长整型表示将多个内容混合在一起形成一个二进制文件。 我该怎么做? 最佳答案 字节顺序是一个字级概念,其中字节要么以最高有
我有许多 iOS Xcode 项目都使用同一个子项目。这个子项目构建一个静态库,然后链接到主项目。到目前为止,这个子项目和所有主项目都是 32 位的。 我想构建一个支持 64 位的新项目,因此将架构设
我创建了一个使用 SIMD 执行 64 位 * 64 位到 128 位的函数。目前我已经使用 SSE2(实际上是 SSE4.1)实现了它。这意味着它同时处理两个 64b*64b 到 128b 的产品。
想知道是否有人对我如何对二进制数执行以下操作有一些了解: 转换 01+0 -> 10+1 (+ as in regular expressions, one or more) 01 ->
代码如下: unsigned int v; // word value to compute the parity of v ^= v >> 16; v ^= v >> 8; v ^= v >> 4
我正在尝试在(测试版)Trackmania 2 游戏中制作脚本。(这是 JavaScript、HTML、C 和...其他我在最糟糕的噩梦中无法想象的东西的丑陋混合)。 脚本引擎似乎不知道“and”或“
这个问题在这里已经有了答案: How do AX, AH, AL map onto EAX? (6 个回答) 去年关闭。 所以,假设我正在使用寄存器 %rax和 %rdi . 作为一个基本的例子,让我
我是编程新手,来自非CS背景(没有正式学位)。我主要使用C#编写Winforms。 我对32位和64位感到困惑...。我的意思是,听说过32位OS,32位处理器以及基于程序的最大内存。它如何影响程序的
“清除整数的第 6 位”的最佳方法是什么? 而且,您的解决方案平台是否独立? (32 位或 64 位整数等)。如果没有,您能否提供一个独立于平台的解决方案? 更新: 我们不知道该位在给出时是已设置还是
我刚刚在交错一些 float 时发现了一些狡猾的问题。我简化了问题并尝试了一些测试 #include #include std::vector v; // global instance unio
我不想用这个来骚扰你,但我在互联网上的任何地方都找不到对“位填充”到底是什么的详细解释,也没有找到与位填充相关的线程的任何答案在 StackOverflow 上。 我还在 ISO 9899-1990
我有点卡住了,因为我找不到任何涵盖缓存“数据”部分的内容,我用谷歌搜索的所有内容都涉及 99.9% 的缓存寻址。我被问到的问题是这样措辞的 Contrast the difference betwee
关闭。这个问题需要debugging details .它目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and th
是否有人通过运行/附加到 64 位应用程序成功调试 64 位 dll?我有应用程序和 dll 的 Delphi 代码。我可以调试 32 位和 64 位应用程序。我还可以通过使用 Run -> Para
我有一些使用 native 组件的库,这些库是使用 NDK 为 32 位 Arm 架构构建的。 现在我们在现代设备上有 64 位处理器,所以我想知道这些库是否可以工作。在我的情况下,我没有本地库的源代
这是我上一个问题的延伸 - How to securely and efficiently store SSN in a database? 这个想法是,我想要安全地散列社会安全号码,然后插入到列中,
我很尴尬地说,我的数学技能很弱,而且我是一名自豪的计算机科学专业。我正在上课,这真是太令人难以承受了。这是我家庭作业的一部分,但是,在理解这一部分之前我无法继续。我类的每个人都在努力编写某种方法来完成
在 InnoSetup 中我运行这段代码: J32 := ShellExec('', 'java', '-d32 -version', '', SW_HIDE, ewWaitUntilTerminat
我是一名优秀的程序员,十分优秀!