c++ - 当模数为特殊形式时，通过模加法进行性能优化-6ren

c++ - 当模数为特殊形式时，通过模加法进行性能优化

转载作者：搜寻专家更新时间：2023-10-31 01:52:44

25

4

我正在编写一个执行数百万次模块化加法的程序。为了提高效率，我开始思考如何使用机器级指令来实现模块化加法。

令 w 为机器的字长(通常为 32 或 64 位)。如果取模为 2^w，那么模加法可以非常快地执行:只需简单地添加加数，并丢弃进位就足够了。

我使用以下 C 代码测试了我的想法:

#include <stdio.h>
#include <time.h>

int main()
{
    unsigned int x, y, z, i;
    clock_t t1, t2;

    x = y = 0x90000000;

    t1 = clock();

    for(i = 0; i <20000000 ; i++)
        z = (x + y) % 0x100000000ULL;

    t2 = clock();

    printf("%x\n", z);
    printf("%u\n", (int)(t2-t1));

    return 0;
}

使用具有以下选项的 GCC 进行编译(我使用 -O0 来防止 GCC 展开循环):

-S -masm=intel -O0

生成的汇编代码的相关部分是:

    mov DWORD PTR [esp+36], -1879048192
    mov eax, DWORD PTR [esp+36]
    mov DWORD PTR [esp+32], eax
    call    _clock
    mov DWORD PTR [esp+28], eax
    mov DWORD PTR [esp+40], 0
    jmp L2
L3:
    mov eax, DWORD PTR [esp+36]
    mov edx, DWORD PTR [esp+32]
    add eax, edx
    mov DWORD PTR [esp+44], eax
    inc DWORD PTR [esp+40]
L2:
    cmp DWORD PTR [esp+40], 19999999
    jbe L3
    call    _clock

很明显，不涉及任何模运算。

现在，如果我们将 C 代码的模块化添加行更改为:

z = (x + y) % 0x0F0000000ULL;

汇编代码改为(只显示相关部分):

    mov DWORD PTR [esp+36], -1879048192
    mov eax, DWORD PTR [esp+36]
    mov DWORD PTR [esp+32], eax
    call    _clock
    mov DWORD PTR [esp+28], eax
    mov DWORD PTR [esp+40], 0
    jmp L2
L3:
    mov eax, DWORD PTR [esp+36]
    mov edx, DWORD PTR [esp+32]
    add edx, eax
    cmp edx, -268435456
    setae   al
    movzx   eax, al
    mov DWORD PTR [esp+44], eax
    mov ecx, DWORD PTR [esp+44]
    mov eax, 0
    sub eax, ecx
    sal eax, 28
    mov ecx, edx
    sub ecx, eax
    mov eax, ecx
    mov DWORD PTR [esp+44], eax
    inc DWORD PTR [esp+40]
L2:
    cmp DWORD PTR [esp+40], 19999999
    jbe L3
    call    _clock

显然，在对 _clock 的两次调用之间添加了大量指令。

考虑到汇编指令数量的增加，我预计通过正确选择模数获得的性能增益至少为 100%。但是，运行输出时，我注意到速度仅提高了 10%。我怀疑操作系统正在使用多核 CPU 并行运行代码，但即使将进程的 CPU 亲和性设置为 1 也没有改变任何东西。

你能给我一个解释吗？

编辑: 使用 VC++ 2010 运行该示例，我得到了预期结果:第二个代码比第一个示例慢了大约 12 倍!

最佳答案

Art nailed it .

对于2的幂模，-O0和-O3生成的计算代码是一样的，不同的是循环控制代码，并且运行时间相差 3 倍。

对于另外一个模数，循环控制代码的区别是一样的，但是计算的代码不太相同(优化后的代码看起来应该快一点，但我不太了解关于组装或我的处理器是肯定的)。未优化和优化代码之间的运行时间差异约为 2 倍。

两个模块的运行时间与未优化代码相似。与不带任何模数的运行时间大致相同。与从生成的程序集中去除计算得到的可执行文件的运行时间大致相同。

所以运行时间完全由循环控制代码支配

    mov DWORD PTR [esp+40], 0
    jmp L2
L3:
    # snip
    inc DWORD PTR [esp+40]
L2:
    cmp DWORD PTR [esp+40], 19999999
    jbe L3

打开优化后，循环计数器保存在寄存器中(此处)并递减，然后跳转指令为 jne。该循环控制速度如此之快，以至于模数计算现在占用了运行时间的很大一部分，从生成的程序集中删除计算现在将运行时间减少了 3 倍。 2.

因此，当使用 -O0 进行编译时，您测量的不是计算速度，而是循环控制代码的速度，因此差异很小。通过优化，您可以同时测量计算和循环控制，计算速度的差异会清楚地显示出来。

关于c++ - 当模数为特殊形式时，通过模加法进行性能优化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12198920/

25

4

0

文章推荐： c++ - 为什么编译器会输出如下错误代码: C2143, C2238、C2501

文章推荐： c++ - 高阶位 - 放下它们并右移

文章推荐： c++ - 如何欺骗编译器优化内存读取？

java - 查看端口问题中的元素[特殊]
我以一种特殊的方式收到以下错误。 The point at which the driver is attempting to click on the element was not scrolle
java - “特殊” APP用例
我有一些包含如下方法的编译库： public boolean foo(String userID) { Class ntSystemClass = Thread.currentThread()
MySQL 特殊 ORDER BY
假设我有下表 name | genre --------------------- book 1 | scifi book 2 | horror book 3
ios - 特殊 - 字符串中的汉字
我正在用代码进行语言翻译。 self.title.text = [NSString stringWithFormat:NSLocalizedString(@"Q%ld", nil), (long)qu
r - 询问〜特殊〜并返回答案的函数
我想这样做，但到目前为止，我所拥有的只是: print("Will you go out with me?") 我希望代码能够正常工作，以便人们可以回答“是/否”，如果回答是"is"，则将返回一条消息
c# - 特殊 HTML 字符
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: How can I decode html characters in c#? 我有来自 HTML 的字符，
javascript - 特殊 ucwords 的正则表达式
我想在 JavaScript 中对以下形式的字符串执行 ucwords()，它应该返回 Test1_Test2_Test3。我已经在 SO 上找到了一个 ucwords 函数，但它只需要空格作为新词
javascript - 两个数组的求和\相加(特殊)
“任何长度的正数表示为数字字符数组，因此介于‘0’和‘9’之间。我们知道最重要的密码位于数组索引 0 的位置。例子: - 号码是 10282 - 数组将是数字 = [1,0,2,8,2] 考虑到这一
Android 特殊 Unicode 字符
我目前正在开发一个显示特殊 unicode 字符(例如 ꁴ)的应用现在我遇到了在旧设备上无法显示这些符号的问题。我如何知道它是否适用于当前设备？我是否必须为每个 SDK 版本创建一个虚拟 Andr
html - 特殊 HTML 构造标签的名称
在 HTML、XML 和部分 DTD 中，有两种特殊的标记结构: 以感叹号开头的标签结束，例如和以问号开头的标签，例如和我的问题是，这些构造类型中的每一种是否都有不同的名称，或者我是否必
Python stdout 重定向(特殊)
我目前正在用 python 构建一个 shell。shell 可以执行 python 文件，但我还需要添加使用 PIPE 的选项(例如“|”表示第一个命令的输出将是第二个命令的输入)。为了做到这一点
c# - 特殊 MVC 路由不起作用
我的 MVC 项目中的路由无法正常工作... 我希望我所有的 View 都在 Views > Shared 文件夹中，如下所示: Error.cshtml (default) Index.cshtml
Java - 特殊 URL 字符
我有一个函数: public static ImageIcon GetIconImageFromResource(String path){ URL url = ARMMain.class.g
html - 特殊 HTML 字符
好的，所以我想在我的 html 页面中包含下面的字符。看起来很简单，只是我找不到它们的 HTML 编码。注意:我想在没有大小元素的情况下执行此操作，纯文本就可以了 ^_^。干杯。最佳答案你可以
java - 特殊 Java 注释标签的完整列表
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 3 年前。
c# - 特殊(或外国)字符
我是 C# 的新手，正在尝试使用 ASP.Net GridView(框架 3.5)，当 gridView 文本包含以下内容时，我发现了一个大问题: ñ/Ñ/á/Á/é/É/í/Í/ó/Ó/ú/Ú or
特殊 URL 的 Java 正则表达式
在 Java 中，我尝试编写一个正则表达式来匹配特殊类型的 HTTP URL: http:///# 所以字符串有 4 段: 字符串文字:“http://”；那么任意 1 个以上字符的字符串；那么字
mysql 有内部(特殊)字 "to"吗？
当我写查询时，我在表中有“to”列 SELECT to FROM mytable mysql_error 返回错误，如果将单词to插入``引号，即 SELECT `to` FROM mytable 查
python - 匹配大写/特殊/unicode/越南字符的正则表达式
我遇到了一个问题。事实上，我使用越南语文本，我想找到每个包含大写字母(大写字母)的单词。当我使用“re”模块时，我的函数 (temp) 没有捕捉到像“Đà”这样的词。另一种方法 (temp2) 是一次
python - 替换多个(特殊)字符 - 最有效的方法？
在我的文本中，我想用一个空格替换以下特殊字符: symbols = ["`", "~", "!", "@", "#", "$", "%", "^", "&", "*", "(", ")", "_",

首页

博学

6Ren·AI

商城

c++ - 当模数为特殊形式时，通过模加法进行性能优化