- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我想使用 bts 和 bt x86 汇编指令来加速我在 Mac 上的 C++ 代码中的位操作。在 Windows 上,_bittestandset 和 _bittest 内部函数运行良好,并提供显着的性能提升。在 Mac 上,gcc 编译器似乎不支持这些,所以我尝试直接在汇编程序中进行。
这是我的 C++ 代码(请注意,“位”可以 >= 32):
typedef unsigned long LongWord;
#define DivLongWord(w) ((unsigned)w >> 5)
#define ModLongWord(w) ((unsigned)w & (32-1))
inline void SetBit(LongWord array[], const int bit)
{
array[DivLongWord(bit)] |= 1 << ModLongWord(bit);
}
inline bool TestBit(const LongWord array[], const int bit)
{
return (array[DivLongWord(bit)] & (1 << ModLongWord(bit))) != 0;
}
以下汇编代码有效,但不是最优的,因为编译器无法优化寄存器分配:
inline void SetBit(LongWord* array, const int bit)
{
__asm {
mov eax, bit
mov ecx, array
bts [ecx], eax
}
}
问题:如何让编译器围绕 bts 指令进行全面优化?以及如何用 bt 指令替换 TestBit?
最佳答案
BTS
(和其他 BT*
insns)具有内存目标 are slow. (>10 uops on Intel) .您可能会通过地址数学计算找到正确的字节并将其加载到寄存器中来获得更快的代码。然后你可以做 BT
/BTS
与注册目的地和存储结果。
或者转移一个1
到正确的位置并使用OR
带有 SetBit 的内存目标,或 AND
带有 TestBit
的内存源.当然,如果你避免内联 asm,编译器可以内联 TestBit
并使用 TEST
而不是 AND
,这在某些 CPU 上很有用(因为它可以在比 AND
更多的 CPU 上宏融合到测试和分支中)。
This is in fact what gcc 5.2 generates from your C source (内存目标 OR
或 TEST
)。对我来说看起来是最佳的(比 memory-dest bt
更少的微指令)。实际上,请注意您的代码已损坏,因为它假定 unsigned long
是 32 位,不是 CHAR_BIT * sizeof(unsigned_long)
.使用 uint32_t
, 或 char
,将是一个更好的计划。注意 eax
的符号扩展进入rax
与 cqde
指令,由于使用 1
的 C 写得不好而不是 1UL
.
另请注意,内联 asm 无法返回标志作为结果(new-in-gcc v6 extension! 除外),因此将内联 asm 用于 TestBit 可能会导致糟糕的代码,例如:
... ; inline asm
bt reg, reg
setc al ; end of inline asm
test al, al ; compiler-generated
jz bit_was_zero
现代编译器可以并且确实使用 BT
在适当的时候(有一个注册目的地)。最终结果:您的 C 可能编译成比您建议使用内联 asm 执行的代码更快的代码。在错误修正为正确和 64 位清洁后,它会更快。如果您正在优化代码大小,并且愿意付出显着的速度代价,则强制使用 bts
可以工作,但是 bt
可能仍然无法正常工作(因为结果进入标志)。
关于c++ - 在 gcc 编译器中使用 bts 汇编指令,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1983303/
我的问题由两部分组成。 我注意到使用 cc 编译器的 sparc(sun) 上的 memalign(block_size,bytes) 不检查字节是否为 2 的幂,这与使用 mvsc 编译器的 int
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 6 年前。
当我尝试在我的 gwt-maven Projekt 上进行 maven-install 时,我得到了这个错误: [ERROR] Failed to execute goal org.apache.ma
gcc 有一个选项 -s 来生成汇编源代码。 csc(MS C# 编译器)或 dmcs(mono C# 编译器)是否等价?我的意思是那些编译器是否提供了一个选项来生成可以读取而不是执行二进制文件的 I
我在 matlab simulink 中有一个模型。我把matlab安装在D盘了。当我运行模型时,出现以下错误: Unable to locate a C-compiler required by S
我非常喜欢 Visual Studio 2012,因为 GUI 非常快速和灵活。问题是我需要 VS2010 的 VC++-Compiler。在 VS 2012 中设置旧的编译器、SDK 有什么可能吗?
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
我正在为类似 C 的语言开发编译器,但在语义分析和代码生成阶段遇到了一些困难。我的问题如下:1) 对于 if 语句,语法如下: if (expression) then statement1; sta
我想了解 php 编译器/解释器的工作原理。 我试图下载 php 源代码并试图了解它是如何工作的。我找不到合适的文档。如果有人可以阐明制作 php 编译器的模块以及 apache 服务器如何使用 ph
我有一些关于 python 的问题 为什么没有 python 编译器来创建本地代码?我找到了 py2exe 等,但它们只是随附了一个 python 解释器,因此,它又是执行代码的解释器。 是否无法创建
本文将是JVM 性能优化系列的第二篇文章(第一篇:传送门),Java 编译器将是本文讨论的核心内容。 本文中,作者(Eva Andreasson)首先介绍了不同种类的编译器,并对客户端编译,服务器
在 *nix 之类的系统或适当的工具包下是否有任何用于 ActionScript 3 的编译器来处理 Flash? 最佳答案 Flex SDK编译器 — mxmlc — 还将编译普通的 ActionS
我正在做一个C项目。但是其他人告诉我,由于没有C++编译器,所以无法构建它。 我不知道如何禁用C++的检测。这该怎么做? 最佳答案 检测C和C++工具链是CMake的默认行为。要禁用此行为,您需要手动
我正在寻找可以嵌入到我的程序中的 JIT 编译器或小型编译器库。我打算用它来编译动态生成的执行复数运算的代码。生成的代码在结构上非常简单:没有循环,没有条件,但它们可能很长(由 GCC 编译时只有几
多年来,我一直在 VB.NET 中使用 DEBUG 编译器常量将消息写入控制台。我也一直在以类似的方式使用 System.Diagnostics.Debug.Write。我一直认为,当 RELEASE
我了解编译器的前端和后端结构。但是,我不确定为什么编译器经常分为前端和后端。我相信有很多原因,你能给我几个吗?因为,大多数书籍/网站会告诉您它们是什么,但无法告诉您原因! 谢谢你。 最佳答案 前端处理
我有很多 JS 文件。其中一些相互依赖。其中许多依赖于 jQuery。我需要一种工具,它可以接受一个文件作为参数,传递地获取其所有依赖项,并以正确的顺序将它们编译成一个文件(基于依赖项) 依赖信息并不
我正在阅读著名的紫龙书第二版,但无法从第 65 页获取有关创建第一组的示例: 我们有以下语法(终端以粗体显示): stmt → expr; | if ( expr ) stmt | for ( opt
我正在寻找将 C# 语法编译为 native 代码(或者可能编译为 C++?)的选项。我对拥有正式成为该语言一部分的所有库不感兴趣,只是能够像编写 C++ 程序一样编写程序,但使用语言结构,例如部分类
编译器(例如:gcc)中的 -march 标志真的很重要吗? 如果我使用 -march=my_architecture 而不是 -march=i686 编译所有程序和内核,会不会更快 最佳答案 是的,
我是一名优秀的程序员,十分优秀!