c - 切换特定位-6ren

c - 切换特定位

转载作者：行者123 更新时间：2023-12-04 02:01:01

24

4

所以我看到了像这样的问题 toggle a bit at ith positon和 How do you set, clear, and toggle a single bit? , 但我想知道是否有一种好方法可以在 x86-64 程序集的第 i 个位置切换位？

我试着用 C 语言编写它并查看了程序集，但不太明白为什么会有一些东西在那里。

C:

unsigned long toggle(unsigned long num, unsigned long bit)
{
  num ^= 1 << bit;
  return num;
}

int main()
{
  printf("%ld\n", toggle(100, 60));
  return 0;
}

从 GDB 切换函数汇编:

<toggle>
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-0x8],rdi
mov QWORD PTR [rbp-0x10],rsi
mov rax, QWORD PTR [rbp-0x10]
mov edx, 0x1
mov ecx, eax
shl edx, cl
mov eax, edx
cdqe
xor QWORD PTR [rbp-0x8],rax
mov rax, QWORD PTR [rbp-0x8]
pop rbp
ret

谁能告诉我在汇编级别发生了什么，以便我能更好地理解这一点并在 x86-64 中编写我自己的切换函数？

最佳答案

I was wondering if there was a good way to toggle a bit in the ith position in x86-64 assembly?

是的，x86's BTC (Bit Test and Complement) instruction does exactly that (以及将 CF 设置为该位的旧值)，并在所有现代 CPU 上高效运行。

英特尔 SnB 系列:1 uop，1c 延迟，每个时钟吞吐量 2。 (Nehalem 及更早版本:每个时钟 1 个)
Silvermont/KNL:1 uop，1c 延迟，每个时钟吞吐量 1。
AMD Ryzen:2 微指令、2c 延迟、每个时钟吞吐量 2
AMD Bulldozer 系列/Jaguar:2 微指令，2c 延迟，每个时钟吞吐量 1
AMD K8/K10:2 微指令，2c 延迟，每个时钟吞吐量 1

来源:Agner Fog's instruction tables and x86 optimization guide .另请参阅 x86 中的其他性能链接标记维基。

toggle:
    mov  rax, rdi
    btc  rax, rsi
    ret

(如果您在 C 中正确编写了 toggle)。

不要使用 btc使用内存操作数:位串指令具有疯狂的 CISC 语义，其中位索引不限于寻址模式选择的双字内。 (所以 btc m,r 是 10 微指令，在 Skylake 上每 5c 吞吐量一个)。但是对于寄存器操作数，移位计数与可变计数移位完全一样被屏蔽。

不幸的是，gcc 和 clang 错过了这个窥视孔优化，即使是 -march=haswell或 -mtune=intel .即使在 AMD 上也值得使用，但在 Intel 上效率更高。

重复使用相同的 `1ULL << bit`具有多个输入

在 AMD CPU 上 btc比 xor 慢, 值得在寄存器中生成掩码并使用 xor .甚至在 Intel CPU 上，在内存中切换一下也是值得的。 (内存目标 xor 比内存目标 btc 好得多)。

对于数组中的多个元素，使用 SSE2 pxor .您可以使用以下方法生成掩码:

pcmpeqd  xmm0, xmm0        ; -1 all bits set
psrlq    xmm0, 63          ;  1 just a single bit set

movd     xmm1, esi
psllq    xmm0, xmm1        ; 1<<bit


; then inside a loop, with data in xmm1
pxor     xmm1, xmm0        ; flip bit in each qword element

don't quite understand exactly why there are some things that are there.

所有这些废话都是因为你在没有优化的情况下编译，并且因为你使用了签名的 int常量。

甚至不值得查看所有从 -O0 到内存的溢出/重新加载。代码。用 -O3 -march=native 编译如果你想要不烂的代码。

另见 How to remove "noise" from GCC/clang assembly output?和 Matt Godbolt 的 CppCon2017 演讲:“What Has My Compiler Done for Me Lately? Unbolting the Compiler's Lid” 了解编译器生成的 asm 的良好介绍。

使用签名 int常量 1 << bit解释了为什么 gcc 做了一个 32 位移位然后 cdqe . num ^= 1 << bit;相当于

int mask = 1;
mask <<= bit;   // still signed int
num ^= mask;    // mask is sign-extended to 64-bit here.

在 gcc -O3 输出中，我们得到

    mov     edx, 1
    sal     edx, cl           # 1<<bit   (32-bit)
    movsx   rax, edx          # sign-extend, like cdqe does for eax->rax
    xor     rax, rdi

如果我们写 toggle正确地:

uint64_t toggle64(uint64_t num, uint32_t bit) {
  num ^= 1ULL << bit;
  return num;
}

(source+asm on the Godbolt compiler explorer)

gcc 和 clang 仍然无法使用 btc ，但这并不可怕。有趣的是，MSVC 确实发现了 btc窥孔，但浪费了一条 MOV 指令:

toggle64 PROC
    mov      eax, edx
    btc      rcx, rax
    mov      rax, rcx
    ret      0

使用 uint64_t位避免了额外的 MOV。这是不必要的，因为 btc带有寄存器目标的索引用 & 63 屏蔽索引.高垃圾不是问题，但 MSVC 不知道这一点。

gcc 和 clang 发出的代码如您所料，但 gcc 通过生成 1ULL <<bit 浪费了 MOV 指令在rdx并且必须复制到 rax .

 ; clang output.
    mov     eax, 1
    mov     ecx, esi
    shl     rax, cl
    xor     rax, rdi
    ret

关于c - 切换特定位，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47228113/

24

4

0

文章推荐： apache - 在虚拟主机上访问 nominatim 时出现 403 错误

文章推荐： recaptcha - 自定义元素 Web 组件影子 DOM 供应商脚本/元素

文章推荐： r - 如何删除部分 y 轴并反转 ggplot2 中的轴

文章推荐： Laravel belongsTo 和 hasMany 在同一模型上的关系

jQuery追加()定位
我必须从我的网站中删除()一些iem，然后将它们追加()回来，但是当我追加它们时，它们出现在不同的地方，而我希望它们完全显示在它们以前的同一个地方是。有什么解决办法吗？这是一个沙箱，请随意更新(注
CSS - 定位
一个。图片 (960x7)b. div(宽度:960，填充:10) 我想定位 (a)，使其距顶部 50 像素，居中。我想将 (b) 放置在 (a) 的正下方，没有空格。我的 CSS 如下: @cha
CSS 定位
放置某物的正确方法是什么？我有一个在中心显示博客文章的 div。 "" rel="bookmark"> BY LOUIS MOORE ON " pubdate>
CSS 定位
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭1
CSS 定位
我已经成功地使用了 position:fixed 设置 CSS/CSS3 并且工作得很好! 我几天前看到了这个，想知道他们是如何实现向下滚动时发生的效果的，菜单栏在滚动前处于一个位置，然后转到顶部并自
CSS:定位
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 7 年前。 Improv
slate源码解析（三）-定位
接口定义能够对于文字、段落乃至任何元素的精准定位并做出增删改查，都是在开发一款富文本编辑器时一项最基本也是最重要的功能之一。让我们先来看看Slate中对于如何在文档树中定位元素是怎么定义的
WPF tabitem 定位
例如，使用 WPF 在选项卡控件的最左上角定位三个 tabitem 和在最右上角定位一个 tabitem 的正确方法是什么？我尝试通过更改边距将第四个 tabitem 向右移动，但这并没有产生好的结
javascript - 眼睛跟随光标 - 定位？
我正在尝试使用 Javascript 创建一个跟随鼠标在页面上移动的东西。我希望它是米老鼠，我希望他的眼睛跟随鼠标移动他的眼球...这是我到目前为止的代码(从网络上的各个地方收集，因此归功于编写该部分
arduino - 射频三角测量(定位)
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 9 年前。 Improve
Java GUI - 定位
我试图将两个按钮放置在左上角。但它们始终位于顶部中心。我已经尝试过这个: jp = new JPanel(); jp.setLayout(new GridBagLayout()); GridBagC
jQuery Slide Down 定位
我在使用 JQuery 向下滑动功能时遇到问题。我可以让它正常工作，但是我向下滑动的元素的位置会根据视口(viewport)的大小而变化。我想做的是将它与它滑动的元素联系起来。 This JSfidd
javascript游戏 Sprite 定位
我正在尝试创建一个棋盘，并将其放置在屏幕中间，但到目前为止我无法将它直接放在中间。我不想将位置硬编码到屏幕上，因为我要处理不同的屏幕尺寸。 var winsize = cc.director.
mysql - 定位、子串查询
我正在尝试从 mysql 中的 2 个字符串点之间提取数据，我的示例脚本是 'otherdata&p1=textneeded&otherdata' 我需要拉出“textneeded”位，“P1=”是起
按钮的 JavaFX 定位
如何在 JavaFX 中设置按钮的位置？我的代码: bZero = new Button(); bZero.setPrefSize(45, 20); mainPane.getChildren().ad
iphone - 定位 UIScrollView
我有一个 iPhone 应用程序，我可以在其中显示一系列图像。当用户点击图像时，我需要将该图像带到第一个位置，表明它是所选图像。我可以通过子类化实现 uiscrollview 中的点击。但是我无法将
使用导航栏的 CSS 定位
在下图中，它显示了一个image、textbox 和一个css menu image 我的 CSS 菜单非常完美。我终于按照我需要的方式得到了它。我的问题是我需要导航栏中央的文本框，然后我需要我的图像
html - CSS 定位
我必须创建一个看起来像这样的 div id为2的div应该出现在图片的右下角，图片的大小不固定id=2的div应该应用什么css id =1 的 div 没有定义位置，所以使用默认值，图像也是
文本和图像在同一行的 CSS 定位
如何将我的文本和图像对齐在同一行？每当我使用 padding 或 margins 时，它就会崩溃到我正在使用的圆形图像中。 #alignPhoto { padding-right: 50px;
使用页面引用的 CSS 定位
简单的问题，如何定位具有整个页面引用的元素？在我的例子中，我在标题中得到了一个 float 图像，然后是 2 组标题。当我使用时: text-align: center; 它使用图像宽度端和页面其余

首页

博学

6Ren·AI

商城