algorithm - 位旋转帮助 : Expanding bits to follow a given bitmask-6ren

algorithm - 位旋转帮助 : Expanding bits to follow a given bitmask

转载作者：塔克拉玛干更新时间：2023-11-03 03:33:02

25

4

我对一种“扩展位”的快速方法很感兴趣，它可以定义如下:

设 B 是一个有 n 位的二进制数，即 B\in {0,1}^n
设P为B中所有1/true位的位置，即1 << p[i] & B == 1 , 和 |P|=k
对于另一个给定的数，A\in {0,1}^k，令Ap 为 Ap 的位扩展形式em>A 给定 B，使得 Ap[j] == A[j] << p[j] .
“位展开”的结果是Ap。

几个例子:

给定B:0010 1110，A:0110，然后Ap 应该是 0000 1100
给定 B:1001 1001，A:1101，那么Ap应该是1001 0001

以下是一个简单的算法，但我不禁觉得有一种更快/更简单的方法可以做到这一点。

unsigned int expand_bits(unsigned int A, unsigned int B, int n) {
  int k = popcount(B); // cuda function, but there are good methods for this
  unsigned int Ap = 0;
  int j = k-1;
  // Starting at the most significant bit,
  for (int i = n - 1; i >= 0; --i) {
    Ap <<= 1;
    // if B is 1, add the value at A[j] to Ap, decrement j. 
    if (B & (1 << i)) {
      Ap += (A >> j--) & 1;
    }
  }
  return Ap;
}

最佳答案

问题似乎是要求对 BMI2 指令进行 CUDA 仿真 PDEP ，它采用源操作数 a , 并根据掩码的 1 位的位置存放它的位 b .在当前出货的 GPU 上，没有硬件支持相同或类似的操作；也就是说，直到并包括 Maxwell 架构。

根据给出的两个示例，我假设掩码 b通常是稀疏的，我们可以通过仅迭代 b 的 1 位来最小化工作量.这可能会导致 GPU 上的不同分支，但在不了解特定用例的情况下，性能的确切权衡是未知的。现在，我假设在掩码中利用稀疏性 b与背离的负面影响相比，对性能的正面影响更强。

在下面的仿真代码中，我减少了可能“昂贵”的移位操作的使用，而是主要依赖简单的 ALU 指令。在各种 GPU 上，移位指令的执行吞吐量低于简单的整数运算。我在代码中保留了一个单一的转变，离开关键路径，以避免执行受到算术单元的限制。如果需要，表达式 1U << i可以用加法代替:引入一个变量m初始化为 1在循环之前，每次循环都加倍。

基本思想是隔离掩码的每个 1 位 b依次(从最低有效端开始)，并将其与 a 的第 i 位的值进行运算，并将结果合并到扩展目标中。在来自 b 的 1 位之后已经使用过，我们将其从掩码中移除，并迭代直到掩码变为零。

为了避免移动 a 的第 i 位到位，我们简单地隔离它，然后通过简单的否定将它的值复制到所有更重要的位，利用整数的二进制补码表示。

/* Emulate PDEP: deposit the bits of 'a' (starting with the least significant 
   bit) at the positions indicated by the set bits of the mask stored in 'b'.
*/
__device__ unsigned int my_pdep (unsigned int a, unsigned int b)
{
    unsigned int l, s, r = 0;
    int i;
    for (i = 0; b; i++) { // iterate over 1-bits in mask, until mask becomes 0
        l = b & (0 - b); // extract mask's least significant 1-bit
        b = b ^ l; // clear mask's least significant 1-bit
        s = 0 - (a & (1U << i)); // spread i-th bit of 'a' to more signif. bits
        r = r | (l & s); // deposit i-th bit of 'a' at position of mask's 1-bit
    }
    return r;
}

上面提到的没有任何移位操作的变体如下所示:

/* Emulate PDEP: deposit the bits of 'a' (starting with the least significant 
   bit) at the positions indicated by the set bits of the mask stored in 'b'.
*/
__device__ unsigned int my_pdep (unsigned int a, unsigned int b)
{
    unsigned int l, s, r = 0, m = 1;
    while (b) { // iterate over 1-bits in mask, until mask becomes 0
        l = b & (0 - b); // extract mask's least significant 1-bit
        b = b ^ l; // clear mask's least significant 1-bit
        s = 0 - (a & m); // spread i-th bit of 'a' to more significant bits
        r = r | (l & s); // deposit i-th bit of 'a' at position of mask's 1-bit
        m = m + m; // mask for next bit of 'a'
    }
    return r;
}

在下面的评论中，@Evgeny Kluev 指出了一个免类次 PDEP在 chessprogramming 处进行仿真看起来可能比我上面的两个实现中的任何一个更快的网站；看来值得一试。

关于algorithm - 位旋转帮助 : Expanding bits to follow a given bitmask，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35879269/

25

4

0

文章推荐： java - Java 中传递的最终变量是否在另一端保持最终状态？

文章推荐：针对 XSD 模式的 Java XML 验证

文章推荐： r - 如何在对角线中遍历矩阵并返回每个位置的索引？

帮助! float
我有这个问题: 我们声称对 float 使用相等测试是不安全的，因为算术运算会引入舍入错误，这意味着两个应该相等的数字实际上并不相等。对于这个程序，您应该选择一个数字 N，并编写一个程序来显示 1
Javascript++ -- 帮助
为什么这个脚本的输出是 5 而不是 8 ？我认为 -- 意味着 -1 两次。 var x = 0; var y = 10; while ( x
vb6 - 帮助 ffmpeg
我现在可以从 cmd 窗口中执行的 FFmpeg 过程中读取最后一行。使用脚本主机模型对象引用此源。 Private Sub Command1_Click() Dim oExec
Excel vlookup 帮助
使用 vlookup，当匹配发生时，我想从匹配发生的同一行显示工作表 2 中 C 列的值。我想出的公式从 C 列表 2 中获取值，但它从公式粘贴在表 3 上的行中获取，而不是从匹配发生的位置获取。这
WCF 跟踪日志分析 - 帮助
我在破译 WCF 跟踪文件时遇到了问题，我希望有人能帮助我确定管道中的哪个位置发生了延迟。 “Processing Message XX”的跟踪如下所示，在事件边界和传输到“Process Actio
带有条件连接查询的 Hibernate 帮助
我有四个表，USER、CONTACT、CONACT_TYPE 和 USER_CONTACT USER_CONTACT 存储用户具有填充虚拟数据的表的所有联系人如下用户表 USER_ID(int)|
php 帮助 - 实例化函数
以下有什么作用？ public static function find_by_sql($sql="") { global $database; $result_set = $data
Javabat 帮助 : alarmClock
我正在解决 JavaBat 问题并且对我的逻辑感到困惑。这是任务: Given a day of the week encoded as 0=Sun, 1=Mon, 2=Tue, ...6=Sat,
Scala "match"帮助
我正在研究一些 Scala 代码，发现这种方法让我感到困惑。在匹配语句中，sublist@ 是什么？构造？它包含什么样的值(value)？当我打印它时，它与 tail 没有区别，但如果我用尾部替换它，
iphone - 缩放图像非常慢 - 帮助
我正在使用以下代码自行缩放图像。代码很好，图像缩放也没有问题。 UIImage *originImg = img; size = newSize; if (originImg.size.width >
iphone - 帮助!仪器无法启动
Instruments 无法在我的 iPad 和 iPhone 上启动。两者都已正确配置，我可以毫无问题地从 xcode 调试它们上的代码，但 Instruments 无法启动。我听到的只是一声嘟嘟
iphone - NSRegularExpression 帮助
我想用 iPhone 的 NSRegularExpression 类解析此文本: Uploaded652.81 GB 用于摘录上传和652.81文本。最佳答案虽然我确实认为 xml 解析器更适合解
下拉过滤器的 Javascript 帮助
我找到了 solution在 Stackoverflow 上，根据过滤器显示 HTML“li”元素(请参阅附件)。本质上基于 HTML 元素中定义的 css 类，它填充您可以从中选择的下拉列表。我想
SQL FOR XML 帮助
这是一个简单的问题，但我是在 SQL 2005 中形成 XML 的新手，但是用于形成如下所示表中的 XML 的最佳 FOR XML SQL 语句是什么？ Column1 Column2 -
Flash 文件比它在网站中的背景声音加载得多!帮助
我在 www.enigmafest.com 有一个网站!您可以尝试打开它!我面临的问题是，在预加载器完成后，主页会出现，但其他菜单仍然需要很长时间才能加载，而且声音也至少需要 5 分钟! :( 我怎样
Haskell Curl 帮助
好吧，我正在尝试用 Haskell 来理解 IO，我想我应该编写一个处理网页的简短小应用程序来完成它。我被绊倒的代码片段是(向 bobince 表示歉意，但公平地说，我并不想在这里解析 HTML，只是
javascript - 谷歌浏览器背景页建议/帮助
如何使用背景页面来突出显示网站上的某个关键字，无论网站是什么(谷歌浏览器扩展)？没有弹出窗口或任何东西，它只是在某人正在查看的网站上编辑关键字。我以前见过这样的，就是不明白怎么做!谢谢你的帮助。最佳
JavaScript 帮助、表格和单选按钮
我是 Javascript 新手，需要一些帮助。先看图片: . 积分预测器应用程序。基本上当用户通过单选按钮选择获胜团队时它应该在积分栏中为获胜队添加 10 分，并且并根据得分高的球队自动对表格进
javascript - 从电子邮件到灯箱 - 帮助!
这是我的情况 - 我要发送一份时事通讯，我试图做的是，当用户单击电子邮件中的链接时，它会重定向到我的网页，然后会弹出一个灯箱，显示视频。我无法在页面加载时触发灯箱，因为您可以在查看灯箱之前转到同一页面
Javascript 帮助，获取输入
我有这个代码。 ¿Cuanto es ? Ir 我想获取用户输入的“验证码”值。我尝试这个但行不通。有什么帮助吗？ var campo = d

首页

博学

6Ren·AI

商城

algorithm - 位旋转帮助 : Expanding bits to follow a given bitmask