- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
更新:请阅读代码,这不是计算一个整数中的位数
是否可以通过一些聪明的汇编程序来提高以下代码的性能?
uint bit_counter[64];
void Count(uint64 bits) {
bit_counter[0] += (bits >> 0) & 1;
bit_counter[1] += (bits >> 1) & 1;
// ..
bit_counter[63] += (bits >> 63) & 1;
}
Count
在我算法的最内层循环中。
更新:架构:x86-64、Sandy Bridge,因此可以使用 SSE4.2、AVX1 和旧技术,但不能使用 AVX2 或 BMI1/2。
bits
变量具有几乎随机的位(接近半零和半一)
最佳答案
您可以尝试使用 SSE,每次迭代增加 4 个元素。
警告:后面有未经测试的代码...
#include <stdint.h>
#include <emmintrin.h>
uint32_t bit_counter[64] __attribute__ ((aligned(16)));
// make sure bit_counter array is 16 byte aligned for SSE
void Count_SSE(uint64 bits)
{
const __m128i inc_table[16] = {
_mm_set_epi32(0, 0, 0, 0),
_mm_set_epi32(0, 0, 0, 1),
_mm_set_epi32(0, 0, 1, 0),
_mm_set_epi32(0, 0, 1, 1),
_mm_set_epi32(0, 1, 0, 0),
_mm_set_epi32(0, 1, 0, 1),
_mm_set_epi32(0, 1, 1, 0),
_mm_set_epi32(0, 1, 1, 1),
_mm_set_epi32(1, 0, 0, 0),
_mm_set_epi32(1, 0, 0, 1),
_mm_set_epi32(1, 0, 1, 0),
_mm_set_epi32(1, 0, 1, 1),
_mm_set_epi32(1, 1, 0, 0),
_mm_set_epi32(1, 1, 0, 1),
_mm_set_epi32(1, 1, 1, 0),
_mm_set_epi32(1, 1, 1, 1)
};
for (int i = 0; i < 64; i += 4)
{
__m128i vbit_counter = _mm_load_si128(&bit_counter[i]);
// load 4 ints from bit_counter
int index = (bits >> i) & 15; // get next 4 bits
__m128i vinc = inc_table[index]; // look up 4 increments from LUT
vbit_counter = _mm_add_epi32(vbit_counter, vinc);
// increment 4 elements of bit_counter
_mm_store_si128(&bit_counter[i], vbit_counter);
} // store 4 updated ints
}
它是如何工作的:基本上我们在这里所做的只是对原始循环进行矢量化处理,以便每次循环迭代处理 4 位而不是 1。所以我们现在有 16 次循环迭代而不是 64 次。对于每次迭代,我们从bits
,然后将它们用作 LUT 的索引,其中包含当前 4 位的 4 个增量的所有可能组合。然后我们将这 4 个增量添加到 bit_counter 的当前 4 个元素中。
加载、存储和添加的数量减少了 4 倍,但这将在某种程度上被 LUT 加载和其他内务处理所抵消。不过,您可能仍会看到 2 倍的速度提升。如果您决定尝试一下,我很想知道结果。
关于c++ - 如何在 Sandy Bridge 上的一系列整数中快速将位计数到单独的 bin 中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7793997/
我的 ADT(Android 开发人员工具)工作正常,几天前它显示所有文件的图形布局,但今天它显示“无法加载 LayoutLib:com.android.layoutlib.bridge.Bridge
我正在尝试使用以下命令控制是否将通过我在 Docker 容器中设置的网桥的数据包发送到 iptables 进行处理: sysctl -w net.bridge.bridge-nf-call-ipt
我正在努力创建自己的自定义组件,以便与蓝牙设备进行交互。 I tried this in Swift , 但由于访问桥的问题而没有到达任何地方。 我在 Objective-C 中重新实现它并遇到了同样
是否有任何方法可以确定或任何资源可以找到 Haswell、Sandy Bridge、Ivy Bridge 和 Skylake Intel 处理器的分支目标缓冲区大小? 最佳答案 检查 Agner Fo
有什么解决办法吗? Error starting daemon: Error initializing network controller: could not delete the default
在 WSL2 中运行 docker info(在 ArchWSL 和 Ubuntu 20.04 上)我收到以下警告: WARNING: bridge-nf-call-iptables is disab
我正在使用 ansible 设置 kubernetes 集群。尝试启用内核 IP 路由时出现以下错误: Failed to reload sysctl: sysctl: cannot stat /pr
停止 docker 后,它拒绝重新启动。它提示另一个名为 docker0 的网桥已经存在: level=warning msg="devmapper: Base device already exis
我将这些文件从 Finder 直接添加到我的项目中,然后添加到 Xcode。 桥接 header 由 Xcode 自动创建。 #import 将类导入桥接 header - 桥接 header 没有问
我按照 Google Sign-in for iOS 上的所有说明进行操作使用CocoaPods(尽管我以前没有使用过CocoaPods,但仍然不明白它是什么),当我运行程序时,我收到此错误: bri
概述 桥接模式一种结构型模式,它主要应对的是:由于实际的需要,某个类具有两个或以上的维度变化,如果只是用继承将无法实现这种需要,或者使得设计变得相当臃肿。 桥接模式的做法是把变化的部分抽象出来,使
Android webView 不支持 Google oAuth。 Google 建议使用 chrome 自定义标签进行 oAuth。我也有从我的网络应用程序到 native 的 js 调用的要求。如
我正在从事一个网络项目,出于某种原因,我需要修改 Linux 中使用的网桥的源代码。我想知道如何添加 http://lxr.free-electrons.com/source/net/bridge/源
Docker 似乎在容器开始运行后创建了一个桥,然后与我的主机网络发生冲突。这不是默认的桥 docker0,而是在容器启动后创建的另一个桥。我可以根据较旧的用户指南链接 https://docs.do
桥接模式属于先天模式,这里的先天模式就是说一开始就要把结构搭建好,方便后来的扩展,而不是对已经出现的模块和接口进行改进扩展的。桥接的核心在于实体类和操作类之间的聚合关系,这个聚合关系就是我们所说的&
1、桥梁模式结构图 2、桥梁模式中主要角色 抽象化(Abstraction)角色:定义抽象类的接口并保存一个对实现化对象的引用。 修正抽象化(Refined Abstractio
代码如下: <?php /** * 桥接模式 * * 将抽象部份与它实现部分分离,使用它们都可以有独立的变化 */
题目地址:https://leetcode.com/problems/shortest-bridge/description/ 题目描述 Ina given 2D binary array A,
桥接模式(Bridge Pattern)是用于把抽象化与实现化解耦,使得二者可以独立变化 桥接模式涉及到一个作为桥接的接口,使得实体类的功能独立于接口实现类,这两种类型的类可被结构化改变而互不影响
LocalAppData为由 Desktop App Converter 转换的应用程序虚拟化. 例如。 “真实”LocalAppData地点是: C:\Users\user\AppData\Loca
我是一名优秀的程序员,十分优秀!