- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
(编者注:这个问题最初是:应该如何访问 __m128i 对象的 m128i_i8 成员或一般成员?,尝试在 GCC 的定义上使用 MSVC 特定的方法__m128i
。但这是一个 XY 问题,接受的答案是关于这里的 XY 问题。另一个答案确实回答了这个问题。)
我知道 Microsoft 建议不要直接访问这些对象的成员,但我需要设置它们和 documentation非常缺乏。
我继续收到错误“在‘(我的 var 名称)’中请求成员‘m128i_i8’,它是非类类型‘wirelabel {aka __vector(2) long long int}’”,我不知道理解,因为我包含了所有正确的 header 并且它确实识别 __m128i 变量。
注意 1:wirelabel 是 __m128i 的类型定义,即存在于标题中
typedef __m128i wirelabel
Note2:使用 Note1 的原因在以下其他问题中有解释: tbb::cache_aligned_allocator: Getting "request for member...which is of non-class type" with __m128i. User error or bug?
注3:我使用的是编译器g++
注意 4:以下问题没有回答我的问题,但讨论了相关信息 Why should you not access the __m128i fields directly?
我也知道有一个 _mm_set_epi8 函数,但它要求您一次设置所有 8 位部分,目前我不适合这个选项。
编辑:我被问及为什么我认为我需要访问 __m128i
对象的 16 个 8 位部分中的每一个部分的更多细节,原因如下:我有一个 bool
大小为“n*128”的数组(n 是一个 size_t),我需要将它们存储在大小为“n”的“wirelabel”数组中。
现在因为 wirelabel 只是 __m128i 的别名/typedef(如果有差异请纠正我),128 个 bool 的“n”个索引中的每一个都可以存储在“wirelabel”数组中。
但是,为了做到这一点,我认为需要将每 8 位转换为它的有符号等价物,并将其存储在数组中每个“wirelabel”指针的正确 8 位索引中。
最佳答案
所以您的源数据是连续的?你应该使用 _mm_load_si128
而不是乱搞 vector 类型的标量分量。
您真正的问题是打包 bool
的数组(x86 上 g++ 使用的 ABI 中每个元素 1 个字节)转换为位图。您应该使用 SIMD 执行此操作,而不是使用标量代码一次设置 1 位或字节。
pmovmskb
( _mm_movemask_epi8
) 非常适合从输入的每个字节中提取一位。你只需要安排把你想要的位放到高位就可以了。
显而易见的选择是移位,但 vector 移位指令竞争与 pmovmskb
相同的执行端口在 Haswell(端口 0)上。 (http://agner.org/optimize/)。相反,添加 0x7F
将产生 0x80
(高位设置)对于 1
的输入,但是 0x7F
(高位清除)对于 0
的输入. (并且 x86-64 System V ABI 中的 bool
必须作为整数 0 或 1 存储在内存中,而不仅仅是 0 与任何非零值)。
为什么不 pcmpeqb
反对_mm_set1_epi8(1)
? Skylake 运行 pcmpeqb
在端口 0/1 上,但是 paddb
在所有 3 个 vector ALU 端口 (0/1/5) 上。使用 pmovmskb
很常见关于 pcmpeqb/w/d/q
的结果, 不过。
#include <immintrin.h>
#include <stdint.h>
// n is the number of uint16_t dst elements
// We access n*16 bool elements from src.
void pack_bools(uint16_t *dst, const bool *src, size_t n)
{
// you can later access dst with __m128i loads/stores
__m128i carry_to_highbit = _mm_set1_epi8(0x7F);
for (size_t i = 0 ; i < n ; i+=1) {
__m128i boolvec = _mm_loadu_si128( (__m128i*)&src[i*16] );
__m128i highbits = _mm_add_epi8(boolvec, carry_to_highbit);
dst[i] = _mm_movemask_epi8(highbits);
}
}
因为我们想在写这个位图时使用标量存储,所以我们想要dst
在uint16_t
出于严格别名的原因。使用 AVX2,您需要 uint32_t
. (或者,如果您执行了 combine = tmp1 << 16 | tmp
以合并两个 pmovmskb
结果。但可能不会这样做。)
这会编译成这样的 asm 循环 ( with gcc7.3 -O3, on the Godbolt compiler explorer )
.L3:
movdqu xmm0, XMMWORD PTR [rsi]
add rsi, 16
add rdi, 2
paddb xmm0, xmm1
pmovmskb eax, xmm0
mov WORD PTR [rdi-2], ax
cmp rdx, rsi
jne .L3
所以这并不好(7 个融合域 uops -> 前端瓶颈在每 ~1.75 个时钟周期 16 个 bool 值)。 Clang 按 2 展开,并且每 1.5 个周期应管理 16 个 bool 值。
使用轮类 (pslld xmm0, 7
) 只会在 Haswell 上每 2 个周期运行一次迭代,在端口 0 上出现瓶颈。
关于c++ - 提取 __m128i 中每个 bool 字节的低位? bool 数组到打包位图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49263507/
#include using namespace std; class C{ private: int value; public: C(){ value = 0;
这个问题已经有答案了: What is the difference between char a[] = ?string?; and char *p = ?string?;? (8 个回答) 已关闭
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 7 年前。 此帖子已于 8 个月
除了调试之外,是否有任何针对 c、c++ 或 c# 的测试工具,其工作原理类似于将独立函数复制粘贴到某个文本框,然后在其他文本框中输入参数? 最佳答案 也许您会考虑单元测试。我推荐你谷歌测试和谷歌模拟
我想在第二台显示器中移动一个窗口 (HWND)。问题是我尝试了很多方法,例如将分辨率加倍或输入负值,但它永远无法将窗口放在我的第二台显示器上。 关于如何在 C/C++/c# 中执行此操作的任何线索 最
我正在寻找 C/C++/C## 中不同类型 DES 的现有实现。我的运行平台是Windows XP/Vista/7。 我正在尝试编写一个 C# 程序,它将使用 DES 算法进行加密和解密。我需要一些实
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
有没有办法强制将另一个 窗口置于顶部? 不是应用程序的窗口,而是另一个已经在系统上运行的窗口。 (Windows, C/C++/C#) 最佳答案 SetWindowPos(that_window_ha
假设您可以在 C/C++ 或 Csharp 之间做出选择,并且您打算在 Windows 和 Linux 服务器上运行同一服务器的多个实例,那么构建套接字服务器应用程序的最明智选择是什么? 最佳答案 如
你们能告诉我它们之间的区别吗? 顺便问一下,有什么叫C++库或C库的吗? 最佳答案 C++ 标准库 和 C 标准库 是 C++ 和 C 标准定义的库,提供给 C++ 和 C 程序使用。那是那些词的共同
下面的测试代码,我将输出信息放在注释中。我使用的是 gcc 4.8.5 和 Centos 7.2。 #include #include class C { public:
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我的客户将使用名为 annoucement 的结构/类与客户通信。我想我会用 C++ 编写服务器。会有很多不同的类继承annoucement。我的问题是通过网络将这些类发送给客户端 我想也许我应该使用
我在 C# 中有以下函数: public Matrix ConcatDescriptors(IList> descriptors) { int cols = descriptors[0].Co
我有一个项目要编写一个函数来对某些数据执行某些操作。我可以用 C/C++ 编写代码,但我不想与雇主共享该函数的代码。相反,我只想让他有权在他自己的代码中调用该函数。是否可以?我想到了这两种方法 - 在
我使用的是编写糟糕的第 3 方 (C/C++) Api。我从托管代码(C++/CLI)中使用它。有时会出现“访问冲突错误”。这使整个应用程序崩溃。我知道我无法处理这些错误[如果指针访问非法内存位置等,
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 7 年前。
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
我有一些 C 代码,将使用 P/Invoke 从 C# 调用。我正在尝试为这个 C 函数定义一个 C# 等效项。 SomeData* DoSomething(); struct SomeData {
这个问题已经有答案了: Why are these constructs using pre and post-increment undefined behavior? (14 个回答) 已关闭 6
我是一名优秀的程序员,十分优秀!