- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我一直在尝试弄清楚我们应该如何使用 AVX512 中的分散指令来分散 16 位整数。我所拥有的是 8 x 16 位整数,存储在 __m256i 的每个 32 位整数中。我会使用 _mm512_i32extscatter_epi32 的 256 位等价物,下转换 _MM_DOWNCONV_EPI32_UINT16,但没有这样的指令,下转换在 AVX512 上不起作用。
我的理解是这样的...我们必须进行 32 位读取和写入,并且我们必须小心让两个相邻的 16 位写入相互破坏(如果相同的索引在索引列表中两次那么我不需要担心哪个先发生)。所以我们必须使用冲突收集分散循环。在循环中,我们必须在 32 位整数地址上发生冲突,或者将 16 位索引左移 1 并用作等效 32 位数组的索引(将 16 位数组转换为 32 位数组的等效项)数组,然后将索引除以 2)。然后我们需要读取一个 32 位整数,并根据 16 位数组的原始索引是奇数还是偶数来更改高 16 位或低 16 位。
这就是我得到的:
判断索引是奇数还是偶数,并相应地设置 2 位掩码 01 或 10,形成 8 个整数的 16 位掩码。
通过将低 16 位复制到高 16 位,将 16 位整数转换为 32 位整数
通过右移 1,将 16 位整数数组的索引转换为 32 位索引数组的索引。
使用带掩码的冲突循环
屏蔽收集 32 位整数
使用 _mm256_mask_blend_epi16 选择是否更改刚刚读取的 32 位整数的高 16 位或低 16 位(使用 (1) 中的掩码)。
Masked-scatter 回到内存
重复,直到我们在未写入的 32 位整数地址中没有冲突。
拜托,有没有更快(或更简单)的方法来做到这一点?是的,我知道,个人写入速度更快 - 但这是关于如何使用 AVX-512 来完成它。
代码如下:
void scatter(uint16_t *array, __m256i vindex, __m256i a)
{
__mmask16 odd = _mm256_test_epi16_mask(vindex, _mm256_set1_epi32(1));
__mmask16 even = ~odd & 0x5555;
__mmask16 odd_even = odd << 1 | even;
__m256i data = _mm256_mask_blend_epi16(0x5555, _mm256_bslli_epi128(a, 2), a);
__m256i word_locations = _mm256_srli_epi32(vindex, 1);
__mmask8 unwritten = 0xFF;
do
{
__m256i conflict = _mm256_maskz_conflict_epi32 (unwritten, word_locations);
conflict = _mm256_and_si256(_mm256_set1_epi32(unwritten), conflict);
__mmask8 mask = unwritten & _mm256_testn_epi32_mask(conflict, _mm256_set1_epi32(0xFFFF'FFFF));
__m256i was = _mm256_mmask_i32gather_epi32(_mm256_setzero_si256(), mask, word_locations, array, 4);
__m256i send = _mm256_mask_blend_epi16(odd_even, was, data);
_mm256_mask_i32scatter_epi32(array, mask, word_locations, send, 4);
unwritten ^= mask;
}
while (unwritten != 0);
}
最佳答案
如果读取/写入最后一个索引后的两个字节是安全的,那么这也应该有效:
void scatter2(uint16_t *array, __m256i vindex, __m256i a) {
__mmask8 odd = _mm256_test_epi32_mask(vindex, _mm256_set1_epi32(1));
int32_t* arr32 = (int32_t*)array;
__m256i was_odd = _mm256_i32gather_epi32(arr32, vindex, 2);
__m256i data_even = _mm256_mask_blend_epi16(0x5555, was_odd, a);
_mm256_mask_i32scatter_epi32(array, ~odd, vindex, data_even, 2);
__m256i was_even = _mm256_i32gather_epi32(arr32, vindex, 2);
__m256i data_odd = _mm256_mask_blend_epi16(0x5555, was_even, a);
_mm256_mask_i32scatter_epi32(array, odd, vindex, data_odd, 2);
}
如果你能保证 vindex
中的索引在增加(或者至少对于任何部分冲突的 {i
, i+1
} vindex
i+1
出现在 i
之后),您可能可以通过一次 gather+blend+scatter 逃脱。此外,使用掩码收集可能会有好处(即,每次只收集您接下来要覆盖的元素)——我不确定这是否会对吞吐量产生影响。最后,_mm256_mask_blend_epi16
实际上可以替换为简单的 _mm256_blend_epi16
。
关于c - 使用 AVX-512 收集/分散 16 位整数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62213642/
#include using namespace std; class C{ private: int value; public: C(){ value = 0;
这个问题已经有答案了: What is the difference between char a[] = ?string?; and char *p = ?string?;? (8 个回答) 已关闭
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 7 年前。 此帖子已于 8 个月
除了调试之外,是否有任何针对 c、c++ 或 c# 的测试工具,其工作原理类似于将独立函数复制粘贴到某个文本框,然后在其他文本框中输入参数? 最佳答案 也许您会考虑单元测试。我推荐你谷歌测试和谷歌模拟
我想在第二台显示器中移动一个窗口 (HWND)。问题是我尝试了很多方法,例如将分辨率加倍或输入负值,但它永远无法将窗口放在我的第二台显示器上。 关于如何在 C/C++/c# 中执行此操作的任何线索 最
我正在寻找 C/C++/C## 中不同类型 DES 的现有实现。我的运行平台是Windows XP/Vista/7。 我正在尝试编写一个 C# 程序,它将使用 DES 算法进行加密和解密。我需要一些实
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
有没有办法强制将另一个 窗口置于顶部? 不是应用程序的窗口,而是另一个已经在系统上运行的窗口。 (Windows, C/C++/C#) 最佳答案 SetWindowPos(that_window_ha
假设您可以在 C/C++ 或 Csharp 之间做出选择,并且您打算在 Windows 和 Linux 服务器上运行同一服务器的多个实例,那么构建套接字服务器应用程序的最明智选择是什么? 最佳答案 如
你们能告诉我它们之间的区别吗? 顺便问一下,有什么叫C++库或C库的吗? 最佳答案 C++ 标准库 和 C 标准库 是 C++ 和 C 标准定义的库,提供给 C++ 和 C 程序使用。那是那些词的共同
下面的测试代码,我将输出信息放在注释中。我使用的是 gcc 4.8.5 和 Centos 7.2。 #include #include class C { public:
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我的客户将使用名为 annoucement 的结构/类与客户通信。我想我会用 C++ 编写服务器。会有很多不同的类继承annoucement。我的问题是通过网络将这些类发送给客户端 我想也许我应该使用
我在 C# 中有以下函数: public Matrix ConcatDescriptors(IList> descriptors) { int cols = descriptors[0].Co
我有一个项目要编写一个函数来对某些数据执行某些操作。我可以用 C/C++ 编写代码,但我不想与雇主共享该函数的代码。相反,我只想让他有权在他自己的代码中调用该函数。是否可以?我想到了这两种方法 - 在
我使用的是编写糟糕的第 3 方 (C/C++) Api。我从托管代码(C++/CLI)中使用它。有时会出现“访问冲突错误”。这使整个应用程序崩溃。我知道我无法处理这些错误[如果指针访问非法内存位置等,
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 7 年前。
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
我有一些 C 代码,将使用 P/Invoke 从 C# 调用。我正在尝试为这个 C 函数定义一个 C# 等效项。 SomeData* DoSomething(); struct SomeData {
这个问题已经有答案了: Why are these constructs using pre and post-increment undefined behavior? (14 个回答) 已关闭 6
我是一名优秀的程序员,十分优秀!