- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试了解 AVX2 intel intrinsic 的收集功能。
根据官方文档Link ,函数定义为,
__m256i _mm256_i32gather_epi32 (int const* base_addr, __m256i vindex, const int scale)
Gather 32-bit integers from memory using 32-bit indices. 32-bit elements are loaded from addresses starting at base_addr and offset by each 32-bit element in vindex (each index is scaled by the factor in scale). Gathered elements are merged into dst. scale should be 1, 2, 4 or 8.
因此,根据我的理解,它返回一个 __m256i vector ,其中填充了数组中的 8 个整数,基索引 base_addr
来自填充在 vindex
中的索引 (8)。如果提到任何 scale
,那么它也会成倍增加。现在,为了测试理解我写了一段代码,
#include<stdio.h>
#include <immintrin.h>
int main()
{
__m256i var, ind_intel;
int * arr = (int *) aligned_alloc(sizeof(__m256i), sizeof(int) * 64);
int * out = (int *) aligned_alloc(sizeof(__m256i), sizeof(int) * 8);
int * ind = (int *) aligned_alloc(sizeof(__m256i), sizeof(int) * 8);
int i;
ind[0] = 0;ind[1] = 2;ind[2] = 4;ind[3] = 6;ind[4] = 8;ind[5] = 10;ind[6] = 12;ind[7] = 14;
ind_intel = _mm256_load_si256((__m256i *)&ind[0]);
for(i=0;i<64;i++)
arr[i] = i;
var = _mm256_i32gather_epi32(arr,ind_intel,1);
_mm256_store_si256((__m256i *)&out[0], var);
for(i=0;i<8;i++)
printf("%d ",out[i]);
return 0;
}
现在,__m256i
变量 ind_intel
获取索引为 0,2,..,14
。主数组 arr
加载了 0,1,..,63
。因此,gather 应该将数据加载为 arr[0],arr[2],..,arr[14]
。但它正在打印值,
0 65536 1 131072 2 196608 3 262144
当然,我错过了一些重要的东西。但是我找不到任何网站或文档明确提到 gather 的用法。他们每个人都重复与官方文件相同的描述。任何人都可以解释代码和理解中的问题吗?
注意该代码仅用于测试目的。
最佳答案
vindex
中的偏移量以字节为单位。因此,您从地址 {arr, arr+2, arr+4, ...}
收集 32 位整数值。将这些索引从 {0,2,4...}
更改为 {0,8,16,...}
,或者将比例因子更新为:
var = _mm256_i32gather_epi32(arr,ind_intel, 4 ); // 1 -> 4
这会打印出预期值。
我更喜欢第二个选项,即更新比例因子。这基本上是它的目的 — 允许 vindex
中的索引具有相对于数据字节大小的逻辑偏移值,而不是字节偏移值。
关于c++ - AVX2 Gather 指令使用细节,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58832024/
参数说明 以官方说明为例,gather()函数需要三个参数,输入input,维度dim,以及索引index input必须为Tensor类型 dim为int类型,代表从哪个维度进行索引 in
我知道如何在 melt 中使用两个 id.vars .这很简单: x = data.frame(subject = c("John", "Mary"), time = c
我正在尝试使用 gather在 tidyr包,但我无法从默认名称更改输出的列名称。例如: df = data.frame(time = 1:100,a = 1:100,b = 101:200) df.
为什么 asyncio.gather 不适用于生成器表达式? import asyncio async def func(): await asyncio.sleep(2) # Works a
我想整理一些不幸的是在前两行中设置了两个列标题的数据: 第一行(标题):实际上是度量的类型(例如。估计、标准误差、上限、下限)。 第二行(也是标题):是度量的年份。 有什么方法可以使用gather()
当我添加 NuGet 包(最新版本的 NuGet 和 Visual Studio 2015)时,它在安装包之前在“尝试收集依赖项”处挂起大约 5 分钟。我可以指向 NuGet.org、我们的内部服务器
我想在 melt 中指定输出列的类别(或 gather)。我想为所有列和不同的类做这件事。 例如,我有一些数据: example example day max min 1 1 20
我有一个按地区进行满意度调查的结果数据集。调查中的每个问题都采用 4 分制评分(从非常满意到非常不满意)。数据集中的每一行都包含给定“财政年度”结束时给定区域中给定问题的汇总结果。它还包含每个级别的受
键排序是否取决于我是否首先列出要收集的列与不收集的列? 这是我的数据框: library(tidyr) wide_df <- data.frame(c("a", "b"), c("oh", "ah")
我见过asyncio.gather vs asyncio.wait ,但不确定这是否解决了这个特定问题。我想做的是将 asyncio.gather() 协程包装在 asyncio.wait_for()
我正在尝试了解 AVX2 intel intrinsic 的收集功能。 根据官方文档Link ,函数定义为, __m256i _mm256_i32gather_epi32 (int const* ba
首先,我一直在使用 this code作为引用,它显示了不使用 MPI_Scatter 的 MPI_Gather 的使用,因为这就是我在这里想要实现的目标。我已经为此工作了很长时间,只是无法弄清楚这个
我正在使用 MPI 开发 mandelbrot 生成器,它在完成时输出 PPM 文件。我使用 MPI gather 将计算结果 block 收集到最终数组中。代码生成文件但不完整;仅显示图片的上半部分
我正在使用 R 将宽格式数据表转换为长格式。它有效,除了必须为新列使用变量: library(readr) library(tidyr) files <- Sys.glob("sources/*.cs
使用 Python 3.7,我试图捕获异常并通过 following an example I found on StackOverflow 重新引发它.虽然该示例确实有效,但它似乎并不适用于所有情况
我有一个数据框,看起来像下面“输入”中显示的图片。 我尝试每行获取 1 个日期(请参见下面“所需输出”中的图片)。换句话说,我尝试为每一行做一种“转置”。 让我们规定组合 'LC' 和 'Prod'
我正在尝试使用索引张量对张量进行切片。为此,我尝试使用 tf.gather . 但是,我很难理解 documentation并且不要让它像我期望的那样工作: 我有两个张量。安 activations形
我想 gather() 列出列以在我的数据框中创建新行。我正在使用 repurrrsive 包中的《权力的游戏》数据集。下面是我设置问题的代码: library(tidyverse) got_char
我想有条件地运行异步函数,如下所示: one, two, three = await asyncio.gather( some_async_method1(), some_async_
我正在使用tensorflow的tf.gather从多维数组中获取元素,如下所示: import tensorflow as tf indices = tf.constant([0, 1, 1]) x
我是一名优秀的程序员,十分优秀!