- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我目前正在使用 AVX2 内部函数对一些代码进行矢量化以存储 32 位像素数据。由于 AVX2 寄存器是 256 位的,我可以同时对 8 个像素进行操作。我目前的代码可以从一个缓冲区加载 8 个像素,然后将它们存储到另一个缓冲区:
// Load 256 bits (8 pixels) from memory into register YMMx
BitmapOctoPixel = _mm256_load_si256((const __m256i*)((PIXEL32*)GameBitmap->Memory + BitmapOffset));
// adjust the colors
// As an example, the YMM0 register currently holds these pixels:
// AARRGGBBAARRGGBB-AARRGGBBAARRGGBB-AARRGGBBAARRGGBB-AARRGGBBAARRGGBB
// YMM0 = FF33281EFF000000-FF33281E00FFFFFF-00FFFFFF00FFFFFF-00FFFFFF00FFFFFF
// store the result into the destination buffer
_mm256_store_si256((__m256i*)((PIXEL32*)gBackBuffer.Memory + MemoryOffset), BitmapOctoPixel);
现在我只想移动 Alpha channel (“AA”组件)为 255 的像素。我不想进行 Alpha 混合。我只想将具有 0xFF 的像素存储为 alpha 值。
我想我可以使用掩码和 _mm256_maskstore_epi32()
函数来做到这一点,但经过几个小时的尝试,我仍然无法弄清楚。
谢谢
最佳答案
首先,请注意 _mm256_maskstore_epi32
在 AMD Zen/Zen2 上非常慢,比如 19 微指令和每 6 周期一个的吞吐量。 (https://uops.info/)。掩码加载很好,但掩码存储仅在英特尔硬件上有效。您可能希望与原始值混合并执行完整的 vector 存储。
maskstore 使用 32 位元素的高位作为存储与否的控制。
因此,您需要创建一个 vector ,当 alpha 正好 == 0xFF
时设置该位。
方便地,8 位 alpha 已经在 32 位元素的顶部,因此它的高位是整个 32 位元素的控制位。根据整个 alpha 字节为 0xFF,我们可以只使用 packed-8-bit 比较来将 alpha channel 的所有位(包括高位)设置为 0 或 1
。 maskstore
根本不关心掩码中的其他位,因此像素其他部分的8位比较结果基本上是垃圾也没关系。
void store_opaque_only(void *dst, __m256i pixels)
{
// As an example, the YMM0 register currently holds these pixels:
// AARRGGBBAARRGGBB-AARRGGBBAARRGGBB-AARRGGBBAARRGGBB-AARRGGBBAARRGGBB
// YMM0 = FF33281EFF000000-FF33281E00FFFFFF-00FFFFFF00FFFFFF-00FFFFFF00FFFFFF
__m256i opaque = _mm256_cmpeq_epi8(pixels, _mm256_set1_epi8(-1));
_mm256_maskstore_epi32(dst, opaque, pixels);
}
set1_epi8(-1)
而不是 set1_epi32(0xFF000000)
使常量的创建成本更低:编译器可以通过将寄存器与自身进行比较来创建全1,而不是从内存中加载常量。 (Godbolt ;当然这个函数会在实际用例中内联。)
# gcc10.2 -O3 -march=skylake
store_opaque_only:
vpcmpeqd ymm1, ymm1, ymm1 # all-ones
vpcmpeqb ymm1, ymm0, ymm1 # opaque = pixels == -1
vpmaskmovd YMMWORD PTR [rdi], ymm1, ymm0
ret
内联后,全1 vector 可以被提升出循环。
如果您不需要完全相等,例如alpha >= 0xF0
,您可能必须在 vpcmpgtb
_mm256_cmpgt_epi8 之前将范围转移到有符号(通过减去或异或 0x80
)。调整后,您可以进行 dword 整数比较以创建 32 位掩码元素,因此您可以将其与 vpblendvb
(整数字节混合)一起使用。
如果 alpha 位于 32 位元素中的不同位置,则在比较之前左移。
顺便说一句,如果您将像素存储回找到它们的位置,您还可以考虑在常规存储之前将原始数据使用 vblendvps
,而不是 maskstore。
没有 32 位粒度整数混合,因此您必须 _mm256_castsi256_ps
让编译器对在 __m256i
上使用 _mm256_blendv_ps
感到满意> 变量。
FP 混合将在大多数 CPU 上花费额外的一个或 2 个绕过延迟周期,但只要 OoO exec 可以隐藏该延迟,就不会产生吞吐量成本,这在您处理独立的像素 vector 时很可能发生。但是这样做可以节省指令而不是 vpxor
/vpcmpgtd
来设置 vpblendvb
。
避免使用 maskstore 在 AMD 上非常好。
关于c - 使用 SIMD,我如何有条件地仅移动 alpha channel 值为 255 的像素?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64310182/
如何在 2014-10-04 - 2014-10-30 仅工作日和 08.00 - 20.00 之间随机更新日期列? 2014-10-04 - 2014-10-30 random working-da
我有一个二维 (3x7) 数组,我想转换为一维数组,以便我提供的行位于中心。行值可能沿途变化,但必须位于中心。 #define numRows 3 #define numCols 7 #define
我有2张 table : 第一个是“人”: person_id, 人名 第二个是“PersonsGraphs”: person_id1, person_id2, 关系类型 我正在寻找一种建立“家谱”的
是否可以在序列化 JSON 响应的同时根据 If 条件排除某些元素? if(a == 1) { //show element } else { //don't show element }
是否可以在序列化 JSON 响应的同时根据 If 条件排除某些元素? if(a == 1) { //show element } else { //don't show element }
尝试使用 jQuery 编写一个条件,该条件基本上说明,如果 div.gathering 不包含 a.cat-link,则执行以下操作。我已经尝试过以下方法,但似乎不起作用。有人能解释一下吗? if(
该练习要求插入值 x 的副本(这也是要在列表中搜索的值),但前提是该位置是另一个值 n 的倍数。未指定副本应插入到 x 值之前还是之后。 我的问题是并非在所有情况下都插入副本。我认为问题在于,当我插入
我遇到了这个[问题]:How can I store values into a multi-parameter struct and pass typedef struct to a functio
出于某种原因,当我编写 getWinner() 时,它仅适用于 2 种情况(最后一行)。就对角线和列而言,我拥有其他一切,但第 2 行(嗯,三,但数组,所以 2)基本上只适用于 o。只有当 o 位于
我有一个问题。 我想将“guid”列中的值复制到“帖子内容” 所有行都在一个表“wp-posts”中 “postparent”列中的一行有一个值,而“ID”列中的另一项也有相同的值 我必须做的事情是
我想将两个像这样的表合并到一个表中,并为重复的键行添加合并表中最旧的 DateAdded 值。 (Key1,Key2) 是主键。 +-----------+-----------+------+---
通过下面的表格和数据,我试图获得最高的 effective_from每个唯一 brand 小于当前时间戳的值/model组合 - 实际上是每件商品的当前价格。 CREATE TABLE things
您能告诉我如何删除未知号码的最后一条记录(有条件)吗? 例如,在这种情况下我想删除id为6到10的记录。 注意:该表和记录不是恒定的。 +----+-----+---------+ | id | ur
这个问题不太可能对任何 future 的访客有帮助;它只与一个较小的地理区域、一个特定的时间点或一个非常狭窄的情况相关,通常不适用于全世界的互联网受众。如需帮助使此问题更广泛适用,visit the
我有两个表, 标签 -> id,name,description,user,status 标签_连接。 -> id, Label_id, 类别 所以有多个类别,假设 1 => 新的,2 => 旧的。
好的,我会长话短说。 这是我的代码 String s = edittextkata.getText().toString(); String[] vowels = {"a","
我有一个非常具体的要求,我发现很难做到,我需要查找并替换文件中的某些行,但问题是文本不同,唯一的好处是它们都有一个 .[扩展名] 例如: 30/07/2012 14:46 17
我有一个大型数据库,其中存在各种不一致之处。我想澄清的项目之一是根据人口更改国家/地区状态。 数据样本是: { "_id" : "D", "name" : "Deutschland", "pop" :
我需要将范围(有条件)中的唯一值组合到同一行的另一个范围中。 其实我前两天发过类似的问题Link所提供的答案在我提出上述问题时有效。 但后来,我遇到了一个新问题,我宁愿问一个新的问题,让它更清楚: (
我刚开始使用 VBA,并且正在努力处理需要清理的工作表。 我有一列包含混合邮政编码和城市名称的字符串。我想从 A 列中提取邮政编码并放在 B 列中,并在 C 列中提取带有下划线的城市名称。 我的(示例
我是一名优秀的程序员,十分优秀!