gpt4 book ai didi

c - Knights Landing CPU (Xeon Phi) 会加速字节/字整数代码吗?

转载 作者:太空狗 更新时间:2023-10-29 17:24:11 24 4
gpt4 key购买 nike

Intel Xeon Phi“Knights Landing”处理器将是第一个支持 AVX-512 的处理器,但它只支持“F”(就像没有 SSE2 的 SSE,或没有 AVX2 的 AVX),所以主要是 float 。

我正在编写通过内部函数使用最多 SSE4.1 指令对字节和字(8 位和 16 位)进行操作的软件。

我很困惑在 AVX-512F 中是否会有所有/大多数 SSE4.1 指令的 EVEX 编码版本,这是否意味着我可以期望我的 SSE 代码自动获得 EVEX 扩展指令并映射到所有新寄存器.

维基百科是这样说的:

The width of the SIMD register file is increased from 256 bits to 512 bits, with a total of 32 registers ZMM0-ZMM31. These registers can be addressed as 256 bit YMM registers from AVX extensions and 128-bit XMM registers from Streaming SIMD Extensions, and legacy AVX and SSE instructions can be extended to operate on the 16 additional registers XMM16-XMM31 and YMM16-YMM31 when using EVEX encoded form.

不幸的是,这并没有阐明在启用 AVX512 的情况下编译 SSE4 代码是否会导致将其编译为 AVX2 所提供的相同(极好的)加速(遗留指令的 VEX 编码)。

有人知道为 AVX-512F 编译 SSE2/4 代码(C 内在函数)时会发生什么吗?可以期待像 AVX1 的字节和字指令的 VEX 编码那样的减速带吗?

最佳答案

好的,我想我已经拼凑了足够的信息来做出一个像样的答案。开始。

What will happen when native SSE2/4 code is run on Knights Landing (KNL)?

代码将在内核中单个 VPU(称为兼容层)上寄存器的底部四分之一中运行。根据 Colfax 的发布前网络研讨会,这意味着仅占用内核可用总寄存器空间的 1/4 到 1/8,并在传统模式下运行。

What happens if the same code is recompiled with compiler flags for AVX-512F?

将生成带有 VEX 前缀的 SSE2/4 代码。这意味着 pshufb 变为 vpshufb 并与 ymm 中的其他 AVX 代码一起工作。指令将不会提升到 AVX512 的原生 EVEX 或允许专门寻址新的 zmm 寄存器。指令只能通过 AVX512-VL 提升到 EVEX,在这种情况下,它们能够直接寻址(重命名)zmm 寄存器。目前尚不清楚寄存器共享是否可行,但在许多情况下,AVX2 上的流水线已证明半宽 AVX2 (AVX-128) 的吞吐量与全 256 位 AVX2 代码的吞吐量相似。

Most importantly, how do I get my SSE2/4/AVX128 byte/word size code running on AVX512F?

您必须将 128 位 block 加载到 xmm 中,将这些字节/字符号/零扩展到 zmm 中的 32 位,并像它们始终是更大的整数一样进行操作。然后完成后,转换回字节/字。

Is this fast?

根据 Larrabee(Knights Landing 的原型(prototype))上发布的 Material ,只要寄存器可用,任何整数宽度的类型转换都可以从 xmm 到 zmm,反之亦然。此外,在执行计算后,可以将 32 位结果即时截断为字节/字长度,并以 128 位 block 的形式写入(打包)到未对齐的内存中,从而可能节省一个 xmm 寄存器。

在 KNL 上,每个核心都有 2 个 VPU,它们似乎能够相互对话。因此,32 路 32 位查找可以在单个 vperm*2d 指令中进行,可能具有合理的吞吐量。即使使用 AVX2 也是不可能的,它只能在 128 位 channel 内置换(或仅适用于 32 位 vpermd 的 channel 之间,不适用于字节/字指令)。结合自由类型转换,使用 AVX512 隐式使用掩码的能力(省去 blendv 或显式掩码生成的昂贵和寄存器密集型使用),以及更多比较器的存在( native NOT、无符号/有符号 lt/gt 等) ,毕竟为 AVX512F 重写 SSE2/4 字节/字代码可能会提供合理的性能提升。至少在 KNL 上。

别担心,我会在拿到手的那一刻进行测试。 ;-)

关于c - Knights Landing CPU (Xeon Phi) 会加速字节/字整数代码吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37713644/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com