- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
Intel Xeon Phi“Knights Landing”处理器将是第一个支持 AVX-512 的处理器,但它只支持“F”(就像没有 SSE2 的 SSE,或没有 AVX2 的 AVX),所以主要是 float 。
我正在编写通过内部函数使用最多 SSE4.1 指令对字节和字(8 位和 16 位)进行操作的软件。
我很困惑在 AVX-512F 中是否会有所有/大多数 SSE4.1 指令的 EVEX 编码版本,这是否意味着我可以期望我的 SSE 代码自动获得 EVEX 扩展指令并映射到所有新寄存器.
维基百科是这样说的:
The width of the SIMD register file is increased from 256 bits to 512 bits, with a total of 32 registers ZMM0-ZMM31. These registers can be addressed as 256 bit YMM registers from AVX extensions and 128-bit XMM registers from Streaming SIMD Extensions, and legacy AVX and SSE instructions can be extended to operate on the 16 additional registers XMM16-XMM31 and YMM16-YMM31 when using EVEX encoded form.
不幸的是,这并没有阐明在启用 AVX512 的情况下编译 SSE4 代码是否会导致将其编译为 AVX2 所提供的相同(极好的)加速(遗留指令的 VEX 编码)。
有人知道为 AVX-512F 编译 SSE2/4 代码(C 内在函数)时会发生什么吗?可以期待像 AVX1 的字节和字指令的 VEX 编码那样的减速带吗?
最佳答案
好的,我想我已经拼凑了足够的信息来做出一个像样的答案。开始。
What will happen when native SSE2/4 code is run on Knights Landing (KNL)?
代码将在内核中单个 VPU(称为兼容层)上寄存器的底部四分之一中运行。根据 Colfax 的发布前网络研讨会,这意味着仅占用内核可用总寄存器空间的 1/4 到 1/8,并在传统模式下运行。
What happens if the same code is recompiled with compiler flags for AVX-512F?
将生成带有 VEX 前缀的 SSE2/4 代码。这意味着 pshufb 变为 vpshufb 并与 ymm 中的其他 AVX 代码一起工作。指令将不会提升到 AVX512 的原生 EVEX 或允许专门寻址新的 zmm 寄存器。指令只能通过 AVX512-VL 提升到 EVEX,在这种情况下,它们能够直接寻址(重命名)zmm 寄存器。目前尚不清楚寄存器共享是否可行,但在许多情况下,AVX2 上的流水线已证明半宽 AVX2 (AVX-128) 的吞吐量与全 256 位 AVX2 代码的吞吐量相似。
Most importantly, how do I get my SSE2/4/AVX128 byte/word size code running on AVX512F?
您必须将 128 位 block 加载到 xmm 中,将这些字节/字符号/零扩展到 zmm 中的 32 位,并像它们始终是更大的整数一样进行操作。然后完成后,转换回字节/字。
Is this fast?
根据 Larrabee(Knights Landing 的原型(prototype))上发布的 Material ,只要寄存器可用,任何整数宽度的类型转换都可以从 xmm 到 zmm,反之亦然。此外,在执行计算后,可以将 32 位结果即时截断为字节/字长度,并以 128 位 block 的形式写入(打包)到未对齐的内存中,从而可能节省一个 xmm 寄存器。
在 KNL 上,每个核心都有 2 个 VPU,它们似乎能够相互对话。因此,32 路 32 位查找可以在单个 vperm*2d 指令中进行,可能具有合理的吞吐量。即使使用 AVX2 也是不可能的,它只能在 128 位 channel 内置换(或仅适用于 32 位 vpermd 的 channel 之间,不适用于字节/字指令)。结合自由类型转换,使用 AVX512 隐式使用掩码的能力(省去 blendv 或显式掩码生成的昂贵和寄存器密集型使用),以及更多比较器的存在( native NOT、无符号/有符号 lt/gt 等) ,毕竟为 AVX512F 重写 SSE2/4 字节/字代码可能会提供合理的性能提升。至少在 KNL 上。
别担心,我会在拿到手的那一刻进行测试。 ;-)
关于c - Knights Landing CPU (Xeon Phi) 会加速字节/字整数代码吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37713644/
我想在我的 iPhone 应用程序中加入线性回归。经过一些搜索,我发现 Accelerate Framework 中的 LAPACK 和 BLAS 是正确的库。但是我很难将加速框架添加到我的 XCod
有什么方法可以加速 JS 脚本(我指的是一些复杂的 DOM 操作,比如游戏或动画)? 最佳答案 真的没有办法真正加快速度。您可以压缩它,但不会快很多。 关于Javascript 加速?,我们在Stac
有时,我必须为一个项目重新导入数据,从而将大约 360 万行读入 MySQL 表(目前是 InnoDB,但我实际上并不局限于这个引擎)。 “加载数据文件...”已被证明是最快的解决方案,但它有一个权衡
在尝试计算加速时,我被卡住了。所以给出的问题是: 问题 1 如果程序的 50% 增强了 2 倍,其余 50% 增强了 4 倍,那么由于增强而导致的整体加速是多少? Hints:考虑增强前(未增强)机器
目前我正在处理实时绘图,但可视化非常慢。我想知道你可以做些什么来加速 Matplotlib 中的事情: 后端如何影响性能?是否有后端 实时绘图比其他人更好吗? 我可以降低分辨率以提高 FPS 吗? 如
我有一个小型测试框架。它执行一个循环,执行以下操作: 生成一个小的 Haskell 源文件。 使用 runhaskell 执行此操作.该程序生成各种磁盘文件。 处理刚刚生成的磁盘文件。 这种情况发生了
这是我的网站:Instant-YouTube 如您所见,加载需要很长时间。在 IE8 及以下甚至有时会导致浏览器崩溃。我不确定是什么原因造成的。可能是 Clicksor 广告,但我认为是 swfobj
是否可以加速 SKSpriteNode? 我知道可以使用 node.physicsBody.velocity 轻松设置速度但是设置它的加速度有多难? 最佳答案 从牛顿第二定律倒推运动:F = m.a您
有没有人有加速 FCKEditor 的技术?是否有一些关键的 JavaScript 文件可以缩小或删除? 最佳答案 在最新版本 (3.0.1) 中,FCKEditor 已重命名为 CKEditor .
我有以下 MySQL 查询,需要一天多的时间才能执行: SELECT SN,NUMBER FROM a WHERE SN IN (SELECT LOWER_SN FROM b WHER
我现在正在开发一款使用加速来玩的游戏。我找到了如何让我的元素移动,但不改变它的“原点”,或者更准确地说,改变加速度计算的原点: 事实上,我的图像是移动的,它的中心是这样定义的: imageView.c
我有一个 mysql 表,其中存储有 4 列的成员消息: message_id(主键,自增) sender_id( key ) receiver_id( key ) 消息内容 我做了很多 SELECT
我在 cuda_computation.cu 中有以下代码 #include #include #include #include void checkCUDAError(const char
我正在使用 BeautifulSoup 在 for 循环中解析数千个网站。这是我的代码片段: def parse_decision(link): t1 = time.time() de
我正在使用 OpenCV 2.4 (C++) 在灰度图像上进行寻线。这涉及一些基本的图像处理步骤,如模糊、阈值、Canny 边缘检测器、梯度滤波器或霍夫变换。我必须在数千张图像上应用寻线算法。 考虑到
当我试图连续生成四次相同的报告时,我刚刚分析了我的报告应用程序。第一个用了 1859 毫秒,而后面的只用了 400 到 600 毫秒。对此的解释是什么?我能以某种方式使用它来使我的应用程序更快吗?报告
当我打开 Storyboard文件时,由于其中包含的 VC 数量,打开它需要 1-2 分钟。加快速度的最佳做法是什么?我们应该将一些 VC 移动到不同的 Storyboard文件中吗?我们是否应该使用
我有一个包含多个页面的 UIPageViewController。每个页面都是相同的 View Controller ,但会跟踪页码并显示 PDF 的正确页面。问题是每个 PDF 页面都需要在 cur
这实际上是两个问题,但它们非常相似,为了简单起见,我想将它们放在一起: 首先:给定一个已建立的 Java 项目,除了简单的代码内优化之外,还有哪些不错的方法可以加快它的速度? 其次:在用Java从头写
我有一个包含 1000 个条目的文档,其格式类似于:
我是一名优秀的程序员,十分优秀!