- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想仅使用avx而不是avx2来实现64位转置操作。它应该这样做:
// in = Hh Hl Lh Ll
// | X |
// out = Hh Lh Hl Ll
这就是使用 avx2 的样子:
#define SIMD_INLINE inline __attribute__ ((always_inline))
static SIMD_INLINE __m256i
x_mm256_transpose4x64_epi64(__m256i a)
{
return _mm256_permute4x64_epi64(a, _MM_SHUFFLE(3,1,2,0));
}
这是我能想到的最有效的解决方法,没有 avx2(使用 3 个 avx 指令):
static SIMD_INLINE __m256i
x_mm256_transpose4x64_epi64(__m256i a)
{
__m256d in, x1, x2;
// in = Hh Hl Lh Ll
in = _mm256_castsi256_pd(a);
// only lower 4 bit are used
// in = Hh Hl Lh Ll
// 0 1 0 1 = (0,0,1,1)
// x1 = Hl Hh Ll Lh
x1 = _mm256_permute_pd(in, _MM_SHUFFLE(0,0,1,1));
// all 8 bit are used
// x1 = Hl Hh Ll Lh
// 0 0 1 1
// x2 = Ll Lh Hl Hh
x2 = _mm256_permute2f128_pd(x1, x1, _MM_SHUFFLE(0,0,1,1));
// only lower 4 bit are used
// in = Hh Hl Lh Ll
// x2 = Ll Lh Hl Hh
// 0 1 1 0 = (0,0,1,2)
// ret: Hh Lh Hl Ll
return _mm256_castpd_si256(_mm256_blend_pd(in, x2, _MM_SHUFFLE(0,0,1,2)));
}
问题是大多数 avx swizzle 操作(例如解包)都在 128 位 channel 上运行,并且不会跨越 channel 边界。
任何人都可以制定更有效的实现方案吗?非常感谢!
最佳答案
我认为 3 条指令是你能做的最好的事情。 _mm256_blend_pd
非常便宜(如 vblendps
和 vpblendd
),在 SnB/IvB 中的 2 个端口上运行,以及 Haswell 中的所有 3 个向量执行端口之后。 (即与向量 XOR 或 AND 一样便宜。)另外两个都需要随机播放端口,这是不可避免的。
当 vblendpd 将其数据从 FP 域转发到整数指令时,SnB 系列 CPU 上将出现 1 个周期的旁路延迟。尽管使用 AVX1,但没有任何 256b 整数指令可转发。
(来源:参见 Agner Fog 的 insn 表,链接自 x86 标签 wiki。他的优化装配指南也有一些不错的洗牌表,但不关注 AVX/AVX2 的车道内挑战。)
<小时/>这种模式几乎可以通过两条指令实现,但不完全是。
vshufpd
(_mm256_shuffle_pd
)为您提供 channel 内 2 源洗牌,但对数据移动有限制。与原始 SSE2 版本一样,每个目标元素只能来自固定的源元素。 8 位立即数有空间对四个源元素中的两个选择进行编码,但它们使硬件保持简单,并且仅对每个目标元素使用 1 位选择器。 256b 版本确实允许每个 128b channel 进行不同的洗牌,因此 imm8 的 4 位对于 vpshufd ymm
很重要。
无论如何,由于上车道需要从原始向量中获取其高位元素,而下车道需要从 perm128 向量中获取其高位元素,因此 src1、src2 排序的选择都无法满足我们的需要。
<小时/>vshufpd
我认为编码比 vpermilpd imm8
短一个字节。 vpermilps
/vpermilpd
直接形式的唯一用例似乎是加载和洗牌。 (vshufpd
仅当两个源操作数相同时才可用作完整的 channel 内洗牌)。 IDK 如果 vpermildp
可能会使用更少的能源或其他东西,因为它只有一个来源。
当然,编译器可以使用他们想要的任何指令来完成工作;他们可以使用内在函数优化代码,就像使用 + 运算符优化代码一样(它并不总是编译为 add 指令)。 Clang 实际上基本上忽略了使用内在函数进行指令选择的尝试,因为它以自己的内部格式表示洗牌,并对其进行优化。
关于avx - 仅使用 avx 而不是 avx2 转置 64 位元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37807595/
我已经在标准 WPF 控件中实现了一个报告,并且还实现了一个 DocumentPaginator获取这些控件并将它们转换为用于打印的文档。 我还实现了一些使用文档分页器将页面呈现为图像并使用 PDFS
在 C# 中,我有以下代码: public static string GetHashCode(string p) { var a = new SHA256Managed();
您好,我正在尝试在编码后将我的 mysqli 数据库输出到一个 js 文件,我用 json_encode 对其进行编码没有任何问题,但是如何将其放入 js 文件中(每次更新时更新) mysqli数据已
我需要将 select 从 JS 传递到 HTML。 select 应该包含来自 PHP 的 option。 所以,首先我有一个 HTML div,我将在其中添加来自 JS 的内容。
我有一个相当大且复杂的 SVG 代码,它根据页面信息使用 JavaScript 和 jQuery 动态生成。 然后我有一个 AJAX 帖子保存。 我无法将其转换为正确发布图像数据? var canva
我想将我的本地日期 ([NSDate date]) 转换为 GMT 以创建一个 JSON 字符串 (/Date(1324435876019-0000)/)。 当我将时钟设置为 EST 时区时,我的代码
1. 原始单据与实体之间的关系 可以是一对1、一对多、多对多的关系。在一般情况下,它们是一对一的关系:即一张原始单据对应且只对应一个实体。在特殊情况下,它们可能是一对多或多对一的关系,即一张原
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界. 这篇CFSDN的博客文章服务器五大相关基础知识【转】由作者收集整理,如果你对这篇文章有兴趣,记得
Google Apps 脚本 - Gmail 是否会实现 GmailMessage (GmailThread) .getAsPdf() 方法?预期输出与 Gmail 中可用的打印为 PDF 的输出相同
有一个需求是要在一个云监控的状态值中存储多个状态(包括可同时存在的各种异常、警告状态)使用了位运算机制在一个int型中存储。 现在监控日志数据量非常大(亿级别)需要对数据按每小时、每天进行聚合,供
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界. 这篇CFSDN的博客文章1张图看懂RAID功能,6张图教会配置服务器【转】由作者收集整理,如果你
我正在使用 FFMPeg(版本 ffmpeg-20170330-ad7aff0-win64-static)将 RTSP 转换为 .m3u8。 命令是: ffmpeg -rtsp_transport t
我有一个 JTree使用 DefaultTreeModel 的对象作为模型,我添加/删除与该模型相关的节点。 此时,我需要在图形界面中显示树结构,例如 JPanel .如何映射 DefaultTree
我当前正在接收一个文件并将其存储到 NSString 中。然后,我从字符串中创建一个数组并将其呈现在 TableView 中。这在一定程度上有效。我目前收到的数据如下: 公司名称|帐户代码\r\n公司
我需要创建 NSImage cocoa 对象的 base64 字符串表示形式。处理这个问题的最佳方法是什么,苹果文档似乎在这个主题上有点短(或者我只是找不到它)。 Base64 编码从外面看起来相当复
JS 中的 .toISOString() 函数给我这样的字符串: 2015-06-14T20:00:00:000Z 我需要它是这样的: 2015-06-14T20:00:00Z JS 中是否有其他函数
我正在尝试使用 JavaScript 转换 COLORREF: COLORREF : When specifying an explicit RGB color, the COLORREF value
我在这里遇到了这个代码的问题,只是想制作一个小计算器: 打包申请; import javafx.event.ActionEvent; import javafx.scene.control.TextF
我想要做的是能够通过本地PC上的USS通过sshfs挂载主机上的一些文件。我可以做到这一点,但 sshfs 不能直接完成从 EBCDIC 到 ascii/unicode 的转换。有没有我可以设置的标志
我正在尝试在 python 中将一堆 Visio 文件转换为 pdf。我已经引用了这个.doc to pdf using python并编写了以下代码: import comtypes.client
我是一名优秀的程序员,十分优秀!