- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个涉及密集型的 C/C++ 程序 32 位浮点 矩阵数学计算,如加法、减法、乘法、除法等。
我可以通过转换 来加速我的程序吗? 32 位浮点 数字变成 16 位定点 数字?我可以获得多少速度增益?
目前我正在研究 Intel I5 CPU。我正在使用 Openblas 来执行矩阵计算。我应该如何重新实现诸如 cblas_dgemm 之类的 Openblas 函数来执行定点计算?
我知道 SSE(Simple SIMD Extensions) 一次操作 4x32=8x16=128 位数据,即 4 个 32 位浮点类型或 8 个 16 位定点类型。我想在从 32 位浮点数转换为 16 位定点数后,我的程序会快两倍。
最佳答案
总结:现代 FPU 硬件很难被定点击败,即使每个向量的元素数量是其两倍。
现代 BLAS 库通常针对缓存性能(具有缓存阻塞/循环平铺)以及指令吞吐量进行了很好的调整。这让他们很难被击败。特别是 DGEMM 为这种优化提供了很大的空间,因为它对 O(N^2) 数据执行 O(N^3) 工作,因此值得只转置一个输入的缓存大小的块,以及类似的东西。
以 16 位半浮点格式存储浮点数可能有助于减少内存瓶颈 .没有硬件支持以这种格式对它们进行数学运算,只有一些指令可以在加载/存储时在该格式和普通 32 位元素浮点向量之间进行转换:VCVTPH2PS ( __m256 _mm256_cvtph_ps(__m128i)
)和 VCVTPS2PH ( __m128i _mm256_cvtps_ph(__m256 m1, const int imm8_rounding_control)
.这两条指令构成了 F16C extension ,首先由 AMD Bulldozer 和 Intel IvyBridge 支持。
IDK,如果有任何 BLAS 库支持该格式。
固定点:
SSE/AVX 没有任何整数除法指令。但是,如果您只除以常量,则可能不需要真正的 div 指令。所以这是定点的一个主要绊脚石。
固定点的另一个很大的缺点是在乘法后移动以纠正小数(二进制?)点的位置的额外成本。这将吞噬每个具有 16 位定点的向量的两倍元素所带来的任何 yield 。
SSE/AVX 实际上有很多打包的 16 位乘法选择(比任何其他元素大小都好)。有压缩乘法产生低半部分,高半部分(有符号或无符号),甚至还有一个从顶部下方的 2 位中取 16 位,并进行舍入( PMULHRSW.html )。 Skylake 以每个时钟两个的速度运行,有 5 个周期的延迟。还有整数乘加指令,但它们在乘法结果对之间进行水平加法。 (参见 Agner Fog's insn tables ,以及 x86 标签维基以获得性能链接。)Haswell 和以前的没有那么多整数向量加法和乘法执行单元。通常是总 uop 吞吐量的代码瓶颈,而不是特定的执行端口。 (但是一个好的 BLAS 库甚至可能已经手动调整了 asm。)
如果您的输入和输出是整数,则使用整数向量通常会更快,而不是转换为浮点数。 (例如,请参阅我对 Scaling byte pixel values (y=ax+b) with SSE2 (as floats)? 的回答,我使用 16 位定点来处理 8 位整数)。
但是,如果您真的在使用浮点数,并且有很多乘法和除法要做,那么只需使用硬件 FPU。它们在现代 CPU 中非常强大,并且已经使定点在许多任务中大多已过时。正如@Iwill 指出的那样,FMA 指令是 FP 吞吐量(有时是延迟)的又一重大提升。
整数加/减/比较指令(但不是乘法)的延迟也低于它们的 FP 对应指令。
关于performance - float vs 定点数 : speed on Intel I5 CPU,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39677723/
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 8年前关闭。 Improve t
暂时忘记能力的定义,只关注能力的“检查”(使用“授权!”),我看到 CanCan 添加了大约 400 毫秒,用于简单地检查用户是否具有特定的能力主题/模型。 这是预期的吗(我假设不是)?或者,有没有可
我正在阅读有关 Swift 的教程 ( http://www.raywenderlich.com/74438/swift-tutorial-a-quick-start ),它预定义为不显式设置类型,因
这主要是由于对 SQL 问题的回答。由于性能原因,有意省略了 UDF 和子查询。我没有包括可靠性并不是说它应该被视为理所当然,但代码必须工作。 性能永远是第一位的吗?提供了许多以性能为主要优先事项的答
我已经编写了一个简单的测试平台来测量三种阶乘实现的性能:基于循环的,非尾递归的和尾递归的。 Surprisingly to me the worst performant was the loop o
我已将 ui-performance 插件应用到我的应用程序中。不幸的是,在开发模式下运行应用程序时它似乎不起作用。例如,我的 javascript 导入是用“vnull”版本呈现的。 例如 不会
我有一个我操作的 F# 引用(我在各处添加对象池以回收经常创建和删除的短期对象)。我想运行结果报价;现在我使用了 F# PowerPack,它提供了将引用转换为表达式树和委托(delegate)的方法
我正在尝试在 Spark 服务器上运行 SparklyR 库中的机器学习算法。 1 个簇 8 核 24G内存 Ubuntu 16.04 星火2.2 独立配置 1名师傅/2名 worker 每个执行器的
我有一个数据库(准确地说是在 postgres 上运行),具有以下结构: user1 (schema) | - cars (table) - airplanes (table, again) .
我的应用程序在我的 iPad 上运行。但它的表现非常糟糕——我的速度低于 15fps。谁能帮我优化一下? 它基本上是一个轮子(派生自 UIView),包含 12 个按钮(派生自 UIControl)。
在完成“Scala 中的函数式编程原则”@coursera 类(class)第 3 周的作业时,我发现当我实现视频类(class)中所示的函数联合时: override def union(tha
我正在重构我的一个 Controller 以使其成为一项服务,我想知道不将整个服务容器注入(inject)我的 Controller 是否会对性能产生影响。 这样效率更高吗: innova.path.
我有一个要显示的内容很大的文件。例如在显示用户配置文件时, 中的每个 EL 表达式需要一个 userId 作为 bean 的参数,该参数取自 session 上下文。我在 xhtml 文件中将这个 u
我非常了解 mipmapping。我不明白(在硬件/驱动程序级别)是 mipmapping 如何提高应用程序的性能(至少这是经常声称的)。在执行片段着色器之前,驱动程序不知道要访问哪个 mipmap
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: What's the (hidden) cost of lazy val? (Scala) Scala 允许定义惰
一些文章建议现在 build() 包含在 perform() 本身中,而其他人则建议当要链接多个操作时使用 build().perform()一起。 最佳答案 build() 包含在 perform(
Postgres docs说 For best optimization results, you should label your functions with the strictest vol
阅读Zero-cost abstractions看着 Introduction to rust: a low-level language with high-level abstractions我尝
我想在 MQ 服务器上部署 SSL,但我想知道我当前的 CPU 容量是否支持 SSL。 (我没有预算增加 CPU 内核和 MQ PVU 的数量) 我的规范: Windows 2003 服务器 SP2,
因此,我在 Chrome 开发者工具 的性能 选项卡内的时间 部分成功地监控了我的 React Native 应用程序的性能。 突然在应用程序的特定重新加载时,Timings 标签丢失。 我已尝试重置
我是一名优秀的程序员,十分优秀!