c++ - 英特尔 SIMD : why is inplace multiplication so slow?-6ren

c++ - 英特尔 SIMD : why is inplace multiplication so slow?

转载作者：太空狗更新时间：2023-10-29 20:20:08

27

4

我已经编写了一些 vector 方法，这些方法可以就地或复制进行简单的数学运算，并且对就地变体具有相同的惩罚。

最简单的可以归结为如下内容:

void scale(float* dst, const float* src, int count, float factor)
{
    __m128 factorV = _mm_set1_ps(factorV);

    for(int i = 0; i < count; i+= 4)
    {
        __m128 in = _mm_load_ps(src);
        in = _mm_mul_ps(in, factorV);
        _mm_store_ps(dst, in);

        dst += 4;
        src += 4;
    }
}

测试代码:

for(int i = 0; i < 1000000; i++)
{
    scale(alignedMemPtrDst, alignedMemPtrSrc, 256, randomFloatAbsRange1);
}

测试时，即在SAME buffer上反复运行这个函数，发现如果dst和src相同，速度是一样的。如果它们不同，它的速度大约快 70 倍。写入时燃烧的主要周期(即 _mm_store_ps)

有趣的是，相同的行为并不适用于加法，即 += 工作得很好，只有 *= 是一个问题..

--

这已在评论中得到解答。人工测试时异常。

最佳答案

您的因素是否产生低于正常的结果？非零但小于 FLT_MIN？如果在此之外有一个循环在同一个 block 上重复就地循环，数字可能会变得足够小，需要缓慢的 FP 辅助。

(Turns out, yes 这是 OP 的问题)。

重复就地乘法使数字越来越小，因子低于 1.0。复制和缩放到不同的缓冲区每次都使用相同的输入。

生成 +-Inf 或 NaN 结果不需要额外的时间，但至少在 Intel CPU 上它会逐渐下溢到次正常。这就是 -ffast-math 设置 DAZ/FTZ - 下溢清零的原因之一。

我想我读过 AMD 没有对次正规的 FP 辅助微编码处理，但 Intel 有。

fp_assist.any 的 Intel CPU 上有一个性能计数器，它会在次正常结果需要额外的微代码微指令来处理特殊情况时计数。 (我认为它与前端和 OoO 执行人员一样具有侵入性。不过它肯定很慢。)

Why denormalized floats are so much slower than other floats, from hardware architecture viewpoint?

Why is icc generating weird assembly for a simple main? (展示了 ICC 如何在 main 的开头设置 FTZ/DAZ，这是默认的快速数学设置。)

关于c++ - 英特尔 SIMD : why is inplace multiplication so slow?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53507874/

27

4

0

文章推荐： c# - 从另一个项目加载文件

文章推荐： python - 如何合并 Pandas 中的两个数据框以替换nan

文章推荐： c# - 使用原始 sql 查询加载导航属性

文章推荐： c# - NamedScope 和垃圾回收

jquery - 从文件输入中获取文件名或文本 multiple=multiple
我正在尝试设计我的输入:文件。以下 SO 问题让我完成了 95% 的任务。区别在于我使用的是 HTML5 multiple=multiple 属性。 How to style "input file"
Python Pandas : Store multiple time series of variable length for multiple attributes for multiple users
我一直在进行一项实验，其中多个调查参与者使用可穿戴技术聆听多首音乐来跟踪多条信息，两个例子是 BPM(心率)和 T(体温)。目标是衡量每首音乐(以用户反馈为特征)对人类情感的影响。目前，所有数据都
PHP : multiple inputs into other multiple inputs
我使用 jquery 添加/删除输入我使用append为日期/收入添加多个Tr 我还使用另一个附加来添加多个 td 以获取同一日期 Tr 中的收入我添加多个日期输入，并在此表中添加多个收入输入我
安卓工作室 : Multiple APKs for Multiple Modules
在 Android 中，有一种方法可以为项目中的所有模块生成签名的 APK。例如。我有以下项目 Project -- Library Module -- Module 1 -- Modul
mysql - 数据库设计: How to query multiple to multiple table
我有一个用于网站展示的系统。展览数据可能来自差异表中的多个数据。喜欢这个设计: Table [ExhibitionType] used for differentiate category. Ta
ios - 什么是最佳实践 : Multiple UIViews or Multiple UIViewControllers
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
iOS : Handle multiple uilocalnotification with multiple same viewcontroller
我正在使用 UILocalnotification...收到通知时，当应用程序处于事件模式时我打开 viewcontroller...但是如果同时收到多个通知...我如何打开多个 viewcontro
PHP/MySQL : UPDATE multiples values with multiples WHERE
我遇到的问题是一个策略浏览器游戏，它有 7 种类型的值。问题如下: 我在 $_POST 中获得了 7 个不同的值，包括从索引 unit_1 到索引 unit_7。这 7 个值是 0 到 20 之间的整
python : How to search for multiple paterns in multiple files
这个问题已经有答案了: Search Large Text File for Thousands of strings (3 个回答) 已关闭10 年前。我想在多个文件上“grep”多个正则表达式。
javascript - 大型数据集的单个 + SQL 查询搜索
我正在尝试根据进行搜索我通过运行代码从 select 中获取值: for($i=0;$i= '$age_from' AND users.user_age = '$age_from' AND u

首页

博学

6Ren·AI

商城

c++ - 英特尔 SIMD : why is inplace multiplication so slow?