- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在使用以下代码在 SSE 和 AVX 中编写矩阵 vector 乘法:
for(size_t i=0;i<M;i++) {
size_t index = i*N;
__m128 a, x, r1;
__m128 sum = _mm_setzero_ps();
for(size_t j=0;j<N;j+=4,index+=4) {
a = _mm_load_ps(&A[index]);
x = _mm_load_ps(&X[j]);
r1 = _mm_mul_ps(a,x);
sum = _mm_add_ps(r1,sum);
}
sum = _mm_hadd_ps(sum,sum);
sum = _mm_hadd_ps(sum,sum);
_mm_store_ss(&C[i],sum);
}
我对 AVX 使用了类似的方法,但是最后,由于 AVX 没有与 _mm_store_ss()
等效的指令,我使用了:
_mm_store_ss(&C[i],_mm256_castps256_ps128(sum));
SSE 代码比串行代码提速 3.7。然而,AVX 代码只比串行代码快了 4.3。
我知道将 SSE 与 AVX 一起使用会导致问题,但我使用 g++ 使用 -mavx' 标志编译它,这应该会删除 SSE 操作码。
我也可以使用:_mm256_storeu_ps(&C[i],sum)
来做同样的事情,但加速是一样的。
关于我还可以做些什么来提高性能的任何见解?是否与:performance_memory_bound有关? ,尽管我没有清楚地理解该线程上的答案。
此外,即使包含“immintrin.h”头文件,我也无法使用 _mm_fmadd_ps() 指令。我同时启用了 FMA 和 AVX。
最佳答案
我建议您重新考虑您的算法。查看讨论 Efficient 4x4 matrix vector multiplication with SSE: horizontal add and dot product - what's the point?
您正在执行一个长点积并在每次迭代中使用 _mm_hadd_ps
。相反,您应该使用 SSE 一次执行四个点积(使用 AVX 一次执行八个)并且只使用垂直运算符。
您需要加法、乘法和广播。这一切都可以在 SSE 中使用 _mm_add_ps
、_mm_mul_ps
和 _mm_shuffle_ps
(用于广播)完成。
如果您已经有了矩阵的转置,这就非常简单了。
但是无论你有没有转置,你都需要让你的代码对缓存更友好。为了解决这个问题,我建议对矩阵进行循环平铺。请参阅此讨论 What is the fastest way to transpose a matrix in C++?了解如何进行循环平铺。
在尝试 SSE/AVX 之前,我会先尝试让循环平铺正确。我在矩阵乘法中获得的最大提升不是来自 SIMD 或线程,而是来自循环平铺。我认为如果您正确使用缓存,您的 AVX 代码与 SSE 相比也会执行得更线性。
关于c++ - AVX 中的矩阵向量乘法并不按比例比 SSE 中快,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19806222/
所以基本上我有一个导航栏,我只想有一定的宽度。它有 4 个元素,我希望它正好是这些元素的宽度。这是它在我的工作计算机上的样子。 这正是我想要的样子。导航栏在最后一个元素的末尾完美结束,并且居中。我自己
如何将多个过滤器链接到一个视频中? 基本上 - 我有一个叠加图像(透明 gif),想要将它居中,并为 gif 应用 30% 的不透明度。这就是我所拥有的: ffmpeg -i inputmovie.m
我正在使用此命令对视频进行编码 $transcode = FFMPEG_BINARY.' -loglevel panic -y -i "'.$files['original'].'" -vf scal
我正在使用 Laravel 网站,包括 照片滑动 . 这是我的问题:当我单击照片时,它会以预定义的高度和宽度(在我的情况下为 764X480)弹出。我希望我的照片以原始比例打开,而不是预定义的(因为我
假设我想计算每个组中不同值的比例。例如,使用 mtcars 数据,如何计算 am 的齿轮数量的相对频率(自动/手动)用 dplyr 一次性完成? library(dplyr) data(mtcars)
我用一个非常小的标记散点图数据点(见下面的屏幕截图)。当我使用非常小的标记 ',' 时,图例很难阅读(示例代码取自 here )。 (Python 3,Jupyter 实验室) 如何增加图例中标记的大
我有这个数据框: o d r kz p 1 3 1 5 NaN 1 3 2 0 NaN 1 10 1 7 NaN 1 10 3 1
我对 R 很陌生,所以如果我的问题中有不清楚的地方,请耐心等待。 我有一个 data.frame “蛋白质”有5列,即; 1.protein_name, 2.protein_FC, 3.protein
我有一个带有 webgl 的 Canvas 。我初始化 webgl,创建一个片段和一个顶点着色器、两个覆盖整体的三 Angular 形和一个纹理。 const vertexShaderSource =
我想找到包括旋转,比例和位置的匹配模板。但是cvMatchTemplate没有提供这些详细信息,它仅检测位置。 我看过使用棋盘的例子。但是我想用自定义图像实现相同的示例。 感谢帮助。 问候 最佳答案
我正在尝试制作像欧洲体育应用程序中那样的侧边栏菜单!当菜单从左侧滑动时,sourceviewcontroller 向左滑动并变小。 var percentWidthOfContainer = cont
https://stackblitz.com/edit/js-meta-viewport 在 Chrome 调试器中,当我点击“可以缩放”但无法在移动设备 (Nexus 5 (Chrome 70))
针对一台设备进行优化后, ImageView 会按照布局中定义的正确比例显示。然而,如何才能更进一步,使各种 ImageView 在不同设备上缩放? android:layout_width="fil
我正在尝试创建一个具有两个 View 的 View Controller ,其中一个实际上是自定义 TableView ,如下所示: 是否可以添加某种比例约束,以便在所有设备和所有方向上,上 View
我正在使用 PhoneGap 为 Android 开发。下面你可以看到我的代码,我不能做的是在用户更改比例后将 WebView 比例重置为 1。 The reset code should be im
我有一个涉及大量图像的元素。 问题是每个图像都有不同的分辨率(高度/宽度)。它从 200x600 之类的小图像变成了 3000x5000 大声笑。 我正在尝试找到一种方法将所有图像的大小减小到 (MA
我想在运行时设置视口(viewport)比例 - 移动浏览器是否应该在设置后立即应用更改?这就是我正在尝试的: var scale = 2.0; var viewport = document.get
我在 paperjs 中有一个圆形和一个矩形对象。现在我想制作动画。在该动画中,圆圈上升并且矩形必须在圆圈之后(在圆圈底部)增长。我在这里有一个例子(不是我想要的那样工作) example 代码: v
对不起,我不能给标题带来完美的含义。您可以在 http://dainielhhong.com/page1.html 测试代码 无论屏幕大小如何,我都想使 crack 和 box fit。 它适合我的显
我是 D3 v3 的新手,正在学习一些有关基本线性和序数尺度的教程。我正在修改教程中的一段代码。我想让颜色根据窗口的大小显示和缩放。如果有更多数据,那么它应该再次均匀分布以容纳所有数据。 var da
我是一名优秀的程序员,十分优秀!