- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
首先,在使用 Accelerate 框架调整频率分析函数时,绝对系统时间始终为每次迭代 225 毫秒。然后昨晚我改变了其中两个数组的声明顺序,突然下降到 202 毫秒。仅通过更改申报顺序增加 10% 似乎很疯狂。有人可以向我解释为什么编译器(设置为优化)尚未找到此解决方案吗?
附加信息:在循环之前,循环中使用的数组有一些设置,包括将它们从整数数组转换为 float 组(用于加速),然后获取时间数组的 sin 和 cos(长 16 行)。所有 float 组(8 个数组 x 1000 个元素)首先在函数中声明(在对参数进行完整性检查之后)。它们总是被声明为相同的大小(通过一个常量),因为否则性能会因占用空间的微小收缩而受到影响。我测试了使它们成为全局变量,但我认为编译器已经知道了,因为没有性能变化。循环有 25 行长。
---添加---
是的,“-Os”是标志。 (无论如何 Xcode 中的默认值:最快、最小)
(以下来自内存 - 不要尝试编译它,因为我没有输入步幅(即 1)等内容。但是,所有 Accelerate 调用都在那里)
传递的参数:inttimearray、intamparray、length、scale1、scale2、amp
float trigarray1[maxsize];
float trigarray2[maxsize];
float trigarray3[maxsize];
float trigarray4[maxsize];
float trigarray5[maxsize];
float temparray[maxsize];
float amparray[maxsize]; //these two make the most change
float timearray[maxsize]; //these two make the most change
vDSP_vfltu32(inttimearray,timearray,length); //convert to float array
vDSP_vflt16(intamparray,amparray,length); //convert to float array
vDSP_vsmul(timearray,scale1,temparray,length); //scale time and store in temp
vvcosf(temparray,trigarray3,length); //cos of temparray
vvsinf(temparray,trigarray4,length); //sin of temparray
vDSP_vneg(trigarray4,trigarray5,length); //negative of trigarray4
vDSP_vsmul(timearray,scale2,temparray,length); //scale time and store in temp
vvcosf(temparray,trigarray1,length); //cos of temparray
vvsinf(temprray,trigarray2,length); //sin of temparray
float ysum;
vDSP_sve(amparray,ysum,length); //sum of amparray
float csum, ssum, ccsum, sssum, cssum, ycsum, yssum;
for (i = 0; i<max; i++) {
vDSP_sve(trigarray1,csum,length); //sum of trigarray1
vDSP_sve(trigarray2,ssum,length); //sum of trigarray2
vDSP_svesq(trigarray1,ccsum,length); //sum of trigarray1^2
vDSP_svesq(trigarray2,sssum,length); //sum of trigarray2^2
vDSP_vmul(trigarray1,trigarray2,temparray,length); //temp = trig1*trig2
vDSP_sve(temparray,cssum,length); //sum of temp array
// 2 more sets of the above 2 lines, for the 2 remaining sums
amp[i] = (arithmetic of sums);
//trig identity to increase the sin/cos by a delta frequency
//vmma is a*b+c*d=result
vDSP_vmma (trigarray1,trigarray3,trigarray2,trigarray4,temparray,length);
vDSP_vmma (trigarray2,trigarray3,trigarray1,trigarray5,trigarray2,length);
memcpy(trigarray1,temparray,length*sizeof(float));
}
---当前解决方案---
我做了如下修改:
数组都声明为对齐的,并且归零(我将在接下来解释)并且 maxsize 现在是 16 的倍数
__attribute__ ((align (16))) float timearray[maxsize] = {0};
我已将所有数组置零,因为现在,当长度小于 maxsize 时,我将长度四舍五入到最接近的 16 的倍数,以便所有循环函数都在可被 16 整除的宽度上运行,不影响总和。
好处是:
在未来(可能使用这段代码,因为分析需求仍在不断变化),我意识到我需要更多地考虑堆栈的使用,以及向量的对齐/ block 。不幸的是,对于这段代码,我无法将这些数组设为静态或全局数组,因为该函数一次可以被多个对象调用。
最佳答案
我首先怀疑的是对齐。您可能想尝试:
__attribute__ ((align (16))) float ...[maxsize];
或者确保 maxsize
是 16 的倍数。如果在一种配置中您对齐而在另一种配置中您没有对齐,那肯定会导致 10% 的命中。向量运算可能对此极为敏感。
您可能遇到的下一个主要问题是巨大的堆栈(假设 maxsize
相当大)。 ARM 处理小于 4k 的数字比处理大于 4k 的数字效率高得多(因为它只能处理 12 位立即值)。因此,根据编译器优化它的方式,将 amparray 向下推到堆栈上可能会导致更复杂的数学运算来访问它。
当微小的事情导致性能发生巨大变化时,我总是建议拉起程序集(产品>生成输出>程序集)并查看编译器输出中的变化。我也强烈推荐Whirlwind Tour of ARM Assembly让你开始理解你在看什么。 (确保将输出设置为“用于存档”,以便看到优化结果。)
你还应该做一些更多的事情:
尝试将此例程重写为简单的 C,而不是使用 Accelerate。是的,我知道 Accelerate 总是更快,但事实并非如此。所有这些函数调用都非常昂贵,而且根据我的经验,编译器通常可以更好地矢量化 Accelerate 可以做到的简单乘法和加法。如果您的步幅为 1,您的向量不是很大,并且您使用的是 1-2 核心设备(如 iPad),则尤其如此。一旦你有了处理步幅的代码(如果你不需要步幅),它就会比你手写的代码更复杂(更慢)。根据我的经验,Accelerate 似乎确实非常擅长斜坡和超越数(例如大表的余弦),但在简单的向量和矩阵数学方面却不太擅长。
如果这段代码真的对您很重要,我发现手写程序集绝对可以超过编译器。我什至不太擅长 ARM 汇编程序,而且我已经能够在简单的矩阵数学上以 2 倍的速度击败编译器(并且编译器粉碎了 Accelerate)。我在这里特别谈论你的循环,它似乎只是在做加法和乘法。手写汇编当然很痛苦,然后您必须为汇编器维护一个 C 版本,但在真正重要的时候它真的很快。
关于arrays - 为什么数组声明的顺序对性能影响如此之大?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11902468/
我在覆盖 ReSwift Pod 中的函数时遇到问题。我有以下模拟类(class): import Foundation import Quick import Nimble import RxSwi
我有一个类似于下面的继承结构。我正在采用 Printable 协议(protocol)并努力覆盖 description 属性。我遇到了一个谷歌此时似乎不知道的奇怪错误,提示为第三类,并引用了第二类和
我有一个类“Cat”和 Cat 类的一个子类“DerivedCat”。 Cat 有一个函数 meow(),而 DerivedCat 覆盖了这个函数。 在应用程序中,我声明了一个 Cat 对象: Cat
Kotlin 变量 变量是用于存储数据值的容器。 要创建一个变量,使用 var 或 val,然后使用等号(=)给它赋值: 语法 var 变量名 = 值 val 变量名 = 值 示例 va
C 中的所有标识符在使用前都需要声明,但我找不到它在 C99 标准中表示的位置。 我觉得也是指宏定义,不过定义的只是宏展开顺序。 最佳答案 C99:TC3 6.5.1 §2,脚注 79 明确指出: T
今天我的博客提要显示错误: This page contains the following errors: error on line 2 at column 6: XML declaration
在编写 IIF 语句、表和下面给出的语句时出现错误。 陈述: SELECT IIF(EMP_ID=1,'True','False') from Employee; table : CREATE TAB
我正在创建一个登录 Activity ,我希望它在按下登录按钮时显示进度对话框,我声明、初始化并调用了它,但它没有显示。但是当我在创建时调用进度对话框时,它出现了 这是我的代码: public cla
当我输入声明语句时: Vector distance_vector = new Vector(); 我收到错误(在两种情况下都在“双”下划线): Syntax error on token "doub
我正在本地部署在docker-for-desktop中。这样我将来可以迁移到kubernetes集群。 但是我面临一个问题。使用永久卷时,docker容器/ pod中的目录将被覆盖。 我正在拉最新的S
我有一个 MyObject 类型的对象 obj,我声明了它的实例。 MyObject obj; 但是,我没有初始化它。 MyObject 的类看起来像: public class MyObject {
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 年前。 Improv
这个问题已经有答案了: Android: Issue during Arraylist declaration (1 个回答) 已关闭 9 年前。 有时我会看到 ArrayList 声明如下 Arra
我对java比较陌生,经过大量搜索,我无法将相关问题的任何解决方案与我的解决方案配对。我正在尝试实现一种非常简单的方法来写入/读取数组,但编译器无法识别它。 “键盘”也是一个“无法识别的变量”。这是数
简短:何时分配内存 - 在声明或初始化时? 长整型:int x;将占用与int z = 10;相同的内存。 此外,这对于包含更多数据的自定义对象将如何工作。假设我有这个对象: public class
我需要使用此程序更好地理解函数定义、声明和正确调用。我真的需要了解如何使用它们。您能否向我展示编写此程序的正确方法(所有三个都正确并进行解释)? #include #include quad_eq
这是我的主要功能以及我要传递的内容。 int main(void){ struct can elC[7]; // Create an array of stucts Initiali
我想知道是否有更好的方法来完成此任务; 我有一个对象 - 其中一个属性是字典。我有一组逗号分隔值。我需要过滤 Dictionary 并仅获取 Dictionary 值至少与其中一个值匹配的那些元素 这
下面的using-declarations有什么意义 using eoPop::size; using eoPop::operator[]; using eoPop::back; using eoPo
我的问题更像是一个关于 for 循环样式的好奇问题。在阅读别人的一些旧代码时,我遇到了一种我以前从未见过的风格。 var declaredEarlier = Array for(var i=0, le
我是一名优秀的程序员,十分优秀!