- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
这是一个对整数 vector 求和的基本函数。当使用具有第三级优化 (-O3) 的 gcc 编译时,我可以达到 CPE 0.51,这是我们可以获得的最大值。
int sum_basic(int a[], long n)
{
int acc = 0;
for (long i = 0; i < n; i++) {
acc += a[i];
}
return acc;
}
这是此函数的优化版本,它应用4x4 循环展开。我能得到的最好结果是 CPE 0.84。我尝试了其他类型的优化,但无法接近 CPE 0.51。使用整数乘法我可以击败 gcc,使用浮点运算我也可以达到最佳性能,而 gcc 不能。但是整数加法 gcc 打败了我。有什么问题?
int sum_optimized(int a[], long n) {
int acc1 = 0;
int acc2 = 0;
int acc3 = 0;
int acc4 = 0;
for (long i = 0; i < n; i+=4) {
acc1 += a[i];
acc2 += a[i+1];
acc3 += a[i+2];
acc4 += a[i+3];
}
return acc1 + acc2 + acc3 + acc4;
}
我使用此代码来衡量 CPE:
// get CPU cycle counter
static __inline__ unsigned long long rdtsc(void)
{
unsigned hi, lo;
__asm__ __volatile__ ("rdtsc" : "=a"(lo), "=d"(hi));
return ( (unsigned long long)lo)|( ((unsigned long long)hi)<<32 );
}
#define SIZE 10000
int a[SIZE];
int main(void)
{
// cache warm up + initialize array
for (long i = 0; i < SIZE; i++)
a[i] = rand();
long r_begin = rdtsc();
//---------- MEASURE THIS ------------
int res = sum_optimized(a, SIZE);
//------------------------------------
long r_end = rdtsc();
long cycles = r_end - r_begin;
double cpe = cycles / (double)SIZE;
printf("CPE: %.2f \n", cpe);
return res;
}
最佳答案
TL:DR:这可能是一个已知的优化错误错误(gcc 不对带符号的整数进行关联数学优化),再加上普通的老式编译器实际上并不是人工智能并且生成的代码很慢。
首先,RDTSC 测量挂钟时间,不一定是核心时钟周期。使用性能计数器测量微基准测试中的核心时钟周期,这样您就不必担心 CPU 频率缩放。 (除非您的微基准测试涉及 L2 缓存未命中,因为以纳秒为单位的相同时间是更高频率下更多的时钟周期。即高频意味着缓存未命中造成的伤害更大,并且主内存带宽以每个周期的字节数计更低。)
gcc 5.3(没有 -march=nehalem
或 -mtune=haswell
或任何东西)将基本版本自动矢量化为其通常选择的标量,直到对齐边界,然后是向量化的内循环:
# gcc5.3 -O3 -fverbose-asm (-mtune=generic; only SSE2 because no -march used)
sum_basic:
... scalar prologue
.L14: ### inner loop
add rdx, 1 # ivtmp.39,
paddd xmm0, XMMWORD PTR [r9] # vect_acc_10.34, MEM[base: _156, offset: 0B]
add r9, 16 # ivtmp.40,
cmp r8, rdx # bnd.28, ivtmp.39
ja .L14 #,
... horizontal sum and scalar epilogue
所以,愚蠢的 gcc,保留两个独立的循环计数器,而不是仅仅检查 r9
是否到达 a+n
。或者至少使用 dec rdx/jnz
循环以避免 cmp
。但是不,所以循环有 4 个融合域微指令,它们都需要一个 ALU 端口。因此它可以在 Intel Core2 及更高版本上每个时钟迭代一次,但在 Haswell 及更高版本(添加了第 4 个 ALU 端口)上每个时钟只能执行一次迭代。
在 SnB 及更高版本上,具有两个 vector ALU 的展开将使小型阵列的吞吐量翻倍,因为 PADDD
具有一个周期延迟,但每个周期吞吐量有两个(或三个),负载也是如此.在更大的阵列上,您仍然只是内存带宽的瓶颈。
当您手动展开 4 个累加器时,gcc 决定保留这些语义,并且只在内部循环中使用未对齐的加载。不幸的是,gcc 5.3 最终做得非常糟糕:
# gcc5.3 -O3 -fverbose-asm (-mtune=generic, same lack of enabling SSE4/AVX/AVX2)
sum_optimized:
zero xmm0 and some other minor setup
.L3:
mov rdx, rax
add rax, 1
sal rdx, 4 # what the hell gcc? just add 16 instead of copying and shifting a separate instructions. Even if it takes two loop counters like in the basic version.
cmp rcx, rax # cmp not next to ja, can't macro-fuse. (-mtune=haswell fixes this)
movdqu xmm1, XMMWORD PTR [rdi+rdx] # separate load, not folded into paddd because it's unaligned.
paddd xmm0, xmm1
ja .L3
...
A hilarious horizontal sum that uses MOVD on each element separately and sums with scalar integer ops. (With -march=nehalem, it uses PEXTRD)
这是 Intel Nehalem 及更高版本上的 7 个融合域微指令。在 Core2 上,它是 9 uops IIRC。在 Nehalem 之前,movdqu 是多个 uops,运行速度比 movdqa 慢,即使数据在运行时对齐也是如此。
无论如何,假设 Nehalem 或更高版本,这可以每 2 个周期迭代一次,这就是瓶颈。执行每 2 个周期最多可以处理 6 个 ALU 微指令。即使指针未对齐,也不应再减慢它的速度,因为 gcc 的代码已经很慢了。
我的理论是,这是因为 gcc 中一个已知的未优化错误:以不同的顺序添加数字会导致溢出。多亏了 2 的补码,一切最终都会成功,但 gcc 不知道如何利用它。 C 中的有符号溢出是未定义的行为,但在 x86 上不是。
理查德·比纳 (Richard Biener) 对 my gcc bug report about gcc not doing associative-math optimizations on signed-int a+b+c+d+e+f+g+h
的回应,他说:
It's a long-standing issue that reassoc doesn't associate ! TYPE_OVERFLOW_WRAPS chains.It's a long-standing issue that reassoc doesn't associate ! TYPE_OVERFLOW_WRAPS chains. It could do that to a limited extent (only cancelling ops that don't affect overflow) or fully if it re-writes the operation to unsigned arithmetic at commit time. Some way of detecting desired vs. just canonicalization transforms is required to avoid rewriting all signed integer ops into unsigned (well, maybe it's not that bad actually, who knows).
两个版本使用的水平求和算法为这一理论提供了一些分量:sum_basic 使用正常的向下移动高半和 vector 相加。 sum_optimized 分别提取每个 vector 元素。
使用 -march=native
编译,尤其是当您的 CPU 支持 AVX2 时。
正如我之前提到的,多个 vector 累加器可以在 Intel SnB 系列或 AMD K10 或更高版本上为您提供两个负载和每个时钟的两个 128 或 256b vector 加法. (IIRC,AMD K8 可以每个时钟执行两次加载,但没有 128b 宽的执行单元。)
与往常一样,在什么硬件上运行微基准测试以及阵列大小很重要!
关于c - 为什么我无法通过整数加法获得最佳性能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39308701/
我正在尝试将父 div 标记的最小宽度设置为内部所有子项的等效宽度。有办法吗? 例如, #sidebar{ width: 325px; } #content{ width: 500
我正在其中一个脚本中做一些附加操作,下面是一些简化的代码: foreach($entry in $arr){ ... switch($entry.AccessRights) { "GenericRea
float 在我的 Java/JOGL (OpenGL for Java) 程序中没有按预期计算。在绘制方法中,当调用每一帧(每秒 60 帧)时,我尝试修改对象的位置。所有值都是浮点值。 float
我正在尝试使用 C 中的结构为一个项目进行复杂的 vector 加法和点积。我已经编写了代码,但是,虽然它的编译没有问题,但一旦我运行我的程序,它就会停止工作。我还有该程序的其他部分,但这只是相关部分
这个问题已经有答案了: Use of java.math.MathContext (5 个回答) 已关闭 8 年前。 首先,我的搜索能力可能没有我希望的那么好,所以也许这种问题已经存在了。如果是的话请
PFB 说明问题的示例代码片段: var x=0.323; var cumulativeVal = 0; for(i=0;i<30;i++){
这个查询的每一步在 PostgreSQL 中的执行顺序是什么? SELECT SUM(field1)+SUM(field2)+SUM(field3)-SUM(field4); 据我所知,加法/减法是按
我正在尝试熟悉 Java 多线程应用程序。我试图想出一个可以很好地并行化的简单应用程序。我认为 vector 加法是一个很好的应用。但是,在我的 Linux 服务器(有 4 个内核)上运行时,我没有得
我在进行简单的加法并将值保存在变量中时遇到问题。 基本上我有以下代码: var accsen; var lowsev = parseInt(accsen); var hisev
所以我最近几个小时一直在解决一个问题,似乎无法阻止我的程序崩溃。问题是创建一个程序,该程序采用任意大小的矩阵,并且能够使用运算符重载将一个矩阵加到另一个矩阵上。当我尝试添加我类(class)的两个对象
我正在尝试添加以下内容,但它一直连接并返回一个字符串。 var nums = [1.99, 5.11, 2.99]; var total = 0; nums.forEach(f
我在网上搜索了数据仓库中加法、半加法和非加法度量之间的区别。我找到了一些结果,但我很难理解这些差异,因为它们不是一个例子。您能否通过示例向我更多地解释加法、半加法和非加法措施之间的区别。 最佳答案 T
%{control.current + #displayRows} 最终是我需要执行的语句。我将其放在 s:if 标记中,并使用 test 来查看该值是否在特定范围内。 最终,我得到的是字符串连接而不
请帮助我解释为什么下面的代码会得到奇怪的输出......为什么 getName() 得到 null。 输出: 列表检查:null:1 public class ListTest { public st
我需要通过字典生成校验和。键和值。 是否有任何简单的方法以迭代方式完成此任务。 foreach(dic.Keys 中的变量项) 校验和 += 校验和(dic[item]) + 校验和(item); 在
我想计算平均销售产品数量。表: pieces | date | status ------------------------------------------- 1
我正在尝试从 mysql 获取 INT 值并进行添加,最后更新数据库。不过这个好像没有更新?我该如何解决这个问题? $resultSecond = mysql_query("SELECT * FROM
我遇到了一个奇怪的问题。 有一张图片,我只需要重新计算非零像素。我想通过 numpy 来完成,因为我处理了数千张图像并且我需要它的速度。 这是一个维度较低的简化示例。 假设我有以下矩阵: [[0,
我不确定下一步该做什么。它们只是文本字段中的美元金额。我正在尝试将它们加在一起。 NSString *checkAmount = [checkAmountInput.text substringFro
我正在测试我的一些代码,在 javascript 中我添加了 .1+.2 ,它给了我 .30000000000000004 而不是 .3 。我不明白这一点。但是当我添加 .1+.3 时,它给了我 .4
我是一名优秀的程序员,十分优秀!