- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
这是一个教科书问题,涉及重写一些 C 代码以使其在给定的处理器架构上表现最佳。
给定:针对具有 4 个加法器和 2 个乘法器单元的单个超标量处理器。
输入结构(在别处初始化):
struct s {
short a;
unsigned v;
short b;
} input[100];
这是对这些数据进行操作的例程。显然必须确保正确性,但目标是优化其中的废话。
int compute(int x, int *r, int *q, int *p) {
int i;
for(i = 0; i < 100; i++) {
*r *= input[i].v + x;
*p = input[i].v;
*q += input[i].a + input[i].v + input[i].b;
}
return i;
}
所以这个方法有 3 个算术指令来更新整数 r、q、p。
这是我尝试用评论来解释我的想法:
//Use temp variables so we don't keep using loads and stores for mem accesses;
//hopefully the temps will just be kept in the register file
int r_temp = *r;
int q_temp = *q;
for (i=0;i<99;i = i+2) {
int data1 = input[i];
int data2 = input[i+1]; //going to try partially unrolling loop
int a1 = data1.a;
int a2 = data2.a;
int b1 = data1.b;
int b2 = data2.b;
int v1 = data1.v;
int v2 = data2.v;
//I will use brackets to make my intention clear the order of operations I was planning
//with respect to the functional (adder, mul) units available
//This is calculating the next iteration's new q value
//from q += v1 + a1 + b1, or q(new)=q(old)+v1+a1+b1
q_temp = ((v1+q1)+(a1+b1)) + ((a2+b2)+v2);
//For the first step I am trying to use a max of 3 adders in parallel,
//saving one to start the next computation
//This is calculating next iter's new r value
//from r *= v1 + x, or r(new) = r(old)*(v1+x)
r_temp = ((r_temp*v1) + (r_temp*x)) + (v2+x);
}
//Because i will end on i=98 and I only unrolled by 2, I don't need to
//worry about final few values because there will be none
*p = input[99].v; //Why it's in the loop I don't understand, this should be correct
*r = r_temp;
*q = q_temp;
好的,那么我的解决方案给了我什么?查看旧代码,i 的每个循环迭代将采用 max((1A + 1M),(3A)) 的最小延迟,其中前一个值用于计算新的 r,而 3 Adds 的延迟用于 q。
在我的解决方案中,我展开 2 并尝试计算 r 和 q 的第二个新值。假设加法器/乘法器的延迟是 M = c*A(c 是某个 > 1 的整数),r 的乘法运算绝对是速率限制步骤,所以我关注它。我尝试尽可能多地并行使用乘法器。
在我的代码中,首先并行使用 2 个乘法器来帮助计算中间步骤,然后加法必须将这些相结合,然后最后的乘法用于获得最后的结果。因此,对于 r 的 2 个新值(即使我只保留/关心最后一个),它需要我 (1M//1M//1A) + 1A + 1M,总延迟为 2M + 1M。除以 2,我的每个循环的延迟值为 1M + 0.5A。我计算原始延迟/值(对于 r)为 1A + 1M。因此,如果我的代码是正确的(我都是手工完成的,还没有测试过!),那么我的性能会有小幅提升。
此外,希望通过不直接在循环中访问和更新指针(主要感谢临时变量 r_temp 和 q_temp),我节省了一些加载/存储延迟。
这就是我的尝试。绝对有兴趣看看其他人提出的更好的东西!
最佳答案
是的,可以利用两条空头。重新排列你的结构
struct s {
unsigned v;
short a;
short b;
} input[100];
并且您可能能够更好地对齐架构上的内存字段,这可能会允许更多这些结构位于同一内存页面中,这可能会让您遇到更少的内存页面错误。
这都是推测性的,这就是分析如此重要的原因。
如果您拥有正确的架构,重新排列会给您带来更好的效果 data structure alignment,这导致内存中更高的数据密度,因为更少的位丢失到必要的填充以确保类型与常见内存架构强加的数据边界对齐。
关于c - 优化重写以下C代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12375709/
这个问题在这里已经有了答案: standalone parentheses in javascript [duplicate] (5 个答案) 关闭 8 年前。 我在学习JavaScript,有时会
我是mysql新手,我必须减少以下更新查询的执行时间 UPDATE temp_countcalculations, ( SELECT count(*) as insuffcounts,CRP_
def escape_html(s): for (i, o) in (("&","&"),(">", ">"),(" "变成 ">"等。 关于python - 以下 for 循环
if (read(read(cin, data1), data2)) 问题是C++ Primer 5th Edition 的练习。 read 函数定义如下: std::istream &read(st
我想创建两个宏。其中一个将扩展到函数原型(prototype)和函数内容,另一个将扩展到仅函数原型(prototype)。我正在考虑创建以下内容: #ifdef SOME_CONDITION #def
我正在使用 jongo API - org.jongo.MongoCollection 是类。 我有对象 ID 列表并转换为与 ObjectId[] 相同并尝试按如下方式查询 collection.f
有人可以解释以下正则表达式匹配什么吗? ^.*$ 谢谢! 最佳答案 或者整个字符串或者整行,取决于是否multiline mode被使用。 关于java - 以下 ^.*$ 正则表达式匹配什么?,我们
#include void main() { int a,b,c; for(b = c = 10; a = "- FIGURE?, UMKC,XYZHello Folks,TFy!QJ
我的代码段中的以下代码行被 Sonar 检测为问题。 代码段: final int Pending=1; Sonar 问题: Name 'Pending' must matc
Print name of all activities with neither maximum nor minimum number of participants 我尝试了以下查询,但出现错误:
这个问题在这里已经有了答案: What is this practice called in JavaScript? (7 个回答) 关闭8年前。 (function() { //do stuff
根据任务,我们必须通过 foldr 实现 foldl。通过比较函数签名和 foldl 实现,我得到了以下解决方案: myFoldl :: (a -> b -> a) -> a -> [b] -> a
这个问题在这里已经有了答案: Export an es6 default class inline with definition or at end of file? (1 个回答) 关闭 2 年
据我了解,以下是相同的: Person p{}; // Case 1 Person p = {}; // Case 1.5 我注意到 Person p = Person{}; // Case 2 产生
below i have given a javascript code picture `` can any one help me in this code. what do this code.
我想在标题和正文上搜索全文,并在答案计数上进行过滤。 我阅读了elasticsearch documentation for combining filters并构建了此查询。 "query": {
它是流动的 C 代码中的内存泄漏吗? #include int *a; int main() { a = malloc(sizeof(int)*10); return
这两个声明有什么区别: char (*ptr)[N]; 对比 char ptr[][N]; 谢谢。 最佳答案 (1)声明 char (*ptr)[N]; ptr 是指向大小为 N 的字符数组的指针 下
data II = I Int Int deriving (Show) instance II Show where show I a b = show (a+b) showt.hs:3:2: s
我从 clojuredoc 中阅读了关于 condp 的文档。在文档中我找到了以下代码: (condp 一些 [1 2 3 4] #{0 6 7} :>> 公司 #{4 5 9} :>> 十二月 #{
我是一名优秀的程序员,十分优秀!