- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
在某些情况下,人们在编译时就知道一段特定的算法数据是什么样的,因此可能希望将此信息传达给编译器。这个问题是关于如何最好地实现这一目标。
例如,考虑以下稀疏矩阵乘法示例,其中矩阵是常量并且在编译时已知:
matrix = [ 0, 210, 0, 248, 137]
[ 0, 0, 0, 0, 239]
[ 0, 0, 0, 0, 0]
[116, 112, 0, 0, 7]
[ 0, 0, 0, 0, 165]
在这种情况下,可以编写一个完全无分支的实现来实现任意输入 vector 的矩阵 vector 乘法:
#include <stdio.h>
#define ARRAY_SIZE 8
static const int matrix[ARRAY_SIZE] = {210, 248, 137, 239, 116, 112, 7, 165};
static const int input_indices[ARRAY_SIZE] = {1, 3, 4, 4, 0, 1, 4, 4};
static const int output_indices[ARRAY_SIZE] = {0, 0, 0, 1, 3, 3, 3, 4};
static void matrix_multiply(int *input_array, int *output_array)
{
for (int i=0; i<ARRAY_SIZE; ++i){
output_array[output_indices[i]] += (
matrix[i] * input_array[input_indices[i]]);
}
}
int main()
{
int test_input[5] = {36, 220, 212, 122, 39};
int output[5] = {0};
matrix_multiply(test_input, output);
for (int i=0; i<5; ++i){
printf("%d\n", output[i]);
}
}
打印矩阵 vector 乘法的正确结果(81799、9321、0、29089、6435
)。
可以设想进一步的优化,建立在关于引用的内存位置的数据特定知识的基础上。
现在,显然这是一种可以使用的方法,但是当数据量变大时(比如我的情况下大约 100MB),它开始变得笨拙,并且在任何现实世界的情况下都依赖于元编程来生成相关的数据依赖知识。
在数据特定知识中烘焙的一般策略在优化方面是否具有里程数?如果是这样,执行此操作的最佳方法是什么?
在给定的例子中,在一个层面上,整个事情比在运行时设置的数组减少到关于 ARRAY_SIZE
的知识。这让我认为这种方法是有限的(并且实际上是一个数据结构问题),但我很想知道数据派生编译时优化的一般方法是否在任何情况下都有用。
最佳答案
我不认为这是对这个问题的一个很好的答案,但我还是会尝试提供它。它也更像是对相同基本答案的搜索。
我从事 3D VFX 工作,包括光线追踪,在这种情况下,使用不到一秒的数据结构进行相当适度的输入,然后进行大量处理,以至于用户可能需要等待数小时在困难的照明条件下进行高质量的制作渲染。
至少在理论上,如果我们能够进行这些“特定于数据的优化”,这可能会进行得更快。变量可以变成文字常量,可能需要明显更少的分支,已知总是有 45 个元素上限的数据可以分配在堆栈上而不是堆上,或者使用另一种预先分配的内存形式,引用的局部性可以被比以往任何时候都更广泛地利用,矢量化可以更容易地应用,同时实现线程安全和效率可能会容易得多,等等。
这让我感到尴尬的是,这需要有关用户输入的信息,这些信息只能在通常的“编译时”概念之后提供。因此,我的很多兴趣都与应用程序运行时的代码生成技术有关。
Now, clearly this is an approach which can be used, but it starts getting unwieldy when the size of the data gets big (say ~100MB in my case) and also in any real world situation would depend on meta-programming to generate the associated data dependent knowledge.
我认为除此之外,如果数据量过大,那么我们确实经常需要大量的分支和变量,只是为了避免生成过多的代码,以至于我们开始因 icache 未命中而成为瓶颈。
然而,即使能够将十几个经常访问的变量转换为编译时常量,并允许少数数据结构利用对指定输入的更多知识(并借助积极的优化器),也可能在这里产生巨大的影响,特别是考虑到优化器在提前提供必要信息的情况下的表现如何。
其中一些问题通常可以通过越来越复杂和通用的代码、元编程技术等来解决,但我们能达到的程度有一个峰值:优化器只能优化预先可用的信息。这里的困难在于以实用的方式提供该信息。而且,正如您已经猜到的那样,这很快就会变得笨拙、难以维护,并且生产力开始变得与效率一样重要(如果不是更重要的话)。
所以对我来说最有前途的技术围绕针对特定问题域而不是针对特定输入进行调整的代码生成技术(针对特定输入的优化将更多地依赖于优化器,代码生成就在那里,因此我们可以更容易/适本地提供优化器所需的更多信息)。 Open Shading Language 是一个已经做了类似事情的简单示例,它使用 JIT 编译在适度的水平上利用了这个想法:
OSL uses the LLVM compiler framework to translate shader networks into machine code on the fly (just in time, or "JIT"), and in the process heavily optimizes shaders and networks with full knowledge of the shader parameters and other runtime values that could not have been known when the shaders were compiled from source code. As a result, we are seeing our OSL shading networks execute 25% faster than the equivalent shaders hand-crafted in C! (That's how our old shaders worked in our renderer.)
虽然比手写代码有 25% 的改进并不多,但这在生产渲染器中仍然是一个大问题,而且我们似乎可以做得更多。
使用节点作为可视化编程语言还提供了一个更严格的环境,有助于减少人为错误,允许在更高级别表达解决方案,查看动态更改的结果(即时周转)等。- - 因此它不仅提高了效率,而且提高了我们需要避免在此类优化中迷失的生产力。维护和构建代码生成器可能有点复杂,但它只需要具有所需的最少代码量,并且不会随着使用它生成的代码量的增加而增加复杂性。
很抱歉 - 这并不是作为评论对您的问题的准确回答,但我认为我们正在寻找类似的东西。
关于编译时数据特定的优化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33461398/
比较代码: const char x = 'a'; std::cout > (0C310B0h) 00C3100B add esp,4 和 const i
您好,我正在使用 Matlab 优化求解器,但程序有问题。我收到此消息 fmincon 已停止,因为目标函数值小于目标函数限制的默认值,并且约束满足在约束容差的默认值范围内。我也收到以下消息。警告:矩
处理Visual Studio optimizations的问题为我节省了大量启动和使用它的时间 当我必须进行 J2EE 开发时,我很难回到 Eclipse。因此,我还想知道人们是否有任何提示或技巧可
情况如下:在我的 Excel 工作表中,有一列包含 1-name 形式的条目。考虑到数字也可以是两位数,我想删除这些数字。这本身不是问题,我让它工作了,只是性能太糟糕了。现在我的程序每个单元格输入大约
这样做有什么区别吗: $(".topHorzNavLink").click(function() { var theHoverContainer = $("#hoverContainer");
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: What is the cost of '$(this)'? 我经常在一些开发人员代码中看到$(this)引用同一个
我刚刚结束了一个大型开发项目。我们的时间紧迫,因此很多优化被“推迟”。既然我们已经达到了最后期限,我们将回去尝试优化事情。 我的问题是:优化 jQuery 网站时您要寻找的最重要的东西是什么。或者,我
所以我一直在用 JavaScript 编写游戏(不是网络游戏,而是使用 JavaScript 恰好是脚本语言的游戏引擎)。不幸的是,游戏引擎的 JavaScript 引擎是 SpiderMonkey
这是我在正在构建的页面中使用的 SQL 查询。它目前运行大约 8 秒并返回 12000 条记录,这是正确的,但我想知道您是否可以就如何使其更快提出可能的建议? SELECT DISTINCT Adve
如何优化这个? SELECT e.attr_id, e.sku, a.value FROM product_attr AS e, product_attr_text AS a WHERE e.attr
我正在使用这样的结构来测试是否按下了所需的键: def eventFilter(self, tableView, event): if event.type() == QtCore.QEven
我正在使用 JavaScript 从给定的球员列表中计算出羽毛球 double 比赛的所有组合。每个玩家都与其他人组队。 EG。如果我有以下球员a、b、c、d。它们的组合可以是: a & b V c
我似乎无法弄清楚如何让这个 JS 工作。 scroll function 起作用但不能隐藏。还有没有办法用更少的代码行来做到这一点?我希望 .down-arrow 在 50px 之后 fade out
我的问题是关于用于生产的高级优化级联样式表 (CSS) 文件。 多么最新和最完整(准备在实时元素中使用)的 css 优化器/最小化器,它们不仅提供删除空格和换行符,还提供高级功能,如删除过多的属性、合
我读过这个: 浏览器检索在 中请求的所有资源开始呈现 之前的 HTML 部分.如果您将请求放在 中section 而不是,那么页面呈现和下载资源可以并行发生。您应该从 移动尽可能多的资源请求。
我正在处理一些现有的 C++ 代码,这些代码看起来写得不好,而且调用频率很高。我想知道我是否应该花时间更改它,或者编译器是否已经在优化问题。 我正在使用 Visual Studio 2008。 这是一
我正在尝试使用 OpenGL 渲染 3 个四边形(1 个背景图,2 个 Sprite )。我有以下代码: void GLRenderer::onDrawObjects(long p_dt) {
我确实有以下声明: isEnabled = false; if(foo(arg) && isEnabled) { .... } public boolean foo(arg) { some re
(一)深入浅出理解索引结构 实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(no
一、写在前面 css的优化方案,之前没有提及,所以接下来进行总结一下。 二、具体优化方案 2.1、加载性能 1、css压缩:将写好的css进行打包,可以减少很多的体积。 2、css单一样式:在需要下边
我是一名优秀的程序员,十分优秀!