- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
考虑以下针对 arrayfun
的简单速度测试:
T = 4000;
N = 500;
x = randn(T, N);
Func1 = @(a) (3*a^2 + 2*a - 1);
tic
Soln1 = ones(T, N);
for t = 1:T
for n = 1:N
Soln1(t, n) = Func1(x(t, n));
end
end
toc
tic
Soln2 = arrayfun(Func1, x);
toc
在我的机器上(Linux Mint 12 上的 Matlab 2011b),这个测试的输出是:
Elapsed time is 1.020689 seconds.
Elapsed time is 9.248388 seconds.
什么?!? arrayfun
,虽然公认是一个看起来更干净的解决方案,但速度要慢一个数量级。这是怎么回事?
此外,我对 cellfun
进行了类似的测试。并发现它比显式循环慢大约 3 倍。同样,这个结果与我的预期相反。
我的问题是: 为什么 arrayfun
和 cellfun
这么慢?鉴于此,是否有任何充分的理由使用它们(除了使代码看起来不错)?
注意:我说的是标准版的arrayfun
此处,不是并行处理工具箱中的 GPU 版本。
编辑: 澄清一下,我知道 Func1
正如 Oli 所指出的,上面可以被矢量化。我之所以选择它,是因为它会针对实际问题生成一个简单的速度测试。
编辑:按照grungetta的建议,我用feature accel off
重新做了测试。 .结果是:
Elapsed time is 28.183422 seconds.
Elapsed time is 23.525251 seconds.
换句话说,看起来差异的很大一部分是 JIT 加速器在加速显式 for
方面做得更好。比它循环arrayfun
.这对我来说似乎很奇怪,因为 arrayfun
实际上提供了更多信息,即它的使用揭示了对 Func1
的调用顺序。没有关系。另外,我注意到无论 JIT 加速器是打开还是关闭,我的系统只使用一个 CPU...
最佳答案
您可以通过运行其他版本的代码来获得灵感。考虑明确写出计算,而不是在循环中使用函数
tic
Soln3 = ones(T, N);
for t = 1:T
for n = 1:N
Soln3(t, n) = 3*x(t, n)^2 + 2*x(t, n) - 1;
end
end
toc
在我的电脑上计算的时间:
Soln1 1.158446 seconds.
Soln2 10.392475 seconds.
Soln3 0.239023 seconds.
Oli 0.010672 seconds.
现在,虽然完全“向量化”的解决方案显然是最快的,但您可以看到,为每个 x 条目定义要调用的函数是一个巨大的开销。只需显式写出计算就可以使我们获得 5 倍的加速。我想这表明 MATLABs JIT 编译器 does not support inline functions .根据gnovice那里的回答,写一个普通函数其实比写一个匿名函数更好。试试吧。
下一步 - 移除(向量化)内循环:
tic
Soln4 = ones(T, N);
for t = 1:T
Soln4(t, :) = 3*x(t, :).^2 + 2*x(t, :) - 1;
end
toc
Soln4 0.053926 seconds.
另一个 5 倍加速:在那些陈述中有一些东西说你应该避免 MATLAB 中的循环......或者真的有吗?那就看看这个吧
tic
Soln5 = ones(T, N);
for n = 1:N
Soln5(:, n) = 3*x(:, n).^2 + 2*x(:, n) - 1;
end
toc
Soln5 0.013875 seconds.
更接近“完全”矢量化版本。 Matlab 按列存储矩阵。您应该始终(在可能的情况下)将计算结构化为“按列”矢量化。
我们现在可以回到 Soln3。那里的循环顺序是“按行”。让我们改变它
tic
Soln6 = ones(T, N);
for n = 1:N
for t = 1:T
Soln6(t, n) = 3*x(t, n)^2 + 2*x(t, n) - 1;
end
end
toc
Soln6 0.201661 seconds.
好多了,但还是很差。单循环 - 好。双循环 - 坏。我想 MATLAB 在提高循环性能方面做了一些不错的工作,但循环开销仍然存在。如果你在里面做一些更重的工作,你不会注意到。但是由于此计算受内存带宽限制,因此您确实会看到循环开销。而且您将更清楚地看到在那里调用 Func1 的开销。
那么 arrayfun 有什么用呢?那里也没有内联函数,所以开销很大。但为什么比双嵌套循环差这么多呢?实际上,使用 cellfun/arrayfun 的主题已经被广泛讨论过很多次(例如 here、here、here 和 here)。这些函数很慢,您不能将它们用于此类细粒度计算。您可以将它们用于代码简洁和单元格与数组之间的奇特转换。但是功能需要比你写的重:
tic
Soln7 = arrayfun(@(a)(3*x(:,a).^2 + 2*x(:,a) - 1), 1:N, 'UniformOutput', false);
toc
Soln7 0.016786 seconds.
请注意,Soln7 现在是一个单元格。有时这很有用。现在代码性能非常好,如果你需要单元格作为输出,在使用完全向量化的解决方案后,你不需要转换你的矩阵。
那么为什么 arrayfun 比简单的循环结构慢呢?不幸的是,我们无法肯定地说,因为没有可用的源代码。你只能猜测,因为 arrayfun 是一个通用函数,它处理各种不同的数据结构和参数,所以在简单的情况下它不一定很快,你可以直接表示为循环嵌套。我们无法知道开销从何而来。可以通过更好的实现来避免开销吗?也许不会。但不幸的是,我们唯一能做的就是研究性能,以确定它在哪些情况下运行良好,在哪些情况下运行不佳。
更新 由于此测试的执行时间很短,为了获得可靠的结果,我现在在测试周围添加了一个循环:
for i=1:1000
% compute
end
一些时间如下:
Soln5 8.192912 seconds.
Soln7 13.419675 seconds.
Oli 8.089113 seconds.
您看到 arrayfun 仍然很糟糕,但至少不比矢量化解决方案差三个数量级。另一方面,具有按列计算的单个循环与完全矢量化版本一样快......这都是在单个 CPU 上完成的。如果我切换到 2 个内核,Soln5 和 Soln7 的结果不会改变 - 在 Soln5 中,我将不得不使用 parfor 来使其并行化。忘记加速...... Soln7 不并行运行,因为 arrayfun 不并行运行。另一方面,Olis 矢量化版本:
Oli 5.508085 seconds.
关于arrays - arrayfun 可能比 matlab 中的显式循环慢得多。为什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12522888/
我刚刚更新了 Ruby,现在我在尝试启动 compass 时遇到以下错误: Encoding::CompatibilityError on line ["28"] of /usr/local/Cell
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 6 年前。
关闭。这个问题需要debugging details .它目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and th
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我正在尝试在我的 iOS 应用程序中开发可折叠/ Accordion 式的功能。这将是您可以在网站上找到的典型 FAQ 类型功能。我想点击标题,然后显示详细信息。 因为这是帮助部分,只有几个项目,我认
我正在尝试设计一个基于 REST 的 Web 服务来与我正在开发的农场动物管理系统进行交互。 为了详细说明问题,我收藏了动物 属于一个农场。每只动物都有自己的信息——例如姓名、身份证号、品种年龄等。因
我有 3 种不同的表单,其中复选框数量不同,每个部分基本上代表一个表单,因此当用户选择该部分中的复选框时,它会显示他们在该部分的总金额中 checkout 了多少 HTML
我有一份 32 页的 PDF 版家谱。与其将家谱全部放在一个非常大的 PDF 页面上(这是我想要的),不如将其格式化为一组 8 个单独的美国信纸大小的页面应该在整个宽度上缝合; 4 行这样就完成了树。
指SASS implementation for Java? : 在 Maven 目标编译包中自动编译 compass-style.org 样式表的最佳方法是什么? 我不想发送太多的自编译库,也不想通
鉴于以下 XAML... 我正在寻找一种绑定(bind) ComboBox、Button 和 Command 的方法,以便当 ComboBox 的值更改时,在 Command 上调用 CanExe
在玩具应用程序中,我有一个显示所有帖子标题的“帖子”模板。当您单击每个标题时,我不想直接进入“显示” View ,而是直接内联展开该帖子的其余内容。 我考虑过让 postRoute 重用 postsR
我需要一些使用 Twitter Bootstrap 或其他响应式框架的自定义 Swagger-UI 实现。需要在我的移动设备上使用这样的 UI 测试我的 API,但 swagger-ui 不能很好地扩
我正在做一个项目,我真的在尝试编写面向对象的 JavaScript 代码。我刚刚开始阅读Douglas Crockford's JavaScript: The Good Parts我很快开始意识到用
在 C# 中,我通过执行以下操作来加密文本数据(请注意我正在以 block ( block )的形式加密数据): public string EncryptData(string pu
我正在构建一个社交网站,该网站将向全世界公开 REST API (WCF WebAPI),以便任何开发人员都能够为该网站创建客户端应用程序、将其与其他服务集成等。 我想为 API 实现 Faceboo
我是一名优秀的程序员,十分优秀!