performance - 矢量化代码比循环慢？软件-6ren

performance - 矢量化代码比循环慢？软件

转载作者：太空宇宙更新时间：2023-11-03 20:01:28

27

4

我在做的问题中有这么一段代码，如下图。定义部分只是为了向您展示数组的大小。下面我粘贴了矢量化版本 - 它慢了 2 倍以上。为什么会这样？我知道如果矢量化需要大的临时变量，我就会发生，但(看起来)这里不是真的。

一般来说，我可以做些什么(除了 parfor，我已经在使用)来加速这段代码？

maxN = 100;  
levels = maxN+1;  
xElements = 101;  
umn = complex(zeros(levels, levels));  
umn2 = umn;  
bessels = ones(xElements, xElements, levels);    % 1.09 GB  
posMcontainer = ones(xElements, xElements, maxN);  

tic  
for j = 1 : xElements  
    for i = 1 : xElements  
        for n = 1 : 2 : maxN  
            nn = n + 1;  
            mm = 1;  
            for m = 1 : 2 : n  
                umn(nn, mm) = bessels(i, j, nn) * posMcontainer(i, j, m);  
                mm = mm + 1;  
            end  
        end  
    end  
end  
toc % 0.520594 seconds  


tic  
for j = 1 : xElements  
    for i = 1 : xElements  
        for n = 1 : 2 : maxN  
            nn = n + 1;  
            m = 1:2:n;  
            numOfEl = ceil(n/2);  
            umn2(nn, 1:numOfEl) = bessels(i, j, nn) * posMcontainer(i, j, m);  
        end  
    end  
end  
toc % 1.275926 seconds  

sum(sum(umn-umn2)) % veryfying, if all done right

最好的问候，
亚历克斯

来自分析器:

from Profiler

编辑:

回复@Jason answer ，这个替代方案需要相同的时间:

for n = 1:2:maxN  
    nn(n) = n + 1;  
    numOfEl(n) = ceil(n/2);  
end  

for j = 1 : xElements  
    for i = 1 : xElements  
        for n = 1 : 2 : maxN  
            umn2(nn(n), 1:numOfEl(n)) = bessels(i, j, nn(n)) * posMcontainer(i, j, 1:2:n);  
        end  
    end  
end

编辑2:
回复@EBH :
重点是执行以下操作:

parfor i = 1 : xElements  
    for j = 1 : xElements  
    umn = complex(zeros(levels, levels)); % cleaning  
    for n = 0:maxN
        mm = 1;
        for m = -n:2:n
            nn = n + 1; % for indexing

            if m < 0
                umn(nn, mm) = bessels(i, j, nn) * negMcontainer(i, j, abs(m));
            end

            if m > 0
                umn(nn, mm) = bessels(i, j, nn) * posMcontainer(i, j, m);
            end

            if m == 0
                umn(nn, mm) = bessels(i, j, nn);
            end

            mm = mm + 1; % for indexing
        end % m
    end % n
    beta1 = sum(sum(Aj1.*umn));
    betaSumSq1(i, j) = abs(beta1).^2;

    beta2 = sum(sum(Aj2.*umn));
    betaSumSq2(i, j) = abs(beta2).^2;
    end % j
end % i

我尽可能加快了速度。您所写的内容仅采用最后的 bessels 和 posMcontainer 值，因此不会产生相同的结果。在实际代码中，这两个容器中填充的不是 1，而是一些预先计算好的值。

最佳答案

在你编辑之后，我可以看到 umn 只是另一个计算的临时变量。它仍然可以大部分是矢量化的:

betaSumSq1 = zeros(xElements); % preallocating
betaSumSq2 = zeros(xElements); % preallocating
% an index matrix to fetch the right values from negMcontainer and
% posMcontainer:
indmat = tril(repmat([0 1;1 0],ceil((maxN+1)/2),floor(levels/2)));
indmat(end,:) = [];
% an index matrix to fetch the values in correct order for umn:
b_ind = repmat([1;0],ceil((maxN+1)/2),1);
b_ind(end) = [];
tempind = logical([fliplr(indmat) b_ind indmat+triu(ones(size(indmat)))]);

% permute the arrays to prevent squeeze:
PM = permute(posMcontainer,[3 1 2]);
NM = permute(negMcontainer,[3 1 2]);
B = permute(bessels,[3 1 2]);

for k = 1 : maxN+1 % third dim
    for jj = 1 : xElements % columns
        b = B(:,jj,k); % get one vector of B

        % perform b*NM for every row of NM*indmat, than flip the result:
        neg = fliplr(bsxfun(@times,bsxfun(@times,indmat,NM(:,jj,k).'),b));

        % perform b*PM for every row of PM*indmat:
        pos = bsxfun(@times,bsxfun(@times,indmat,PM(:,jj,k).'),b);

        temp = [neg mod(1:levels,2).'.*b pos].'; % concat neg and pos
        % assign them to the right place in umn:
        umn = reshape(temp(tempind.'),[levels levels]).';

        beta1 = Aj1.*umn;
        betaSumSq1(jj,k) = abs(sum(beta1(:))).^2;
        beta2 = Aj2.*umn;
        betaSumSq2(jj,k) = abs(sum(beta2(:))).^2;
    end
end

这将运行时间从 ~95 秒减少到少于 3 秒(两者都没有 parfor)，所以它改进了几乎 97%.

关于performance - 矢量化代码比循环慢？软件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39183125/

27

4

0

文章推荐： python - 替换文本中的空格(多行)

文章推荐： c# - 查看实体的子表是否包含任何记录的最快方法

文章推荐： python - 在Python中交错多个相同长度的列表

文章推荐： c# - 在 pcl 中使用 TcpClient 以针对 ios 和 android 的 xamarin

string - 列表[字符串] -> 矢量[矢量[字符]]
我正在尝试将字符串列表转换为字符向量的向量: import collection.breakOut def stringsToCharVectors(xs: List[String]) = x
python - Pytorch:如何从 2D 矢量/图像预测 1D 矢量？
我正在尝试使用 Pytorch 通过 2D 向量(嘈杂语音帧序列)的回归来预测 1D 向量(干净语音数据帧) data) - 之前已经完成过。帧序列为帧提供时间上下文，以更准确地预测干净帧。这些向量可
c# - 获取错误 "Operator ' + =' is ambiguous on operands of type ' 矢量 3' and ' 矢量 2'"
在尝试构建时，我收到此错误: Operator '+=' is ambiguous on operands of type 'Vector3' and 'Vector2' 这是问题出处的脚本代码: u
R圆形阵列/矢量
是否存在实现 FIFO 意义上的循环数组或向量的 R 包？假设我们有这个数组: 2 4 7 1 当在位置 1 插入一个新的观察值(比如 3)时，我希望第 n 个元素被第 n-1 个元素替换: 3 2
c# - 矢量/角度数学
我在游戏中有两个对象，为此可以将其视为 2d 平面上的点，但我使用 Vector3s，因为游戏本身是 3d。我有一个游戏相机，我想将其与两个物体垂直(也在平面上)对齐，以便它们都在相机的视野中。由于
python - 采样音频不保留波(矢量)!
我做了一个Telegram robot ，它的工作之一是从音频文件创建样本。现在对于发送给它的大多数音频，样本都非常好；像这样: 但是，对于一些音频，样本看起来有点奇怪: 如您所见，此文件中的波形未显
JavaScript + JQuery 矢量 map
由于对 JavaScript 非常陌生，我在使用 JQuery VectorMaps 时遇到了以下问题: 当我用这种语法突出显示一个国家时，一切都很完美: jQuery('#vmap').vector
javascript - ChartJS 矢量 map
我正在使用 ChartJS 在我的网站中包含一些 map ，但 ChartJS 库没有我想要的 map 。我想知道这种类型的矢量 map 是否很容易在网上免费找到，还是必须从头开始构建？ Chart
vector - Clojure 列表 -> 矢量
我需要创建一个函数。在此范围内，我需要发生以下事情: List 1: '(a 5 6) List 2: '(c 8 10) List 3: '(d 4 9) 以上是列表。我需要忽略每个列表的第一列(这
math - 计算垂直于由点和真北航向描述的平面的 3d 矢量
我在地球表面有一个点，我正在将其从地球中心转换为向量。我有一个以度数表示的真北航向，描述了该点将在地球表面行进的路径。我需要计算一个向量，该向量垂直于该点沿地球表面的路径所创建的平面。我尝试
javascript - 矢量 map 中不同端口的不同样式
大家好，这是我的 JavaScript 代码，用于为矢量 map 制作 ip 标记以显示在线 ip.. 所有 ips 都有 3 个不同的端口，例如:ip1:1020 或 ip2:5050 或 ip3:
javascript - 相机 lookAt 矢量
我正在使用 Three.js 透视相机，我需要了解相机所注视的点。如何使用相机的矩阵/旋转向量计算它？最佳答案相机向下看它的内部负 z 轴。所以选择相机负 z 轴上的任意点，如下所示: var
ios - Scenekit - 矢量/切线置换贴图
重要提示:请注意这个问题是关于 VECTOR map 的。不是高度图。我正在尝试在 Scenekit 中实现 Vector 位移，如 apple 演示文稿中所述: https://www.youtu
python - 是否可以更新 Doc2Vec 矢量？
我正在处理一个稳定增长的语料库。我使用用 Python 实现的 Doc2Vec 来训练我的文档向量。是否可以更新文档向量？我想使用文档向量进行文档推荐。最佳答案单个向量可以更新，但是 gens
matlab - 衡量两个不同(矢量)信号的相似度
我正在努力寻找一种比较(测量)两个不同信号之间相似性的好方法。我不想找出一个信号到另一个信号的时间延迟，但我想看看它们之间有何相似之处。例如，我有以下两个信号，比如说 s1 ans s2。这两个信号看
python - 叠加在图上的 Quiver 矢量
我想绘制 y 与 x 线，然后在它上面我想绘制向量。我可以使用 matplotlib 的 plot 和 quiver 函数来做到这一点。但是，矢量将始终绘制在线的后面，而不是在线的顶部。也就是说，线将
快速矢量-矢量 (a * a^H) 乘法的算法？
包含复数的向量 a 的大小为 N×1。任务是找到乘法a * a^HA (N-by-N) >，其中 H 是 Hermitian 算子(共轭转置)，因此矩阵 A 是 Hermitian。有没有比 O(N
android - KSOAP2 处理复杂响应(矢量)
三天来，我一直在努力从我的响应中获取复杂类型(列表)，但总是收到 ClassCastException D/SOAPEnvelope(1552): Error: java.lang.ClassCast
android osmdroid 矢量 map
在我的 android 项目中，我想要离线 map 。使用图 block ，我的 map 占用 500 MB 的空间，我还想在 map 上离线搜索地址。我认为减小尺寸并使搜索成为可能的唯一方法是矢量
Android Compose - 如何平铺/重复位图/矢量？
什么是 Android Compose 方法来平铺图像以用小图案填充我的背景？没有旋转的位图的天真方法可能是这样的: @Composable fun TileImage() { val pa

首页

博学

6Ren·AI

商城

performance - 矢量化代码比循环慢？软件