python - 在numpy中将同一行堆叠到堆叠的二维矩阵的最佳方法是什么？-6ren

python - 在numpy中将同一行堆叠到堆叠的二维矩阵的最佳方法是什么？

转载作者：行者123 更新时间：2023-12-04 07:14:17

27

4

我正在寻找一种方法来有效地将同一行堆叠到几个堆叠的 2D 矩阵中。
具体来说，我对堆叠形状的矩阵很感兴趣 (3,4)其中有 float 元素。例如，如果有 2 个矩阵要堆叠:

import numpy as np
np.arange(24.).reshape(2,3,4)

array([[[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]],

       [[12., 13., 14., 15.],
        [16., 17., 18., 19.],
        [20., 21., 22., 23.]]])

并且有一排形状 (1,1,4)堆叠:

row = np.array([[[101.,102.,103.,104.]]])

最终结果将如下所示(堆叠 (4,4) 矩阵):

array([[[  0.,   1.,   2.,   3.],
        [  4.,   5.,   6.,   7.],
        [  8.,   9.,  10.,  11.],
        [101., 102., 103., 104.]],

       [[ 12.,  13.,  14.,  15.],
        [ 16.,  17.,  18.,  19.],
        [ 20.,  21.,  22.,  23.],
        [101., 102., 103., 104.]]])

直到知道，我所做的最好的尝试是使用 np.tile :

import numpy as np
M_stacked = np.arange(24.).reshape(2,3,4)
row = np.array([[[101.,102.,103.,104.]]])
np.concatenate((M_stacked, np.tile(row, (len(M_stacked),1,1))), axis=1)

但我相信这可能不是最有效的解决方案，特别是当堆叠矩阵的数量增加时。有没有更好的方法？
提前致谢!

作为引用，这些是我得到的时间:
如果有 2 个堆叠矩阵:

M_stacked = np.arange(2.*3.*4.).reshape(2,3,4)
%timeit np.concatenate((M_stacked, np.tile(row, (len(M_stacked),1,1))), axis=1)
7.2 µs ± 85 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each))

如果有 1000 个堆叠矩阵:

M_stacked = np.arange(1000.*3.*4.).reshape(1000,3,4)
%timeit np.concatenate((M_stacked, np.tile(row, (len(M_stacked),1,1))), axis=1)
28.8 µs ± 108 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

最佳答案

要检查操作的好坏，您可以执行分析内存吞吐量分析。 1 个矩阵大小 (1000, 3, 4)需要读取和 1 个矩阵大小 (1000, 4, 4)需要写。 double 值的大小为 8 个字节(在标准 IEEE-754 兼容系统上)。由于计算在 28.8 us 内完成，因此内存吞吐量为 8*(1000*3*4 + 1000*4*4) / 28.8e-6 / 1024**3 = 7.2 GiB/s这是相对较好但不是很好。
由于计算速度非常快，花费的大部分时间只是开销调用 Numpy 函数、执行内部数组检查、分配临时 Python 对象(例如元组、Numpy View 、Python 整数)等。
您可以使用 减少开销Numba 的 JIT 仔细调整配置。 Numba 将生成一个函数，该函数将执行更少的检查/分配，而只执行一次。
一种可以大大加快代码速度的解决方案是 手动修复堆叠二维数组的大小 与 Numba。事实上，在非常小的数组上处理可变大小的数组要昂贵得多，因为 Numpy/Numba 不需要使用低效循环迭代最后两个小维度。通过手动修复大小，Numba 可以展开循环并生成更高效的代码(例如，使用 SIMD 指令)。告诉 Numba 矩阵大小的一种简单而优雅的方法是使用断言。如果固定大小不正确，断言对于防止执行错误代码也很有用。
这是结果代码:

import numpy as np
import numba as nb

@nb.njit('f8[:,:,::1](f8[:,:,::1], f8[:,:,::1])')
def compute(M_stacked, row):
    m, n, o = M_stacked.shape
    assert o == 4 # The assertion help numba to generate a much faster code
    assert n == 3
    assert row.shape == (1, 1, o)
    res = np.empty((m, n+1, o), dtype=np.float64)
    for i in range(m):
        # With the above assertions, the following loops will 
        # be unrolled by Numba to produce a very fast code.
        for j in range(n):
            for k in range(o):
                res[i, j, k] = M_stacked[i, j, k]
        for k in range(o):
            res[i, n, k] = row[0, 0, k]
    return res

row = np.array([[[101.,102.,103.,104.]]])
M_stacked = np.arange(1000.*3.*4.).reshape(1000,3,4)
%timeit compute(M_stacked, row)

这是我机器上的结果:

Numpy reference code:           19.5 us (10.7 GiB/s)
Numba code without assertions:  14.9 us (14.0 GiB/s)
Numba code with the assertions:  5.7 us (36.6 GiB/s)

最后一个实现是 3.4 更快 然后是初步实现。对于在 Python 解释器中执行的顺序代码，吞吐量非常好。
请注意，尽管矩阵可能存储在具有更高带宽的 CPU 缓存中，但我的 RAM 的带宽约为 40 GiB/s。此外，我的机器上连续 Numpy 代码(工作 CPU 缓存)的最大实际吞吐量为 56 GiB/s。

关于python - 在numpy中将同一行堆叠到堆叠的二维矩阵的最佳方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68880601/

27

4

0

文章推荐： amazon-web-services - 在 ECS fargate 任务中解析服务主机名

文章推荐： c++ - Disjoint set union 数据结构中到代表的距离

文章推荐： ios - 下载 Firebase 存储的 URL 不起作用

文章推荐： python - 通过艺术家更新 matplotlib 中的文本

Ruby 方法() 方法
我想了解 Ruby 方法 methods() 是如何工作的。我尝试使用“ruby 方法”在 Google 上搜索，但这不是我需要的。我也看过 ruby-doc.org，但我没有找到这种方法。
VBS教程：方法-Test 方法
Test 方法对指定的字符串执行一个正则表达式搜索，并返回一个 Boolean 值指示是否找到匹配的模式。 object.Test(string) 参数 object 必选项。总是一个
VBS教程：方法-Replace 方法
Replace 方法替换在正则表达式查找中找到的文本。 object.Replace(string1, string2) 参数 object 必选项。总是一个 RegExp 对象的名称。
VBS教程：方法-Raise 方法
Raise 方法生成运行时错误 object.Raise(number, source, description, helpfile, helpcontext) 参数 object 应为
VBS教程：方法-Execute 方法
Execute 方法对指定的字符串执行正则表达式搜索。 object.Execute(string) 参数 object 必选项。总是一个 RegExp 对象的名称。 string
VBS教程：方法-Clear 方法
Clear 方法清除 Err 对象的所有属性设置。 object.Clear object 应为 Err 对象的名称。说明在错误处理后，使用 Clear 显式地清除 Err 对象。此
VBS教程：方法-CopyFile 方法
CopyFile 方法将一个或多个文件从某位置复制到另一位置。 object.CopyFile source, destination[, overwrite] 参数 object 必选
VBS教程：方法-Copy 方法
Copy 方法将指定的文件或文件夹从某位置复制到另一位置。 object.Copy destination[, overwrite] 参数 object 必选项。应为 File 或 F
VBS教程：方法-Close 方法
Close 方法关闭打开的 TextStream 文件。 object.Close object 应为 TextStream 对象的名称。说明下面例子举例说明如何使用 Close 方
VBS教程：方法-BuildPath 方法
BuildPath 方法向现有路径后添加名称。 object.BuildPath(path, name) 参数 object 必选项。应为 FileSystemObject 对象的名称
VBS教程：方法-GetFolder 方法
GetFolder 方法返回与指定的路径中某文件夹相应的 Folder 对象。 object.GetFolder(folderspec) 参数 object 必选项。应为 FileSy
VBS教程：方法-GetFileName 方法
GetFileName 方法返回指定路径（不是指定驱动器路径部分）的最后一个文件或文件夹。 object.GetFileName(pathspec) 参数 object 必选项。应为
VBS教程：方法-GetFile 方法
GetFile 方法返回与指定路径中某文件相应的 File 对象。 object.GetFile(filespec) 参数 object 必选项。应为 FileSystemObject
VBS教程：方法-GetExtensionName 方法
GetExtensionName 方法返回字符串，该字符串包含路径最后一个组成部分的扩展名。 object.GetExtensionName(path) 参数 object 必选项。应
VBS教程：方法-GetDriveName 方法
GetDriveName 方法返回包含指定路径中驱动器名的字符串。 object.GetDriveName(path) 参数 object 必选项。应为 FileSystemObjec
VBS教程：方法-GetDrive 方法
GetDrive 方法返回与指定的路径中驱动器相对应的 Drive 对象。 object.GetDrive drivespec 参数 object 必选项。应为 FileSystemO
VBS教程：方法-GetBaseName 方法
GetBaseName 方法返回字符串，其中包含文件的基本名 (不带扩展名), 或者提供的路径说明中的文件夹。 object.GetBaseName(path) 参数 object 必
VBS教程：方法-GetAbsolutePathName 方法
GetAbsolutePathName 方法从提供的指定路径中返回完整且含义明确的路径。 object.GetAbsolutePathName(pathspec) 参数 object
VBS教程：方法-FolderExists 方法
FolderExists 方法如果指定的文件夹存在，则返回 True；否则返回 False。 object.FolderExists(folderspec) 参数 object 必选项
VBS教程：方法-FileExists 方法
FileExists 方法如果指定的文件存在返回 True；否则返回 False。 object.FileExists(filespec) 参数 object 必选项。应为 FileS

首页

博学

6Ren·AI

商城

python - 在numpy中将同一行堆叠到堆叠的二维矩阵的最佳方法是什么？