python - 与倒数第二个相比，最后一个索引对 numpy 数组的访问时间的影响更大-6ren

python - 与倒数第二个相比，最后一个索引对 numpy 数组的访问时间的影响更大

转载作者：IT王子更新时间：2023-10-28 23:35:35

27

4

这是对 this answer 的跟进我之前的问题 Fastest approach to read thousands of images into one big numpy array .

在 chapter 2.3 "Memory allocation of the ndarray" ，Travis Oliphant 写了以下关于如何在内存中访问 C 有序 numpy 数组的索引。

...to move through computer memory sequentially, the last index is incremented first, followed by the second-to-last index and so forth.

这可以通过沿两个第一个或两个最后一个索引对二维数组的访问时间进行基准测试来确认(出于我的目的，这是加载 500 个大小为 512x512 像素的图像的模拟):

import numpy as np

N = 512
n = 500
a = np.random.randint(0,255,(N,N))

def last_and_second_last():
    '''Store along the two last indexes'''
    imgs = np.empty((n,N,N), dtype='uint16')
    for num in range(n):
        imgs[num,:,:] = a
    return imgs

def second_and_third_last():
    '''Store along the two first indexes'''
    imgs = np.empty((N,N,n), dtype='uint16')
    for num in range(n):
        imgs[:,:,num] = a
    return imgs

基准测试

In [2]: %timeit last_and_second_last()
136 ms ± 2.18 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [3]: %timeit second_and_third_last()
1.56 s ± 10.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

到目前为止一切顺利。但是，当我沿最后一个维度和倒数第三个维度加载数组时，这几乎与将它们加载到最后两个维度一样快。

def last_and_third_last():
    '''Store along the last and first indexes'''
    imgs = np.empty((N,n,N), dtype='uint16')
    for num in range(n):    
        imgs[:,num,:] = a
    return imgs

基准测试

In [4]: %timeit last_and_third_last()
149 ms ± 227 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

为什么是last_and_third_last()我的速度如此接近last_and_second_last()相比 second_and third_last() ?
什么是可视化为什么最后一个索引在访问速度方面比倒数第二个索引更重要的好方法？

最佳答案

我将尝试说明索引，而不涉及处理器缓存等细节。

让我们创建一个具有不同元素值的小型 3d 数组:

In [473]: X = np.mgrid[100:300:100,10:30:10,1:4:1].sum(axis=0)
In [474]: X
Out[474]: 
array([[[111, 112, 113],
        [121, 122, 123]],

       [[211, 212, 213],
        [221, 222, 223]]])
In [475]: X.shape
Out[475]: (2, 2, 3)

ravel 将其视为一维数组，并向我们展示值在内存中的布局方式。 (顺便说一下，这是默认的 C 排序)

In [476]: X.ravel()
Out[476]: array([111, 112, 113, 121, 122, 123, 211, 212, 213, 221, 222, 223])

当我在第一个维度上建立索引时，我得到 2*3 值，即上述列表的连续 block :

In [477]: X[0,:,:].ravel()
Out[477]: array([111, 112, 113, 121, 122, 123])

在最后一个索引上给出 4 个值，从整个数组中选择 - 我添加了 .. 以突出显示它

In [478]: X[:,:,0].ravel()
Out[478]: array([111,.. 121,.. 211,.. 221])

中间的索引给了我 2 个连续的子 block ，即 2 行 X。

In [479]: X[:,0,:].ravel()
Out[479]: array([111, 112, 113,.. 211, 212, 213])

通过 strides 和 shape 计算 numpy 可以访问 X 中的任何一个元素(关于)同时。在 X[:,:,i] 的情况下，这就是它必须做的。这 4 个值“分散”在数据缓冲区中。

但如果它可以访问连续的 block ，例如在 X[i,:,:] 中，它可以将更多的操作委托(delegate)给低级编译和处理器代码。使用 X[:,i,:] 时，这些 block 没有那么大，但可能仍然大到足以产生重大影响。

在您的测试用例中，[n,:,:] 在 512*512 元素 block 上迭代 500 次。

[:,n,:] 必须将该访问分成 512 个 block ，每个 block 512 个。

[:,:,n] 必须进行 500 x 512 x 512 次单独的访问。

我想知道使用 uint16 是否会夸大效果。在另一个问题中，我们刚刚展示了使用 float16 的计算要慢得多(高达 10 倍)，因为处理器(和编译器)被调整为使用 32 位和 64 位数字。如果处理器被调整为移动 64 位数字 block ，那么移动一个隔离的 16 位数字可能需要大量额外的处理。这就像从文档中逐字复制粘贴一样，而逐行复制每次复制所需的击键次数更少。

确切的细节隐藏在处理器、操作系统和编译器以及 numpy 代码中，但希望这能让您了解为什么您的中间情况更接近最优而不是最坏的情况。

在测试中 - 将 imgs 设置为 a.dtype 在所有情况下都会减慢速度。所以 'uint16' 不会引起任何特殊问题。

Why does `numpy.einsum` work faster with `float32` than `float16` or `uint16`?

关于python - 与倒数第二个相比，最后一个索引对 numpy 数组的访问时间的影响更大，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44115571/

27

4

0

文章推荐： android - Vimeo 视频停止在 Android 6 设备上播放

文章推荐： android - 替换 fragment 的高程值错误

文章推荐： Android 原生崩溃

文章推荐： iPhone 开发 - 内存管理类(class)

java - JOptionPane 更大
我正在 Java 上开发 Tic Tac Toe 游戏(eclipse)。在我的计算机上，我的对话框非常小。我一直在努力把它做得更大。我没有任何运气。我希望这里有人能引导我走向正确的方向。下面的代码是
delphi - 如何使delphi的滚动条更宽/更大(包括滚动条的箭头)
出于辅助功能的目的，我需要使所有可滚动控件(列表、 ListView )的滚动条更宽，滚动条箭头更大。如何从可滚动控件(例如:TListView)获取滚动条( handle )？如何使滚动条和箭头
flutter - 让小部件比视口(viewport)更大？
在我的 flutter 应用程序中，我想制作一个圆圈作为这样的背景: 最佳答案问题主要是当屏幕处于横向时，除非它覆盖整个屏幕，否则你不能在那里放置一个圆圈。 ClipRect 还有另一种方法，如果这
Dart - 从列表中获取最近(更大)的值？
如何在列表中找到最接近的值，这将返回更高的值？示例:[3,7,12,19] 的列表，如果我的值为 8，我如何获得最接近(更大)的值 12？我想要 dart 中的这个逻辑。最佳答案只需过滤 List
javascript - 使 IFrame 更大
我是一个绝对的 HTML 和 javascript 初学者，我很确定，这真的很容易实现。我生成了以下 IFRAME: document.write("");Das aktuelle Wetter in
encryption - 压缩后的数据加密标准 (DES) 更大？
我有点知道为什么压缩 DES 文件时它更大，但谁能给我正确的理由或链接，我似乎找不到任何原因？谢谢:) 最佳答案经过适当加密的密文在压缩程序看来非常像一系列随机数。如果没有以明文形式出现的模式，压
php - 更大、更少或者更小、更多的查询？
假设我有两个表，其中一个(我们称之为 person)有一个名为 type 的字段，该字段存储链接到另一个表的整数(我们称之为types 带有一个名为 id 的字段。什么会更能提高性能？一个更大的查询
WPF ListView 变得比它包含的 Canvas 更大
我有一个ListView，它使用GridView来显示DataTable，并且当新行添加到DataTable
css - Firefox 计算 block 更大？
我在只出现在 Firefox 中的导航菜单上遇到了一个奇怪的问题(在 IE7、8、9、10 和 Chrome 中工作正常)。菜单上的链接显示为 block ，但它们在 Firefox 中计算得比任何其
Javax.mail 对邮件收件箱文件夹中的邮件数量给出错误(更大)的计数
我正在使用 javax.mail 并获取邮件收件箱文件夹中的邮件计数。使用https://outlook.office.com/ Folder folderInbox = store.getFolde
html - 如何使 Glyphicons 更大？ (改变大小？)
我想让地球字形图标更大，以便它覆盖页面的大部分(它是矢量图像)。它不在按钮或任何东西中；它只是一个人。有没有办法做到这一点？最佳答案增加 glyphicon 的 font-size
android - 使 seekbar thumb hitbox 更大
我定制了一个看起来像这样的搜索栏问题是很难捕获 slider 。所以我想做的是增加拇指的碰撞箱以使其更容易。我尝试了一些东西，但总是弄乱了搜索栏的外观。我有什么想法可以做到这一点吗？布局.xml
ios - Swift:在设备上保存音频的时间是原来的 2 倍，更大
我有一个问题:下载到 Documents 文件夹中的音乐比以前长 2 倍，而且体积更大。比特率也有问题(增加/减少 2 倍)。图片保存得很好，但任何音乐都有问题。也许我需要手动设置音频比特率，但我还没
html - 为什么 div 区域仍然比图像 css 更大？
为什么 div 区域仍然比图像 css 大？ /image/WHDU3.jpg 如何设置 div 区域以适合图像？最佳答案 IMG - 是行内元素，因此
c# - 字符串 (";P") 更大还是字符串 ("-_-") 更大？
我发现在对文本文件进行排序时非常困惑。不同的算法/应用程序会产生不同的结果，例如，比较两个字符串 str1=";P" 和 str2="-_-" 仅供引用，这里给出了这些字符串中每个字符的 ASCII:
android - min-sdk 比之前版本的 android 更大
我有一个应用程序已经在 Play 商店中存在多年，我刚刚构建了一个更新。该更新利用了 numberpicker，它的 min-sdk 为 11，并且在 v4 支持库中不适用。我倾向于发布我的新版本并在
html - 如何使用 CSS 使直通线比文本/元素更宽/更大
你能告诉我如何强制 CSS 使 line-through 属性比元素 width 宽吗？例如 50 结果看起来像现在如何使线条比元素更宽更明显？赞最佳答案你可以使用，这是一种很俗气的方式 &
c++ - 如何使 C++ EXE 更大(人工)
我想制作一个比应有的大得多的虚拟 Win32 EXE 文件。所以默认情况下，样板 Win32 EXE 文件为 80 KB。我想要一个 5 MB 的空间来测试其他一些实用程序。第一个想法是添加资源，但
objective-c - 带有 UIImageView 的 UIView 更大
我有一个 UIView，里面有一个更大的 UIImageView。有没有办法隐藏超出 View 大小的内容？ CGRect baseFrame = CGRectMake(100, 100, 300,
java - 为什么在我的 BufferedReader 中使用*更大*的缓冲区时性能会*差*？
当我改变缓冲区的大小时，我得到了无法从 BufferedReader 解释的奇怪结果。我曾强烈期望性能会随着缓冲区大小的增加而逐渐增加， yield 递减设置相当快，此后性能或多或少会持平。但看起来

首页

博学

6Ren·AI

商城

python - 与倒数第二个相比，最后一个索引对 numpy 数组的访问时间的影响更大