gpt4 book ai didi

python - 按列就地排序在切片上失败

转载 作者:太空宇宙 更新时间:2023-11-03 15:55:23 26 4
gpt4 key购买 nike

我正在尝试使用 this answer 中的解决方案按特定列(就地)对 numpy 数组进行排序。在大多数情况下,它可以工作,但在作为另一个数组的 View 的任何数组上都会失败:

In [35]: columnnum = 2

In [36]: a = np.array([[1,2,3], [4,7,5], [9,0,1]])

In [37]: a
Out[37]:
array([[1, 2, 3],
[4, 7, 5],
[9, 0, 1]])

In [38]: b = a[:,(0, 2)]

In [39]: b
Out[39]:
array([[1, 3],
[4, 5],
[9, 1]])

In [40]: a.view(','.join([a.dtype.str] * a.shape[1])).sort(order=['f%d' % columnnum], axis=0)

In [41]: a
Out[41]:
array([[9, 0, 1],
[1, 2, 3],
[4, 7, 5]])

In [42]: b.view(','.join([b.dtype.str] * b.shape[1])).sort(order=['f%d' % columnnum], axis=0)
ValueError: new type not compatible with array.

看起来 numpy 不支持 View 的 View ,这有一定的道理,但我现在不知道如何获取任何数组所需的 View ,无论是它本身是否是一种观点。到目前为止,我还没有找到任何方法来获取有关构建我需要的新 View 的 View 的必要信息。

目前,我使用的是 l = l[l[:,columnnum].argsort()] 就地排序方法,效果很好,但由于我正在操作对于大型数据集,我想避免 argsort() 调用(索引列表)的额外内存开销。有没有办法获取有关 View 的必要信息或按列排序?

最佳答案

In [1019]: a=np.array([[1,2,3],[4,7,5],[9,0,1]])
In [1020]: b=a[:,(0,2)]

这是您正在排序的a;具有 3 个字段的结构化数组。它使用相同的数据缓冲区,但将 3 个整数组解释为字段而不是列。

In [1021]: a.view('i,i,i')
Out[1021]:
array([[(1, 2, 3)],
[(4, 7, 5)],
[(9, 0, 1)]],
dtype=[('f0', '<i4'), ('f1', '<i4'), ('f2', '<i4')])

按照同样的逻辑,您尝试view b:

In [1022]: b.view('i,i')
/usr/local/bin/ipython3:1: DeprecationWarning: Changing the shape of non-C contiguous array by
descriptor assignment is deprecated. To maintain
the Fortran contiguity of a multidimensional Fortran
array, use 'a.T.view(...).T' instead
#!/usr/bin/python3
....
ValueError: new type not compatible with array.

但是如果我使用 3 个字段而不是 2 个,它就可以工作(但有相同的警告):

In [1023]: b.view('i,i,i')
/usr/local/bin/ipython3:1: DeprecationWarning:...
Out[1023]:
array([[(1, 4, 9), (3, 5, 1)]],
dtype=[('f0', '<i4'), ('f1', '<i4'), ('f2', '<i4')])

问题是 bFortran 顺序。检查b.flags

In [1026]: a.strides
Out[1026]: (12, 4)
In [1027]: b.strides
Out[1027]: (4, 12)

b 是副本,而不是 View 。我不知道为什么 b 的构造改变了顺序。

听从警告,我可以这样做:

In [1047]: b.T.view('i,i,i').T
Out[1047]:
array([[(1, 4, 9), (3, 5, 1)]],
dtype=[('f0', '<i4'), ('f1', '<i4'), ('f2', '<i4')])

b 的默认副本(顺序 c)可以被视为 2 个字段:

In [1042]: b1=b.copy()
In [1043]: b1.strides
Out[1043]: (8, 4)
In [1044]: b1.view('i,i')
Out[1044]:
array([[(1, 3)],
[(4, 5)],
[(9, 1)]],
dtype=[('f0', '<i4'), ('f1', '<i4')])

脚注:https://docs.scipy.org/doc/numpy/reference/arrays.indexing.html

The memory layout of an advanced indexing result is optimized for each indexing operation and no particular memory order can be assumed.

====================

b 在这种情况下是使用高级索引构建的,因此是一个副本,即使是真实的 View 也可能无法以这种方式查看:

In [1052]: a[:,:2].view('i,i')
....
ValueError: new type not compatible with array.

In [1054]: a[:,:2].copy().view('i,i')
Out[1054]:
array([[(1, 2)],
[(4, 7)],
[(9, 0)]],
dtype=[('f0', '<i4'), ('f1', '<i4')])

View 正在选择值的子集:“i,i,x,i,i,x,i,i,x...”,并且不会转换为结构化数据类型。

a 的结构化 View 的作用是:“(i,i,i),(i,i,i),...”

您可以选择结构化数组的字段子集:

In [1059]: a1=a.view('i,i,i')
In [1060]: a1
Out[1060]:
array([[(1, 2, 3)],
[(4, 7, 5)],
[(9, 0, 1)]],
dtype=[('f0', '<i4'), ('f1', '<i4'), ('f2', '<i4')])
In [1061]: b1=a1[['f0','f2']]
In [1062]: b1
Out[1062]:
array([[(1, 3)],
[(4, 5)],
[(9, 1)]],
dtype=[('f0', '<i4'), ('f2', '<i4')])

但是使用这样的 View 可以做的事情是有限的。可以在 a1 中更改值,并在 ab1 中查看。但如果我尝试更改 b1 中的值,则会收到错误。 这处于开发边缘。

关于python - 按列就地排序在切片上失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40859038/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com