- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我有一个这样的数组:
A = array([1,2,3,4,5,6,7,8,9,10])
我正在尝试获取这样的数组:
B = array([[1,2,3],
[2,3,4],
[3,4,5],
[4,5,6]])
每行(具有固定的任意宽度)移动一个。 A 的数组长 10k 条记录,我试图在 Numpy 中找到一种有效的方法。目前我正在使用 vstack 和一个很慢的 for 循环。有更快的方法吗?
编辑:
width = 3 # fixed arbitrary width
length = 10000 # length of A which I wish to use
B = A[0:length + 1]
for i in range (1, length):
B = np.vstack((B, A[i, i + width + 1]))
最佳答案
实际上,有一种更有效的方法可以做到这一点...使用 vstack
等的缺点是您正在制作数组的副本。
顺便说一句,这实际上与@Paul 的答案相同,但我发布这个只是为了更详细地解释事情......
有一种方法可以只用 View 来做到这一点,这样没有内存被复制。
我是直接从 Erik Rigtorp's post to numpy-discussion 借来的,而后者又从 Keith Goodman 的 Bottleneck 那里借来了它。 (这非常有用!)。
基本技巧是直接操作strides of the array (对于一维数组):
import numpy as np
def rolling(a, window):
shape = (a.size - window + 1, window)
strides = (a.itemsize, a.itemsize)
return np.lib.stride_tricks.as_strided(a, shape=shape, strides=strides)
a = np.arange(10)
print rolling(a, 3)
其中 a
是您的输入数组,而 window
是您想要的窗口长度(在您的情况下为 3)。
这会产生:
[[0 1 2]
[1 2 3]
[2 3 4]
[3 4 5]
[4 5 6]
[5 6 7]
[6 7 8]
[7 8 9]]
但是,原始 a
和返回的数组之间绝对没有重复的内存。这意味着它比其他选项速度快并且可扩展性很多。
例如(使用 a = np.arange(100000)
和 window=3
):
%timeit np.vstack([a[i:i-window] for i in xrange(window)]).T
1000 loops, best of 3: 256 us per loop
%timeit rolling(a, window)
100000 loops, best of 3: 12 us per loop
如果我们将其推广到沿 N 维数组的最后一个轴的“滚动窗口”,我们会得到 Erik Rigtorp 的“滚动窗口”函数:
import numpy as np
def rolling_window(a, window):
"""
Make an ndarray with a rolling window of the last dimension
Parameters
----------
a : array_like
Array to add rolling window to
window : int
Size of rolling window
Returns
-------
Array that is a view of the original array with a added dimension
of size w.
Examples
--------
>>> x=np.arange(10).reshape((2,5))
>>> rolling_window(x, 3)
array([[[0, 1, 2], [1, 2, 3], [2, 3, 4]],
[[5, 6, 7], [6, 7, 8], [7, 8, 9]]])
Calculate rolling mean of last dimension:
>>> np.mean(rolling_window(x, 3), -1)
array([[ 1., 2., 3.],
[ 6., 7., 8.]])
"""
if window < 1:
raise ValueError, "`window` must be at least 1."
if window > a.shape[-1]:
raise ValueError, "`window` is too long."
shape = a.shape[:-1] + (a.shape[-1] - window + 1, window)
strides = a.strides + (a.strides[-1],)
return np.lib.stride_tricks.as_strided(a, shape=shape, strides=strides)
那么,让我们看看这里发生了什么... 操作数组的strides
可能看起来有点神奇,但是一旦你了解了发生了什么,就完全没有了。 numpy 数组的步幅描述了沿给定轴递增一个值所必须采取的步骤的大小(以字节为单位)。所以,在 64 位 float 的一维数组的情况下,每一项的长度是 8 个字节,而 x.strides
是 (8,)
。
x = np.arange(9)
print x.strides
现在,如果我们将其重新整形为 2D、3x3 数组,步幅将是 (3 * 8, 8)
,因为我们必须跳过 24 个字节才能在第一步递增一个轴,8 个字节沿第二个轴递增一步。
y = x.reshape(3,3)
print y.strides
类似地,转置与反转数组的步幅相同:
print y
y.strides = y.strides[::-1]
print y
显然,数组的步长和数组的形状密切相关。如果我们改变一个,我们就必须相应地改变另一个,否则我们将无法对实际保存数组值的内存缓冲区进行有效描述。
因此,如果你想同时改变数组的形状和大小,你不能只通过设置x.strides
和 x.shape
,即使新的步幅和形状是兼容的。
这就是 numpy.lib.as_strided
的用武之地。它实际上是一个非常简单的函数,它只是同时设置数组的步幅和形状。
它会检查两者是否兼容,但不会检查旧步幅和新形状是否兼容,如果您独立设置两者,则会发生这种情况。 (它实际上是通过 numpy's __array_interface__
实现的,它允许任意类将内存缓冲区描述为 numpy 数组。)
所以,我们所做的只是让一个项目沿一个轴前进(在 64 位数组的情况下为 8 个字节),但 也仅沿另一个轴前进 8 个字节。
换句话说,如果“窗口”大小为 3,则数组的形状为 (whatever, 3)
,而不是步进完整的 3 * x。 itemsize
对于第二个维度,它只前进一个项目,有效地使新数组的行成为原始数组的“移动窗口” View 。
(这也意味着 x.shape[0] * x.shape[1]
与新数组的 x.size
不同。)
无论如何,希望这能让事情变得更清楚..
关于python - 从一维数组构建高效的 Numpy 二维数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4923617/
我正在尝试创建一个包含 int[][] 项的数组 即 int version0Indexes[][4] = { {1,2,3,4}, {5,6,7,8} }; int version1Indexes[
我有一个整数数组: private int array[]; 如果我还有一个名为 add 的方法,那么以下有什么区别: public void add(int value) { array[va
当您尝试在 JavaScript 中将一个数组添加到另一个数组时,它会将其转换为一个字符串。通常,当以另一种语言执行此操作时,列表会合并。 JavaScript [1, 2] + [3, 4] = "
根据我正在阅读的教程,如果您想创建一个包含 5 列和 3 行的表格来表示这样的数据... 45 4 34 99 56 3 23 99 43 2 1 1 0 43 67 ...它说你可以使用下
我通常使用 python 编写脚本/程序,但最近开始使用 JavaScript 进行编程,并且在使用数组时遇到了一些问题。 在 python 中,当我创建一个数组并使用 for x in y 时,我得
我有一个这样的数组: temp = [ 'data1', ['data1_a','data1_b'], ['data2_a','data2_b','data2_c'] ]; // 我想使用 toStr
rent_property (table name) id fullName propertyName 1 A House Name1 2 B
这个问题在这里已经有了答案: 关闭13年前。 Possible Duplicate: In C arrays why is this true? a[5] == 5[a] array[index] 和
使用 Excel 2013。经过多年的寻找和适应,我的第一篇文章。 我正在尝试将当前 App 用户(即“John Smith”)与他的电子邮件地址“jsmith@work.com”进行匹配。 使用两个
当仅在一个边距上操作时,apply 似乎不会重新组装 3D 数组。考虑: arr 1),但对我来说仍然很奇怪,如果一个函数返回一个具有尺寸的对象,那么它们基本上会被忽略。 最佳答案 这是一个不太理
我有一个包含 GPS 坐标的 MySQL 数据库。这是我检索坐标的部分 PHP 代码; $sql = "SELECT lat, lon FROM gps_data"; $stmt=$db->query
我需要找到一种方法来执行这个操作,我有一个形状数组 [批量大小, 150, 1] 代表 batch_size 整数序列,每个序列有 150 个元素长,但在每个序列中都有很多添加的零,以使所有序列具有相
我必须通过 url 中的 json 获取文本。 层次结构如下: 对象>数组>对象>数组>对象。 我想用这段代码获取文本。但是我收到错误 :org.json.JSONException: No valu
enter code here- (void)viewDidLoad { NSMutableArray *imageViewArray= [[NSMutableArray alloc] init];
知道如何对二维字符串数组执行修剪操作,例如使用 Java 流 API 进行 3x3 并将其收集回相同维度的 3x3 数组? 重点是避免使用显式的 for 循环。 当前的解决方案只是简单地执行一个 fo
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
我有来自 ASP.NET Web 服务的以下 XML 输出: 1710 1711 1712 1713
如果我有一个对象todo作为您状态的一部分,并且该对象包含数组列表,则列表内部有对象,在这些对象内部还有另一个数组listItems。如何更新数组 listItems 中 id 为“poi098”的对
我想将最大长度为 8 的 bool 数组打包成一个字节,通过网络发送它,然后将其解压回 bool 数组。已经在这里尝试了一些解决方案,但没有用。我正在使用单声道。 我制作了 BitArray,然后尝试
我们的数据库中有这个字段指示一周中的每一天的真/假标志,如下所示:'1111110' 我需要将此值转换为 boolean 数组。 为此,我编写了以下代码: char[] freqs = weekday
我是一名优秀的程序员,十分优秀!