gpt4 book ai didi

python - 按最大大小将 numpy 数组拆分为 block

转载 作者:太空狗 更新时间:2023-10-30 02:15:28 28 4
gpt4 key购买 nike

我有一些非常 大的二维 numpy 数组。一组数据是 55732 x 257659,超过 140 亿个元素。因为我需要执行的某些操作抛出 MemoryError,所以我想尝试将数组拆分为特定大小的 block ,然后针对这些 block 运行它们。 (我可以在对每个部分运行操作后汇总结果。)我的问题是 MemoryErrors 意味着重要的是我可以以某种方式限制数组的大小,而不是将它们拆分成一个固定件数。

例如,让我们生成一个 1009 x 1009 的随机数组:

a = numpy.random.choice([1,2,3,4], (1009,1009))

我的数据不一定能平均分割,而且绝对不能保证按我想要的大小分割。所以我选择了 1009,因为它是素数。

还假设我希望它们以不大于 50 x 50 的 block 的形式出现。因为这只是为了避免出现非常大的数组时出现错误,所以如果结果不准确也没关系。

我怎样才能把它分成所需的 block ?

我正在使用 Python 3.6 64 位和 numpy 1.14.3(最新)。

相关

我看过this function that uses reshape , 但如果行数和列数不能完全除以大小,则不起作用。

This question (以及其他类似的)有解释如何拆分成一定数量的 block 的答案,但这并没有解释如何拆分成一定大小。

我还看到了this question ,因为这实际上是我的确切问题。答案和评论建议切换到 64 位(我已经拥有)并使用 numpy.memmap。都没有帮助。

最佳答案

这样做可以使生成的数组的形状略小于所需的最大值,或者它们恰好具有所需的最大值,除了最后的一些余数。

基本逻辑是计算拆分数组的参数,然后使用array_split沿数组的每个轴(或维度)拆分数组。

我们需要 numpymath 模块以及示例数组:

import math
import numpy

a = numpy.random.choice([1,2,3,4], (1009,1009))

略低于最大值

逻辑

首先将最终 block 大小的形状沿着要将其拆分成的每个维度存储在一个元组中:

chunk_shape = (50, 50)

array_split 一次仅沿一个轴(或维度)或一个数组拆分。因此,让我们从第一个轴开始。

  1. 计算我们需要将数组拆分成的部分数:

    num_sections = math.ceil(a.shape[0] / chunk_shape[0])

    在我们的示例中,这是 21 (1009/50 = 20.18)。

  2. 现在拆分它:

    first_split = numpy.array_split(a, num_sections, axis=0)

    这为我们提供了一个包含 21 个(请求部分的数量)个 numpy 数组的列表,这些数组被拆分,因此它们在第一维中不大于 50:

    print(len(first_split))
    # 21
    print({i.shape for i in first_split})
    # {(48, 1009), (49, 1009)}
    # These are the distinct shapes, so we don't see all 21 separately

    在这种情况下,它们沿该轴为 48 和 49。

  3. 我们可以对第二个维度的每个新数组做同样的事情:

    num_sections = math.ceil(a.shape[1] / chunk_shape[1])
    second_split = [numpy.array_split(a2, num_sections, axis=1) for a2 in first_split]

    这给了我们一个列表列表。每个子列表包含我们想要的大小的 numpy 数组:

    print(len(second_split))
    # 21
    print({len(i) for i in second_split})
    # {21}
    # All sublists are 21 long
    print({i2.shape for i in second_split for i2 in i})
    # {(48, 49), (49, 48), (48, 48), (49, 49)}
    # Distinct shapes

完整功能

我们可以使用递归函数为任意维度实现:

def split_to_approx_shape(a, chunk_shape, start_axis=0):
if len(chunk_shape) != len(a.shape):
raise ValueError('chunk length does not match array number of axes')

if start_axis == len(a.shape):
return a

num_sections = math.ceil(a.shape[start_axis] / chunk_shape[start_axis])
split = numpy.array_split(a, num_sections, axis=start_axis)
return [split_to_approx_shape(split_a, chunk_shape, start_axis + 1) for split_a in split]

我们这样调用它:

full_split = split_to_approx_shape(a, (50,50))
print({i2.shape for i in full_split for i2 in i})
# {(48, 49), (49, 48), (48, 48), (49, 49)}
# Distinct shapes

精确形状加余数

逻辑

如果我们想更巧妙一点,让所有新数组都完全指定的大小,除了尾随的剩余数组,我们可以通过传递一个索引列表来拆分到array_split.

  1. 首先建立索引数组:

    axis = 0
    split_indices = [chunk_shape[axis]*(i+1) for i in range(math.floor(a.shape[axis] / chunk_shape[axis]))]

    这给出了一个索引列表,每个 50 从最后一个开始:

    print(split_indices)
    # [50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000]
  2. 然后拆分:

    first_split = numpy.array_split(a, split_indices, axis=0)
    print(len(first_split))
    # 21
    print({i.shape for i in first_split})
    # {(9, 1009), (50, 1009)}
    # Distinct shapes, so we don't see all 21 separately
    print((first_split[0].shape, first_split[1].shape, '...', first_split[-2].shape, first_split[-1].shape))
    # ((50, 1009), (50, 1009), '...', (50, 1009), (9, 1009))
  3. 然后再次针对第二个轴:

    axis = 1
    split_indices = [chunk_shape[axis]*(i+1) for i in range(math.floor(a.shape[axis] / chunk_shape[axis]))]
    second_split = [numpy.array_split(a2, split_indices, axis=1) for a2 in first_split]
    print({i2.shape for i in second_split for i2 in i})
    # {(9, 50), (9, 9), (50, 9), (50, 50)}

完整功能

适配递归函数:

def split_to_shape(a, chunk_shape, start_axis=0):
if len(chunk_shape) != len(a.shape):
raise ValueError('chunk length does not match array number of axes')

if start_axis == len(a.shape):
return a

split_indices = [
chunk_shape[start_axis]*(i+1)
for i in range(math.floor(a.shape[start_axis] / chunk_shape[start_axis]))
]
split = numpy.array_split(a, split_indices, axis=start_axis)
return [split_to_shape(split_a, chunk_shape, start_axis + 1) for split_a in split]

我们用完全相同的方式调用它:

full_split = split_to_shape(a, (50,50))
print({i2.shape for i in full_split for i2 in i})
# {(9, 50), (9, 9), (50, 9), (50, 50)}
# Distinct shapes

附加说明

性能

这些功能看起来相当快。我能够在 0.05 秒内使用任一函数将我的示例数组(包含超过 140 亿个元素)拆分为 1000 x 1000 个形状的 block (产生超过 14000 个新数组):

print('Building test array')
a = numpy.random.randint(4, size=(55000, 250000), dtype='uint8')
chunks = (1000, 1000)
numtests = 1000
print('Running {} tests'.format(numtests))
print('split_to_approx_shape: {} seconds'.format(timeit.timeit(lambda: split_to_approx_shape(a, chunks), number=numtests) / numtests))
print('split_to_shape: {} seconds'.format(timeit.timeit(lambda: split_to_shape(a, chunks), number=numtests) / numtests))

输出:

Building test array
Running 1000 tests
split_to_approx_shape: 0.035109398348040485 seconds
split_to_shape: 0.03113800323300747 seconds

我没有测试更高维数组的速度。

小于最大值的形状

如果任何维度的大小小于指定的最大值,这些函数都可以正常工作。这不需要特殊的逻辑。

关于python - 按最大大小将 numpy 数组拆分为 block ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50305923/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com