python递归 yield 以减少内存占用

转载作者：太空宇宙更新时间：2023-11-04 10:20:31

24

4

我有一个像下面这样的函数，它递归地将一个大数组分成两个子数组，并收集所有子数组以供将来处理。我的问题是有没有办法在拆分过程中产生子数组以减少内存占用，例如split调用的数组很大，~50G。

def split(array, subarrays):
    n = len(array)
    if n == 1:
        return
    else:
        i = n / 2
        subarray1 = array[:i]
        subarrays.append(subarray1)
        subarray2 = array[i:]
        subarrays.append(subarray2)
        split(subarray1, subarrays)
        split(subarray2, subarrays)
        return 

subarrays = []
# In production, range(10) will be replaced with a huge array, e.g. 50G
split(range(10), subarrays)
for i in subarrays:
    print i
    # do some other stuff with each subarray

最佳答案

您可以尝试使用 memoryview , Eli Bendersky 写了一篇不错的 blog entry对此。

不过，我会尝试总结一下。在对象上创建内存 View 时，您正在创建对存储对象的内存中的 (ctype) 数据结构的引用。 memoryview 切片是在该数据结构中查找特定值的位置的引用。您可以在同一底层结构上创建多个 View ，而无需复制任何内容。这就像对列表或数组进行切片一样。

尽管如此，您的数据必须支持缓冲协议(protocol)(numpy 数组和字节数组支持，但列表不支持)。

我觉得加上这一行就够了

memview = memoryview(yourarray)

到您的代码并将其传递给 split 而不是您的数组。

不过要注意两件事:

您正在处理一个大数组，因此对数组的一部分(在一个切片中进行)的更改会传播到覆盖该值的所有其他切片。
您的结果现在是内存 View 对象。要打印它们，您需要先将它们转换(例如转换为列表)。

例子:

>>> memview = memoryview("abcde")
>>> print memview
<memory at 0xfoo>
>>> print list(memview)
['a', 'b', 'c', 'd', 'e']

>>> mv_slice = memview[3:]
>>> print list(mv_slice)
['d', 'e']

>>> mv_slice[0] = 'y'
>>> print list(mv_slice)
['y', 'e']

>>> print list(memview)
['a', 'b', 'c', 'y', 'e']
# note that the change propagated to the main memoryview

当然，所有这些都假设您可以一次将 50GB 加载到内存中。如果你做不到，你应该看看 mmap模块。

编辑 - numpy 字符串数组

Will memoryview work with a numpy array of strings?

seems not. e.g. memview = memoryview(np.array(["abcde", 'aa'])), memview[0] is 'abcde', but memview[1] is 'aa\x00\x00\x00'

好吧，从技术上讲它确实有效。它只是展示了 numpy 如何存储字符串数组。那就是:很糟糕 ;)

如果你像这样创建一个 numpy 字符串数组:

>>> npa = np.array(["abcde", 'aa'])
>>> print repr(npa)
array(['abcde', 'aa'],
  dtype='|S5')

您看到 dtype 是 |S5，表示长度为 5 的字符串。较短字符串的“缺失”位置用空(零)字节填充(\x00) (为了方便，numpy 通常对我们隐藏)。这是因为 numpy 使用连续的二维数组将字符串存储在内存中以允许真正快速的随机访问。

这意味着，数组中的所有条目消耗的内存与最长的字符串一样多。
将这个高度构造的数组想象成一个极端的例子:

strings = ["foobar"*100000] + ["f" for _ in xrange(10000)]
huge_npa = np.array(strings, dtype=str)

它包含一个非常长的字符串(600.000 个字符，每个 1 字节)和 10.000 个只有 1 字节的字符串。所以总内存消耗应该在 600KB 左右。如果你创建这个数组，虽然它占用了 6GB 的内存。

Expected:
1 string * 6 bytes * 100.000 => 600.000 * 1 byte = 600 KB
10.000 strings * 1 byte      =>  10.000 * 1 byte =  10 KB
total                                              610 kB

Reality:
10.000 strings * 6 bytes * 10.0000 => 6.000.000.000 * 1 byte = 6 GB

如果您的字符串大小差异很大，您可能会在这里浪费大量内存。也许您应该重新考虑为此使用 numpy 数组。

关于python递归 yield 以减少内存占用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32529645/

24

4

0

文章推荐： linux - Caffe 安装，链接问题

文章推荐： linux - 在 shell 脚本中对文件名的特定部分进行排序

javascript - ES6 yield (yield 1)(yield 2)(yield 3)()
function* generatorFunction() { yield (yield 1)(yield 2)(yield 3)(); } var iterator = generatorFun
javascript - 生成器函数中的委托(delegate) yield (yield star、yield *)
ECMAScript 6 应该带来生成器函数和迭代器。生成器函数(具有 function* 语法)返回一个迭代器。迭代器有一个 next 方法，当重复调用时，该方法会执行生成器函数的主体，并在每个 y
javascript - 生成器函数中的委托(delegate) yield (yield star, yield *)
ECMAScript 6 应该引入生成器函数和迭代器。生成器函数(具有 function* 语法)返回迭代器。迭代器有一个 next 方法，当重复调用时，它会执行生成器函数的主体，在每个 yield
python 发电机: yield and yield from
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题吗？通过 editing this post 添加细节并澄清问题. 关闭 2 年前。 Improve t
python - yield (yield) 有什么作用？
自 python 2.5 以来，可以将 send()、throw()、close() 放入生成器中。在定义的生成器中，可以通过执行以下操作来“捕获”发送的数据: def gen(): whil
php - 在 PHP : what is the difference between "return", "yield", "yield from"中，在同一个函数中混合了 yield 和 return？
return的区别和 yield似乎很清楚，直到我发现还有 yield from以及将两者结合起来的可能性 return和 yield在完全相同的功能! 我对return的理解之后的一切都是不是执
ruby-on-rails - Rails yield 和 content_for wieird 行为， `yield :filter` 仅在放置在默认 yield 之后才有效
假设我有这个部分，我正在尝试渲染 #layouts/_subheader.html.erb 当我在这样的 View 中使用这个部分时 Content For Yield
yield - Roslyn 是否将编译器生成的 yield 转换暴露给语法树？
yield操作符是由编译器在底层实现的，该编译器生成一个实现符合 IEnumerable 的状态机的类。和 IEnumerator . 给定一个罗斯林 MethodDeclarationSyntax
php - "yield"覆盖 "yield from"项
$item) echo "$index $item" . PHP_EOL; } resolve(generator1()); echo PHP_EOL; resolve(gener
python - `yield from` 生成器与 `yield from` 列表性能
这个问题在这里已经有了答案: Why converting list to set is faster than converting generator to set? (1 个回答) List c
python - 深入——yield from inside yield
是否有一个单行代码来获取生成器并生成该生成器中的所有元素？例如: def Yearly(year): yield YEARLY_HEADER for month in range(1, 13)
python - Yield 和 yield from - 你能把它们结合起来吗？
刚发现yield from 结构，在我看来这有点像反向的yield，而不是从生成器中获取对象，您插入/将对象发送到生成器。喜欢: def foo(): while True:
python - yield 中的 yield 有什么作用？
考虑以下代码: def mygen(): yield (yield 1) a = mygen() print(next(a)) print(next(a)) 输出产量: 1 None 解释器
python - 协程 yield 与任务 yield
Guido van Rossum，在 2014 年关于 Tulip/Asyncio 的演讲中 shows the slide : Tasks vs coroutines Compare: res =
ruby - yield self 和 yield 的区别？
谁能帮我理解“yield self”和“yield”的区别？ class YieldFirstLast attr_accessor :first, :last def initiali
php - Blade 模板，@yield 中的@yield()
这是我目前使用 Laravel 5 实现的 Open Graph 标签: app.blade.php @yield('title') page.blade.php @extends('app'
python - Tornado的 "yield"和asyncio的 "yield from"在机制上的区别？
在 Tornado 中，我们通常会编写如下代码来异步调用函数: class MainHandler(tornado.web.RequestHandler): @tornado.gen.coro
aQute.bnd.indexer.analyzers.Yield.yield()方法的使用及代码示例
本文整理了Java中aQute.bnd.indexer.analyzers.Yield.yield()方法的一些代码示例，展示了Yield.yield()的具体用法。这些代码示例主要来源于Github
r - 将日 yield 转换为 r 中的月 yield
我们有超过 100 个共同基金的每日返回，我们希望将这些返回转换为月度返回。每月返回不应是每个月的平均值，而是每个月末的资金返回。基金在不同的时间点开始和结束，它们需要自己保留(不是每个月的共同基金
scala - 使用 Scala 延续实现 yield ( yield 返回)
如何实现 C# yield return使用 Scala 延续？我希望能够编写 Scala Iterator s 风格相同。在 this Scala news post 的评论中有刺伤，但它不起作用(

首页

博学

6Ren·AI

商城

python递归 yield 以减少内存占用

编辑 - numpy 字符串数组