python - 链接发电机被认为是有害的？-6ren

python - 链接发电机被认为是有害的？

转载作者：太空狗更新时间：2023-10-30 03:01:13

我声称:Python 中的链接生成器内存效率低下，并且使它们无法用于某些类型的应用程序。如果可能，请证明我是错的。

首先，一个没有生成器的非常简单直接的例子:

import gc

def cocktail_objects():
    # find all Cocktail objects currently tracked by the garbage collector
    return filter(lambda obj: isinstance(obj, Cocktail), gc.get_objects())

class Cocktail(object):
    def __init__(self, ingredients):
        # ingredients represents our object data, imagine some heavy arrays
        self.ingredients = ingredients
    def __str__(self):
        return self.ingredients
    def __repr__(self):
        return 'Cocktail(' + str(self) + ')'

def create(first_ingredient):
    return Cocktail(first_ingredient)

def with_ingredient(cocktail, ingredient):
    # this could be some data transformation function
    return Cocktail(cocktail.ingredients + ' and ' + ingredient)

first_ingredients = ['rum', 'vodka']

print 'using iterative style:' 
for ingredient in first_ingredients:
    cocktail = create(ingredient)
    cocktail = with_ingredient(cocktail, 'coke')
    cocktail = with_ingredient(cocktail, 'limes')
    print cocktail
    print cocktail_objects()

这按预期打印:

rum and coke and limes
[Cocktail(rum and coke and limes)]
vodka and coke and limes
[Cocktail(vodka and coke and limes)]

现在让我们使用迭代器对象使鸡尾酒转换更容易组合:

class create_iter(object):
    def __init__(self, first_ingredients):
        self.first_ingredients = first_ingredients
        self.i = 0

    def __iter__(self):
        return self

    def next(self):
        try:
            ingredient = self.first_ingredients[self.i]
        except IndexError:
            raise StopIteration
        else:
            self.i += 1
            return create(ingredient)

class with_ingredient_iter(object):
    def __init__(self, cocktails_iter, ingredient):
        self.cocktails_iter = cocktails_iter
        self.ingredient = ingredient

    def __iter__(self):
        return self

    def next(self):
        cocktail = next(self.cocktails_iter)
        return with_ingredient(cocktail, self.ingredient)

print 'using iterators:'
base = create_iter(first_ingredients)
with_coke = with_ingredient_iter(base, 'coke')
with_coke_and_limes = with_ingredient_iter(with_coke, 'limes')
for cocktail in with_coke_and_limes:
    print cocktail
    print cocktail_objects()

输出与之前相同。

最后，让我们用生成器替换迭代器以摆脱样板:

def create_gen(first_ingredients):
    for ingredient in first_ingredients:
        yield create(ingredient)

def with_ingredient_gen(cocktails_gen, ingredient):
    for cocktail in cocktails_gen:
        yield with_ingredient(cocktail, ingredient)

print 'using generators:'
base = create_gen(first_ingredients)
with_coke = with_ingredient_gen(base, 'coke')
with_coke_and_limes = with_ingredient_gen(with_coke, 'limes')

for cocktail in with_coke_and_limes:
    print cocktail
    print cocktail_objects()

然而，这会打印:

rum and coke and limes
[Cocktail(rum), Cocktail(rum and coke), Cocktail(rum and coke and limes)]
vodka and coke and limes
[Cocktail(vodka), Cocktail(vodka and coke), Cocktail(vodka and coke and limes)]

这意味着在生成器链中，该链中所有当前产生的对象都保留在内存中并且不会被释放，即使不再需要先前链位置中的对象。结果:高于必要的内存消耗。

现在，问题是:为什么生成器会一直持有它们产生的对象直到下一次迭代开始？显然，生成器中不再需要这些对象，并且可以释放对它们的引用。

我在我的一个项目中使用生成器在一种管道中转换大量数据(数百兆字节的 numpy 数组)。但是正如你所看到的，这在内存方面是非常低效的。我正在使用 Python 2.7。如果这是在 Python 3 中修复的行为，请告诉我。否则，这是否符合错误报告的条件？最重要的是，除了如图所示重写之外，还有其他解决方法吗？

变通方法 1 :

print 'using imap:'
from itertools import imap
base = imap(lambda ingredient: create(ingredient), first_ingredients)
with_coke = imap(lambda cocktail: with_ingredient(cocktail, 'coke'), base)
with_coke_and_limes = imap(lambda cocktail: with_ingredient(cocktail, 'limes'), with_coke)

for cocktail in with_coke_and_limes:
    print cocktail
    print gc.collect()
    print cocktail_objects()

显然，这只有在“产量”之间不需要保持状态时才可用。在示例中就是这种情况。

初步结论:如果你使用迭代器类，那么你决定要保持什么状态。如果您使用生成器，Python 会隐式地决定要保留的状态。如果您使用 itertools.imap你不能保持任何状态。

最佳答案

您的 with_coke_and_limes在执行过程中的某个点产生 yield 。此时，该函数有一个名为 cocktail 的局部变量。 (来自它的 for 循环)它指的是生成器嵌套中下一步的“中间”鸡尾酒(即“朗姆酒和可乐”)。仅仅因为生成器在那个时候产生并不意味着它可以扔掉那个对象。 with_ingredient_gen的执行在那一点被挂起，在这一点上局部变量 cocktail仍然存在。该函数在恢复后可能需要稍后引用它。没有什么可以说 yield必须是您 for 中的最后一件事循环，或者只有一个 yield .你可以写 with_ingredient_gen像这样:

def with_ingredient_gen(cocktails_gen, ingredient):
    for cocktail in cocktails_gen:
        yield with_ingredient(cocktail, ingredient)
        yield with_ingredient(cocktail, "another ingredient")

如果 Python 扔掉 cocktail在第一次产生之后，当它在下一次迭代中恢复生成器并发现它需要 cocktail 时，它会做什么？再次反对第二次 yield ？

这同样适用于链中的其他生成器。一旦您提前 with_coke_and_limes调制鸡尾酒， with_coke和 base也被激活然后暂停，并且它们有指代自己的中间鸡尾酒的局部变量。如上所述，这些函数不能删除它们所引用的对象，因为它们在恢复后可能需要它们。

生成器函数必须对一个对象有某种引用才能产生它。并且它必须在它产生后保留该引用，因为它在产生后立即暂停，但它无法知道一旦恢复它是否需要引用。

请注意，您在第一个示例中没有看到中间对象的唯一原因是您在每个连续的鸡尾酒中覆盖了相同的局部变量，从而允许释放较早的鸡尾酒对象。如果在你的第一个代码片段中你这样做:

for ingredient in first_ingredients:
    cocktail = create(ingredient)
    cocktail2 = with_ingredient(cocktail, 'coke')
    cocktail3 = with_ingredient(cocktail, 'limes')
    print cocktail3
    print cocktail_objects()

...然后你会看到在这种情况下打印的所有三个中间鸡尾酒，因为每个现在都有一个单独的局部变量引用它。您的生成器版本将这些中间变量中的每一个拆分为单独的函数，因此您不能用“派生”鸡尾酒覆盖“父”鸡尾酒。

如果您有一个深度嵌套的生成器序列，每个生成器都在内存中创建大对象并将它们存储在局部变量中，那么这可能会导致问题，这是对的。然而，这并不是一个普遍的情况。在这种情况下，您有几种选择。一个是在第一个示例中以“平面”迭代样式执行操作。

另一种选择是编写中间生成器，这样它们实际上不会创建大对象，而只是“堆叠”这样做所需的信息。例如，在您的示例中，如果您不想要中间 Cocktail对象，不要创建它们。不是让每个生成器创建鸡尾酒，然后让下一个生成器提取前一个鸡尾酒的成分，而是让生成器只传递成分，并使用一个最终生成器将堆叠的成分组合在一起，并在最后创建一种鸡尾酒。

很难确切地说明如何为您的实际应用程序执行此操作，但它可能是可能的。例如，如果您处理 numpy 数组的生成器正在执行诸如加法、减法、转置等操作，您可以传递描述要执行的操作的“增量”，而无需实际执行。与其使用中间生成器，例如将数组乘以 3 并生成数组，不如让它生成某种指标，例如“*3”(或者甚至可能是一个进行乘法的函数)。然后你的最后一个生成器可以迭代这些“指令”并在一个地方执行所有操作。

关于python - 链接发电机被认为是有害的？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26186426/

文章推荐： python - 抛物面(3D抛物线)曲面拟合python

文章推荐： python - 如何获取 Tornado Web 套接字请求的客户端 IP？

文章推荐： python - 读入 python 时，Google Trends API 不是很好的 json

文章推荐： python - 使用分类变量的 sklearn 线性回归

java - 发电机 : ConditionalCheckFailedException
我正在处理一个 ConditionalCheckFailedException，我不确定是哪个条件未通过检查。当我打开调试器并检查异常变量时，我找不到任何有用的信息。下面是我的 Java Dynam
ios - 发电机 ios
我安装了 Mogenerator。现在我该怎么办？如何使用它？我遇到的第一个问题是，我不知道是否为 mogenerator 检查复选框“仅在安装时运行脚本”？最佳答案您具体指的是哪个复选框？一个
java - Swing 发电机
我需要使用 swing 开发一些 java gui。几年前，我确实开发了一些swing。但是您知道，过去没有太多工具可以帮助您，这让您感到非常疲惫。但我确实相信今天应该更容易，必须有工具。我想
java - MersenneTwister 发电机
我正在尝试生成 Mersenne Twister 生成器，但我总是收到此消息“MersenneTwister 无法解析为类型”这是我的代码 public class RandomVariable {
python 发电机: yield and yield from
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题吗？通过 editing this post 添加细节并澄清问题. 关闭 2 年前。 Improve t
yeoman - 如何拆除 Yeoman 发电机
我不小心安装了一个我不想要的生成器。我找不到任何方法来删除它。我应该怎么做才能实现这个目标？最佳答案生成器只是普通的 npm 模块，因此您可以使用以下命令删除它 npm uninstall -
java - 发电机 : Contains all filter
我有一个架构，其中包含一个名为 ids(数字列表)的字段如何创建 QuerySpec 来过滤包含指定列表的所有值的项目？例如: item 1: ids=[1,2,3] item 2: ids=[1
amazon-dynamodb - 发电机 : High SuccessfulRequestLatency
我们的应用程序有一段时间的延迟，这与 DynamoDB 的延迟直接相关，我们正试图找出导致延迟的原因。在此期间，表的消耗读取和消耗写入是正常的(远低于配置的容量)，并且受限请求的数量也是 0 或
boto - 发电机 : handling throttling with boto
根据 DynamoDB 文档，如果使用受支持的 SDK，导致数据库节流的请求会自动重试。但是，我找不到任何关于 boto 如何处理节流情况的提及。 boto 会自动重试受限请求还是我应该开始捕获 Pr
database - 发电机 : How to distribute workload over the month?
长话短说我有一张表，这个月有大约 200 万次 WRITE 和 0 次 READ。每个月的第一天，我需要读取上个月写入的所有行并生成 CSV + 统计信息。在这种情况下如何使用 DynamoDB
database - 发电机 : How to store a list of items
我想存储属于某个父对象的项目列表。父对象如下所示: user_id - hash key timestamp - range key attributeA - String attributeB -
html - 无 Jade express 发电机
我正在尝试使用 express 生成器生成一个 express 骨架。所以应该是这样的: $ npm install express-generator -g 但是，它添加了一堆自动 Jade 文件。
javascript - 简单的 React Redux 入门包 |发电机
我正在寻找简单易懂的 React Redux 入门包。 Eslint linting、webpack devserver 热重载和测试运行器。我想要一些比 React Starter Pack 更简
c - 尝试使用随机编号时 QuickSort.C 段错误。发电机
这是一个用 C 编写的快速排序程序，该程序编译没有任何错误。但是当运行并选择随机数进行排序时。我得到的输出如下， sam@TechTosh ~ $ gcc quick.c sam@TechTosh ~
javascript - 发电机 : Query Incorrect operand type
我正在尝试读取 DynamoDB 表中高于特定值的所有值。我将主分区键设置为一个名为 Project_ID 的数字。我正在运行查询以查看高于某个 ID 的所有值 - 主要是为了测试功能，但是在运行代码
ios - 发电机 : Decrement/Subtract a key/value
我在 DynamoDB 表中有一个类型为 Number 的键。我将操作设置为 ADD 以将值添加到现有值。 DynamoDBAttributeValue *attr =
javascript - 发电机 : Query only every 10th value
我正在查询两个特定 unixtime 值之间的数据。例如: 1516338730(今天6:12)到1516358930(今天11:48)之间的所有数据我的数据库每分钟收到一条新记录。现在，当我想查询
javascript - express 或 express 发电机 : do i need both?
只是探索 node.js 并遇到了 express；在 npm 存储库站点上 https://www.npmjs.com/package/express它清楚地表明安装是 $ npm install
javascript - 发电机 : How to append to list values in document
我有一个 DynamoDB 表 users，其文档结构类似于以下内容: { "id": "1", "name": "john", "hobbies": [ { "des
python - 发电机 : How do I do a putItem but just if key doesn't exists in Python?
我现在刚刚使用 Amazon AWS DynamoDB。在 Future 中，我想将 Items 放在我的表中，但前提是不存在具有相同键的 Item，这样我就不会覆盖现有值。你知道我是怎么做到的吗？我

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 链接发电机被认为是有害的？