gpt4 book ai didi

创建集合的 Python 性能比较 - set() 与 {} 文字

转载 作者:IT老高 更新时间:2023-10-28 21:00:31 26 4
gpt4 key购买 nike

this question 之后的讨论让我想知道,所以我决定运行一些测试并比较 set((x,y,z)){x,y,z} 的创建时间> 用于在 Python 中创建集合(我使用的是 Python 3.7)。

我使用 timetimeit 比较了这两种方法。两者都与以下结果一致*:

test1 = """
my_set1 = set((1, 2, 3))
"""
print(timeit(test1))

结果:0.30240735499999993

test2 = """
my_set2 = {1,2,3}
"""
print(timeit(test2))

结果:0.10771795900000003

所以第二种方法比第一种方法快了近 3 倍。这对我来说是一个非常令人惊讶的差异。以这种方式优化集合文字在 set() 方法上的性能的幕后发生了什么?对于哪些情况,哪种建议是可取的?

* 注意:我只显示 timeit 测试的结果,因为它们是对许多样本进行平均的,因此可能更可靠,但使用 time 测试的结果在两种情况下显示出相似的差异。


编辑:我知道 this similar question尽管它回答了我最初问题的某些方面,但并没有涵盖所有问题。问题中没有解决集合,并且由于 empty sets 在 python 中没有文字语法,我很好奇(如果有的话)使用文字创建集合与使用 有何不同set() 方法。另外,我想知道 set((x,y,z)tuple 参数 的处理是如何在幕后发生的,以及它对运行时可能产生的影响。Coldspeed 的出色回答帮助解决了问题。

最佳答案

(这是对现在已从初始问题中编辑的代码的回应)您忘记在第二种情况下调用函数。进行适当的修改,结果如预期:

test1 = """
def foo1():
my_set1 = set((1, 2, 3))
foo1()
"""
timeit(test1)
# 0.48808742000255734

test2 = """
def foo2():
my_set2 = {1,2,3}
foo2()
"""
timeit(test2)
# 0.3064506609807722

现在,时间不同的原因是因为 set() 是一个需要查找符号表的函数调用,而 {...}集合构造是语法的产物,而且速度更快。

观察反汇编的字节码,区别很明显。

import dis

dis.dis("set((1, 2, 3))")
1 0 LOAD_NAME 0 (set)
2 LOAD_CONST 3 ((1, 2, 3))
4 CALL_FUNCTION 1
6 RETURN_VALUE

dis.dis("{1, 2, 3}")
1 0 LOAD_CONST 0 (1)
2 LOAD_CONST 1 (2)
4 LOAD_CONST 2 (3)
6 BUILD_SET 3
8 RETURN_VALUE

在第一种情况下,函数调用是由指令 CALL_FUNCTION 对元组 (1, 2, 3) 进行的(它也有自己的开销,虽然很小——它是通过 LOAD_CONST) 作为常量加载的,而在第二条指令中只是一个 BUILD_SET 调用,效率更高。

Re:关于元组构造所用时间的问题,我们认为这实际上可以忽略不计:

timeit("""(1, 2, 3)""")
# 0.01858693000394851

timeit("""{1, 2, 3}""")
# 0.11971827200613916

元组是不可变的,因此编译器通过将其加载为常量来优化此操作 — 这称为 constant folding (您可以从上面的 LOAD_CONST 指令中清楚地看到这一点),因此所花费的时间可以忽略不计。这在集合中看不到,它们是可变的(感谢@user2357112 指出这一点)。


对于更大的序列,我们会看到类似的行为。 {..} 语法在使用集合推导构建集合时更快,而 set() 必须从生成器构建集合。

timeit("""set(i for i in range(10000))""", number=1000)
# 0.9775058150407858

timeit("""{i for i in range(10000)}""", number=1000)
# 0.5508635920123197

作为引用,您还可以在更新的版本上使用可迭代解包:

timeit("""{*range(10000)}""", number=1000)
# 0.7462548640323803

然而,有趣的是,set() 直接在 range 上调用时更快:

timeit("""set(range(10000))""", number=1000)
# 0.3746800610097125

这恰好比集合构造更快。您将看到其他序列(例如 lists)的类似行为。

我的建议是在构造集合文字时使用 {...} 集合推导,并作为将生成器推导传递给 set() 的替代方法;而是使用 set() 将现有的序列/可迭代转换为集合。

关于创建集合的 Python 性能比较 - set() 与 {} 文字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53977997/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com