python - CPython 和 PyPy 如何决定何时调整集合的大小？-6ren

python - CPython 和 PyPy 如何决定何时调整集合的大小？

转载作者：行者123 更新时间：2023-12-01 05:01:39

25

4

在 CPython 和 PyPy 上向集合中添加元素时，何时调整它们的大小，以及底层容器的大小是多少？

这个问题在原理上与max_load_factor类似，as C++ describes it for their unordered_map .

最佳答案

CPython 使用this check决定何时调整大小:

if (!(so->used > n_used && so->fill*3 >= (so->mask+1)*2))

这基本上意味着当 2/3 满时，容器将调整大小。

调整大小本身会使大集合的空间量增加一倍，而将小集合的空间量增加四倍:

return set_table_resize(so, so->used>50000 ? so->used*2 : so->used*4);

Armin Rigo 在评论中指出 PyPy 使用字典实现其集合，因此 relevant resizing code是:

jit.conditional_call(d.resize_counter <= x * 3,
                     _ll_dict_resize_to, d, num_extra)

这是相同的策略，因为 resize_counter 是字典中剩余的空白空间。

<小时/>

在指出这一点之前，我诉诸了基准测试。您可以通过查找非常小的停顿来检测大小调整。对于小尺寸来说，这有点随机，因此您必须小心消除噪音。这是执行此操作的脚本:

from collections import Counter
import time

iterations = 100
internal_iterations = 100000

def main():
    resizes = Counter()

    for i in range(iterations):
        print("Completion: [{:3.0%}]\r".format(i/iterations), end="")

        s = set()
        maxtime_so_far = 0
        for j in range(internal_iterations):
            start = time.time()
            s.add(j)
            end = time.time()

            if end-start > maxtime_so_far:
                maxtime_so_far = end-start
                resizes[j] += 1

    print()

    format_string = "{0:<6} = 0b{0:<18b} [found %: {1:2.0%}]"

    for index in sorted(resizes):
        chance = resizes[index] / iterations

        if chance >= 0.05:
            print(format_string.format(index, chance))

main()

这是 CPython 的输出:

Completion: [99%]
0      = 0b0                  [found %: 100%]
5      = 0b101                [found %: 83%]
21     = 0b10101              [found %: 12%]
85     = 0b1010101            [found %: 94%]
341    = 0b101010101          [found %: 97%]
1365   = 0b10101010101        [found %: 100%]
5461   = 0b1010101010101      [found %: 100%]
21845  = 0b101010101010101    [found %: 100%]
87381  = 0b10101010101010101  [found %: 100%]

您可以看到 10101...2 模式，这是您从 2 的幂除以 3 得到的结果，此时对象将调整大小。 (此后会调整大小，因为脚本是 0 索引的)。

在 PyPy3 上，将迭代次数更改为更大(iterations = 1000；internal_iterations = 100000)，我得到

Completion: [100%]
0      = 0b0                  [found %: 78%]
5      = 0b101                [found %: 6%]
21     = 0b10101              [found %: 5%]
341    = 0b101010101          [found %: 24%]
1365   = 0b10101010101        [found %: 66%]
5461   = 0b1010101010101      [found %: 100%]
21845  = 0b101010101010101    [found %: 100%]
87381  = 0b10101010101010101  [found %: 71%]

这意味着 PyPy 的策略是相同的。

奇怪的是，可能是由于 JIT 或 GC，有时我会得到类似的东西:

Completion: [100%]
0      = 0b0                  [found %: 13%]
5      = 0b101                [found %: 11%]
21     = 0b10101              [found %: 22%]
22     = 0b10110              [found %: 6%]
23     = 0b10111              [found %: 5%]
24     = 0b11000              [found %: 5%]
341    = 0b101010101          [found %: 30%]
1365   = 0b10101010101        [found %: 66%]
5461   = 0b1010101010101      [found %: 98%]

取决于迭代次数。我想这是由于该点周围的迭代次数相对较少，而且可能意义不大。如果 GC 收集发生在第 20 项附近，则可能会导致这种压力。

关于python - CPython 和 PyPy 如何决定何时调整集合的大小？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25968487/

25

4

0

文章推荐： ruby-on-rails - 可选的 belongs_to 和 Rails 路由

文章推荐： jquery - Jquery UI 日期选择器中的时区设置

文章推荐： java - 为什么我们在 Java 3D 中需要 Canvas？

文章推荐： sybase - 如何以整数或 varchar 获取精确的 Sybase DB 大小

c - 大小(数组)/大小(整数)
这个问题在这里已经有了答案: C sizeof a passed array [duplicate] (7 个回答) 8年前关闭。在一个函数中，我声明了一个数组: int char_count_ar
linux - 为什么文件系统有自己的 block 大小，而不是使用硬盘 block 大小？
简而言之，文件系统如何与 block 设备通信？最佳答案我对 block 大小不太了解。我认为 ext4(Linux)的文件系统的 block 大小是 4KB，考虑到现代处理器的页面大小(4KB)
mysql - tinyint(大小)，varchar(大小): "size" explaination
我知道 tinyint(1) 和 tinyint(2) 具有相同的存储空间范围。唯一的区别是显示宽度不同。这是否意味着 tinyint(1) 将存储所有类型的整数但只正确显示 0 到 9 的范围？而
c++ - 大小 8 的无效读取，大小 8 的无效写入 (Valgrind)
今晚我已经研究了以下代码几个小时，但我只是摸不着头脑。当使用函数从标准输入填充数组时，我不断收到“大小 8 的无效写入”和“大小 8 的无效读取”。如有任何帮助，我们将不胜感激...我知道 Sta
c - 大小 8 的无效读取，大小 8 的无效写入，C
我有一个 valgrind 错误，我不知道如何摆脱它们: ==5685== Invalid read of size 8 ==5685== at 0x4008A1: main (in /home
Hadoop block 大小 vs 拆分 vs block 大小
我对 Hadoop 的概念有点困惑。 Hadoop block 大小、拆分大小和 block 大小之间有什么区别？提前致谢。最佳答案 block 大小和 block 大小相同。拆分大小可能与
javascript - 超过 localStorage 配额(localStorage 大小!= 文件下载大小)& 如何检查 localStorage 大小
我想不出一个好的标题，所以希望可以。我正在做的是创建一个离线 HTML5 webapp。 “出于某些原因”我不希望将某些文件放在缓存 list 中，而是希望将内容放在 localStorage 中。
xamarin - 减少 Xamarin.Forms 中的 APK 大小，APK 大小 80MB
无法将 xamarin apk 大小减少到 80 MB 以下，已执行以下操作: 启用混淆器配置:发布平台:事件(任何 CPU)。启用 Multi-Dex:true 启用开发人员检测(调试和分析)
python - 读取多个 csv 文件(大小 mxm)并加载为 n 维数组(大小 nxmxm)(不连接)
我正在开发一个程序，需要将大量 csv 文件(数千个)加载到数组中。 csv 文件的尺寸为 45x100，我想创建一个尺寸为 nx45x100 的 3-d 数组。目前，我使用 pd.read_csv(
react-native - Flutter apk/ipa 大小 vs React Native apk/ipa 大小
Hello World 示例的 React Native APK 大小约为 20M (in recent versions)，因为支持不同的硬件架构(ARMv7、ARMv8、X86 等)，而同一应用程
python - 将 n 个元素(大小 = 2 字节，十进制)的列表拆分为 2n 个元素(大小 = 1 字节，十六进制)
我有一个包含 n 个十进制元素的列表，其中每个元素都是两个字节长。可以说: x = [9000 , 5000 , 2000 , 400] 这个想法是将每个元素拆分为 MSB 和 LSB 并将其存储在
GtkTextView 大小
如何设置 GtKTextView 的大小？我想我不能使用 gtk_widget_set_usize。最佳答案您不能直接控制小部件的大小，而是由其容器完成。您可以使用 gtk_widget_set_
具有函数的结构的c++大小
这个问题在这里已经有了答案: c++ sizeof() of a class with functions (7 个答案) 关闭 5 年前。结果是 12。 foobar 函数存储在内存中的什么位置
image - 为什么图像序列比源视频大(大小)？
当我在 ffmpeg(或任何其他程序)中使用这样的命令时: ffmpeg -i input.mp4 image%d.jpg 所有图像的组合文件大小总是比视频本身大。我尝试减少每秒帧数、降低压缩设置、模
clojurescript 高级编译 - 大小
我是 clojurescript 的新手。高级编译后出现“77 KB”的javascript文件是否正常？我有一个 clojurescript 文件: 我正在使用 leinigen: lein c
Qt QPixmap 大小
我想要一个 QPixmap尺寸为 50 x 50。我试过 : QPixmap watermark(QSize(50,50)); watermark.load(":/icoMenu/preparati
卷积层的 tensorflow 大小
我正在尝试从一篇研究论文中重新创建一个 cnn，但我对深度学习还是个新手。我得到了一个大小为 32x32x7 的 3d 补丁。我首先想执行一个大小为 3x3 的卷积，具有 32 个特征和步幅为 2。
iPhone如何在旋转设备时正确调整 View 大小
我一直在尝试调整 View Controller 内的 View 大小，但到目前为止没有运气。基本上，我的 View 最底部有一个按钮，当方向从纵向更改为横向时，该按钮不再可见，因为它现在太靠下了。
javascript - 上传前检查图像尺寸/大小
如何使用此功能检查图像的尺寸？我只是想在上传之前检查一下... $("#LINK_UPLOAD_PHOTO").submit(function () { var form = $(this);
二叉搜索树上的 JavaScript 大小
我用 C++ 完成了这个，因为你可以通过引用传递参数。我无法弄清楚如何在 JavaScript 中执行此操作。我的代码需要更改什么？我的输出是1 this.sizeOfBst = function()

首页

博学

6Ren·AI

商城

python - CPython 和 PyPy 如何决定何时调整集合的大小？