Python heapq 与预排序列表的排序速度-6ren

Python heapq 与预排序列表的排序速度

转载作者：太空狗更新时间：2023-10-30 02:28:02

25

4

我有相当多的 n=10000 个排序列表，每个列表的长度为 k=100。由于合并两个排序列表需要线性时间，我认为在深度为 log(n) 的树中递归合并长度为 O(nk) 的排序列表与 heapq.merge() 比在 O(nklog(nk)) 时间内使用 sorted() 一次对整个事物进行排序。

但是，sorted() 方法在我的机器上似乎快了 17-44 倍。 sorted() 的实现是否比 heapq.merge() 快得多，是否超过了经典合并的渐近时间优势？

import itertools
import heapq

data = [range(n*8000,n*8000+10000,100) for n in range(10000)]

# Approach 1
for val in heapq.merge(*data):
    test = val

# Approach 2
for val in sorted(itertools.chain(*data)):
    test = val

最佳答案

CPython 的 list.sort()使用自适应合并排序，识别输入中的自然运行，然后“智能地”合并它们。它在利用多种预先存在的订单方面非常有效。例如，尝试排序 range(N)*2 (在 Python 2 中)用于增加 N 的值，你会发现所需的时间在 N 中呈线性增长。 .

所以heapq.merge()的唯一真正优势在此应用程序中使用较低的峰值内存如果您迭代结果(而不是具体化包含所有结果的有序列表)。

事实上，list.sort()与 heapq.merge() 相比，更多利用您特定数据中的结构方法。我对此有一些了解，因为我写了 Python 的 list.sort() ;-)

(顺便说一句，我看到你已经接受了一个答案，我觉得这很好 - 这是一个很好的答案。我只是想提供更多信息。)

关于“更多优势”

正如评论中讨论的那样，list.sort()玩很多工程技巧，可能减少对 heapq.merge() 所需的比较次数需要。这取决于数据。以下是您问题中特定数据所发生情况的快速说明。首先定义一个计算比较次数的类(注意我使用的是 Python 3，所以必须考虑所有可能的比较):

class V(object):
    def __init__(self, val):
        self.val = val

    def __lt__(a, b):
        global ncmp
        ncmp += 1
        return a.val < b.val

    def __eq__(a, b):
        global ncmp
        ncmp += 1
        return a.val == b.val

    def __le__(a, b):
        raise ValueError("unexpected comparison")

    __ne__ = __gt__ = __ge__ = __le__

sort()故意写成只使用 < (__lt__)。 heapq 更像是一场意外(而且，我记得，甚至在不同的 Python 版本中也有所不同)，但结果是 .merge()只需要 <和 == .因此，这些是该类以有用的方式定义的唯一比较。

然后更改您的数据以使用该类的实例:

data = [[V(i) for i in range(n*8000,n*8000+10000,100)]
        for n in range(10000)]

然后运行两种方法:

ncmp = 0
for val in heapq.merge(*data):
    test = val
print(format(ncmp, ","))

ncmp = 0
for val in sorted(itertools.chain(*data)):
    test = val
print(format(ncmp, ","))

输出有点显着:

43,207,638
1,639,884

所以 sorted()需要的比较远比merge()少，对于这个特定的数据。这就是它速度更快的主要原因。

长话短说

那些比较计数对我来说看起来太了不起;-) heapq.merge() 的计数看起来是我认为合理的两倍大。

花了一些时间来追踪这个。总之就是道神器heapq.merge()已实现:它维护一个由 3 元素列表对象组成的堆，每个对象包含来自可迭代对象的当前下一个值、该可迭代对象在所有可迭代对象中的基于 0 的索引(以打破比较关系)，以及该可迭代对象的 __next__。方法。 heapq函数都比较这些小列表(而不是只是 iterables 的值)，并且列表比较总是通过列表首先查找不是 == 的第一个对应项。 .

因此，例如，询问是否 [0] < [1] 首先询问是否0 == 1 .不是，所以然后它继续询问是否 0 < 1 .

因此，每个 <在执行 heapq.merge() 期间完成的比较实际上做了两个对象比较(一个 == ，另一个 < )。 ==比较是“浪费”的工作，从某种意义上说，它们在逻辑上不是解决问题所必需的——它们只是列表比较内部使用的“优化”(在这种情况下恰好不值得!)。

所以从某种意义上说，削减heapq.merge()的报告会更公平比较一半。但它仍然远远超过 sorted()需要，所以我现在就放下它 ;-)

关于Python heapq 与预排序列表的排序速度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38340588/

25

4

0

文章推荐： python - 将 for 循环应用于 Pandas 中的多个 DataFrame

文章推荐： python - 我可以创建一个将由非平凡语法创建的类吗？

文章推荐： python - 第一次写入 CSV 文件后跳过标题(Python)

文章推荐： python - 让所有属性出现在 python 的 `__dict__` 方法上

python - 为什么使用 heapq.heapify 创建的堆与迭代 heapq.heappush 创建的堆不同
我注意到给定一个列表，如果我使用 heapq.heapify() 创建一个堆，元素的顺序与我在列表上迭代并执行 heap.heappush() 时获得的顺序不同。谁能帮我理解为什么？此外，对于可迭
Python heapq 替换优先级
我正在尝试使用 Python 的 heapq 来实现 Dijkstra 的算法。如果发现通往它的较短路径，则该算法需要更改单元格的值。我正在通过此检查执行此操作: if curr_cell[0] +
python - heapq 成员资格测试和替换
来自官方heapq的示例: >>> heap = [] >>> data = [(1, 'J'), (4, 'N'), (3, 'H'), (2, 'O')] >>> for item in data
Python heapq 没有按正确的顺序推送？
工具.py import heapq class PriorityQueue: def __init__(self): self.heap=[] def push(se
Python heapq 与预排序列表的排序速度
我有相当多的 n=10000 个排序列表，每个列表的长度为 k=100。由于合并两个排序列表需要线性时间，我认为在深度为 log(n) 的树中递归合并长度为 O(nk) 的排序列表与 heapq.me
Python heapq 与排序的复杂性和性能
我是 python 的新手(使用 v3.x 语法)，希望得到有关 heapq 与排序的复杂性和性能的说明。我已经为贪婪的“找到最佳工作安排”算法实现了基于 heapq 的解决方案。但后来我了解了将“
python - heapq 库中函数的时间复杂度是多少
我的问题来自下面leetcode中的解决方案，我不明白为什么是O(k+(n-k)log(k))。补充:可能复杂度不是这个，其实我不知道heappush()和heappop()的时间复杂度 # O(k
python - 具有自定义比较谓词的 heapq
我正在尝试使用自定义排序谓词构建堆。由于进入它的值是“用户定义”类型，我无法修改它们的内置比较谓词。有没有办法做类似的事情: h = heapq.heapify([...], key=my_lt_p
python - 如果项目不可比较，heapq 无法处理具有相同优先级的元组
>>> from heapq import heappush >>> heap = [] >>> heappush(heap,(0,{"k":0})) >>> heappush(heap,(0,{"k
python - 如何使用对象比较函数反转 heapq 堆中元素的顺序？
首先，我阅读了这个SO question但它实际上不包括我想要的方法。此外，否定实际值不适用于我的用例。 Heapq 文档:https://docs.python.org/3.6/library/he
python - 检查 heapq 是否包含值
我正在使用 heapq 对象来存储我实现的类的对象。 import heapq heap = [] element1 = Element('A', 1) element2 = Element('B',
Python:heapq.heappop() 给出奇怪的结果
我试图在我的程序中使用 Python 模块 heapq，但我在使用 heapq.heappop() 时遇到了一个奇怪的问题。该函数似乎没有返回堆中的最小元素。看看下面的代码: Python 2.7.1
python - heapq.nlargest() 的关键函数
我有一本包含 {key: count} 的字典，比如说status_count = {'管理分析':13859，'计算机程序员':72112}我正在尝试为 heapq.nlargest() 编写一个键
python - 访问 heapq 的索引和长度？
我最初尝试使用优先级队列编写算法来解决 15 题，但我的导师告诉我们，我们需要编写 a* 实现，并建议我们使用 heapq 而不是优先级队列。我无法找到我的 heapq 的长度/大小，也无法访问我的
python - heapq python - 如何修改堆排序的值
我将一个名为 UNVISITED 的空列表转换为一个堆，这样: UNVISITED = [] heapq.heappush(UNVISITED, (a.f, a)) 我推送的对象a，是从一个类中实例化
python - python中的堆(heapq)稳定吗？
如果堆化此 [(10,'Mike'),(20,'Jack'),(10,'Bob')] 并返回堆的最小值，它会保证返回 (10,'Mike') 而不是 (10,'Bob') 吗？最佳答案 no hea
python - heapq.heapify 不适用于子类列表
每次 heapq.heapify 函数更改我的堆列表中的元素时，我都希望得到回调通知(顺便说一句，这是跟踪列表中的对象以及它们的索引如何获取所需要的改变了)。我的计划是从 list 继承并重写 __
python - heapq.n 返回结果在原始序列中的最大索引
如何返回可迭代的第n大项的原始列表中的索引 heapq.nlargest(2, [100, 2, 400, 500, 400]) output = [(3,500), (2, 400)] 这已经花费了
python - 使用 heapq 降序
我正在使用 Python 的 heapq 模块按升序和降序获取数据。对于升序，我使用的是最小堆，它运行良好，如下所示: >>> from heapq import heapify, heappop
python - 如何让 heapq 评估特定属性的堆？
我希望拥有一堆对象，而不仅仅是数字。它们将具有堆可以排序的整数属性。在python中使用堆最简单的方法是heapq，但是在使用heapq时如何告诉它按特定属性排序呢？最佳答案根据 document

首页

博学

6Ren·AI

商城