- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有相当多的 n=10000 个排序列表,每个列表的长度为 k=100。由于合并两个排序列表需要线性时间,我认为在深度为 log(n) 的树中递归合并长度为 O(nk) 的排序列表与 heapq.merge()
比在 O(nklog(nk)) 时间内使用 sorted()
一次对整个事物进行排序。
但是,sorted()
方法在我的机器上似乎快了 17-44 倍。 sorted()
的实现是否比 heapq.merge()
快得多,是否超过了经典合并的渐近时间优势?
import itertools
import heapq
data = [range(n*8000,n*8000+10000,100) for n in range(10000)]
# Approach 1
for val in heapq.merge(*data):
test = val
# Approach 2
for val in sorted(itertools.chain(*data)):
test = val
最佳答案
CPython 的 list.sort()
使用自适应合并排序,识别输入中的自然运行,然后“智能地”合并它们。它在利用多种预先存在的订单方面非常有效。例如,尝试排序 range(N)*2
(在 Python 2 中)用于增加 N
的值,你会发现所需的时间在 N
中呈线性增长。 .
所以heapq.merge()
的唯一真正优势在此应用程序中使用较低的峰值内存如果您迭代结果(而不是具体化包含所有结果的有序列表)。
事实上,list.sort()
与 heapq.merge()
相比,更多 利用您特定数据中的结构方法。我对此有一些了解,因为我写了 Python 的 list.sort()
;-)
(顺便说一句,我看到你已经接受了一个答案,我觉得这很好 - 这是一个很好的答案。我只是想提供更多信息。)
正如评论中讨论的那样,list.sort()
玩很多工程技巧,可能减少对 heapq.merge()
所需的比较次数需要。这取决于数据。以下是您问题中特定数据所发生情况的快速说明。首先定义一个计算比较次数的类(注意我使用的是 Python 3,所以必须考虑所有可能的比较):
class V(object):
def __init__(self, val):
self.val = val
def __lt__(a, b):
global ncmp
ncmp += 1
return a.val < b.val
def __eq__(a, b):
global ncmp
ncmp += 1
return a.val == b.val
def __le__(a, b):
raise ValueError("unexpected comparison")
__ne__ = __gt__ = __ge__ = __le__
sort()
故意写成只使用 <
(__lt__
)。 heapq
更像是一场意外(而且,我记得,甚至在不同的 Python 版本中也有所不同),但结果是 .merge()
只需要 <
和 ==
.因此,这些是该类以有用的方式定义的唯一比较。
然后更改您的数据以使用该类的实例:
data = [[V(i) for i in range(n*8000,n*8000+10000,100)]
for n in range(10000)]
然后运行两种方法:
ncmp = 0
for val in heapq.merge(*data):
test = val
print(format(ncmp, ","))
ncmp = 0
for val in sorted(itertools.chain(*data)):
test = val
print(format(ncmp, ","))
输出有点显着:
43,207,638
1,639,884
所以 sorted()
需要的比较远比merge()
少,对于这个特定的数据。这就是它速度更快的主要原因。
那些比较计数对我来说看起来太了不起;-) heapq.merge()
的计数看起来是我认为合理的两倍大。
花了一些时间来追踪这个。总之就是道神器heapq.merge()
已实现:它维护一个由 3 元素列表对象组成的堆,每个对象包含来自可迭代对象的当前下一个值、该可迭代对象在所有可迭代对象中的基于 0 的索引(以打破比较关系),以及该可迭代对象的 __next__
。方法。 heapq
函数都比较这些小列表(而不是 只是 iterables 的值),并且列表比较总是通过列表首先查找不是 ==
的第一个对应项。 .
因此,例如,询问是否 [0] < [1]
首先询问是否0 == 1
.不是,所以然后它继续询问是否 0 < 1
.
因此,每个 <
在执行 heapq.merge()
期间完成的比较实际上做了两个对象比较(一个 ==
,另一个 <
)。 ==
比较是“浪费”的工作,从某种意义上说,它们在逻辑上不是解决问题所必需的——它们只是列表比较内部使用的“优化”(在这种情况下恰好不值得!)。
所以从某种意义上说,削减heapq.merge()
的报告会更公平比较一半。但它仍然远远超过 sorted()
需要,所以我现在就放下它 ;-)
关于Python heapq 与预排序列表的排序速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38340588/
我注意到给定一个列表,如果我使用 heapq.heapify() 创建一个堆,元素的顺序与我在列表上迭代并执行 heap.heappush() 时获得的顺序不同。 谁能帮我理解为什么? 此外,对于可迭
我正在尝试使用 Python 的 heapq 来实现 Dijkstra 的算法。如果发现通往它的较短路径,则该算法需要更改单元格的值。 我正在通过此检查执行此操作: if curr_cell[0] +
来自官方heapq的示例: >>> heap = [] >>> data = [(1, 'J'), (4, 'N'), (3, 'H'), (2, 'O')] >>> for item in data
工具.py import heapq class PriorityQueue: def __init__(self): self.heap=[] def push(se
我有相当多的 n=10000 个排序列表,每个列表的长度为 k=100。由于合并两个排序列表需要线性时间,我认为在深度为 log(n) 的树中递归合并长度为 O(nk) 的排序列表与 heapq.me
我是 python 的新手(使用 v3.x 语法),希望得到有关 heapq 与排序的复杂性和性能的说明。 我已经为贪婪的“找到最佳工作安排”算法实现了基于 heapq 的解决方案。但后来我了解了将“
我的问题来自下面leetcode中的解决方案,我不明白为什么是O(k+(n-k)log(k))。 补充:可能复杂度不是这个,其实我不知道heappush()和heappop()的时间复杂度 # O(k
我正在尝试使用自定义排序谓词构建堆。由于进入它的值是“用户定义”类型,我无法修改它们的内置比较谓词。 有没有办法做类似的事情: h = heapq.heapify([...], key=my_lt_p
>>> from heapq import heappush >>> heap = [] >>> heappush(heap,(0,{"k":0})) >>> heappush(heap,(0,{"k
首先,我阅读了这个SO question但它实际上不包括我想要的方法。此外,否定实际值不适用于我的用例。 Heapq 文档:https://docs.python.org/3.6/library/he
我正在使用 heapq 对象来存储我实现的类的对象。 import heapq heap = [] element1 = Element('A', 1) element2 = Element('B',
我试图在我的程序中使用 Python 模块 heapq,但我在使用 heapq.heappop() 时遇到了一个奇怪的问题。该函数似乎没有返回堆中的最小元素。看看下面的代码: Python 2.7.1
我有一本包含 {key: count} 的字典,比如说status_count = {'管理分析':13859,'计算机程序员':72112}我正在尝试为 heapq.nlargest() 编写一个键
我最初尝试使用优先级队列编写算法来解决 15 题,但我的导师告诉我们,我们需要编写 a* 实现,并建议我们使用 heapq 而不是优先级队列。我无法找到我的 heapq 的长度/大小,也无法访问我的
我将一个名为 UNVISITED 的空列表转换为一个堆,这样: UNVISITED = [] heapq.heappush(UNVISITED, (a.f, a)) 我推送的对象a,是从一个类中实例化
如果堆化此 [(10,'Mike'),(20,'Jack'),(10,'Bob')] 并返回堆的最小值,它会保证返回 (10,'Mike') 而不是 (10,'Bob') 吗? 最佳答案 no hea
每次 heapq.heapify 函数更改我的堆列表中的元素时,我都希望得到回调通知(顺便说一句,这是跟踪列表中的对象以及它们的索引如何获取所需要的改变了)。 我的计划是从 list 继承并重写 __
如何返回可迭代的第n大项的原始列表中的索引 heapq.nlargest(2, [100, 2, 400, 500, 400]) output = [(3,500), (2, 400)] 这已经花费了
我正在使用 Python 的 heapq 模块按升序和降序获取数据。 对于升序,我使用的是最小堆,它运行良好,如下所示: >>> from heapq import heapify, heappop
我希望拥有一堆对象,而不仅仅是数字。它们将具有堆可以排序的整数属性。在python中使用堆最简单的方法是heapq,但是在使用heapq时如何告诉它按特定属性排序呢? 最佳答案 根据 document
我是一名优秀的程序员,十分优秀!