- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我不知道如何在不使用 _siftup
或 _siftdown
的情况下有效解决以下问题:
当一个元素乱序时,如何恢复堆不变量?
换句话说,将heap
中的old_value
更新为new_value
,并保持heap
工作。您可以假设堆中只有一个 old_value
。函数定义如下:
def update_value_in_heap(heap, old_value, new_value):
这是我的真实场景,有兴趣的可以看看。
您可以想象它是一个小型自动完成系统。我需要数数单词的频率,并维护前k个最大计数单词,其中随时准备输出。所以我在这里使用堆
。当一个字count++,如果它在堆中,我需要更新它。
所有单词和计数都存储在 trie 树的叶子和堆中
存储在trie树的中间节点中。如果你关心这个词
堆外,不用担心,我可以从 trie-tree 的叶子节点获取它。
当用户输入一个单词时,它会首先从堆中读取,然后更新
它。为了获得更好的性能,我们可以考虑降低更新频率通过批量更新。
那么当某个特定字数增加时如何更新堆呢?
这是 _siftup 或 _siftdown 版本的简单示例(不是我的场景):
>>> from heapq import _siftup, _siftdown, heapify, heappop
>>> data = [10, 5, 18, 2, 37, 3, 8, 7, 19, 1]
>>> heapify(data)
>>> old, new = 8, 22 # increase the 8 to 22
>>> i = data.index(old)
>>> data[i] = new
>>> _siftup(data, i)
>>> [heappop(data) for i in range(len(data))]
[1, 2, 3, 5, 7, 10, 18, 19, 22, 37]
>>> data = [10, 5, 18, 2, 37, 3, 8, 7, 19, 1]
>>> heapify(data)
>>> old, new = 8, 4 # decrease the 8 to 4
>>> i = data.index(old)
>>> data[i] = new
>>> _siftdown(data, 0, i)
>>> [heappop(data) for i in range(len(data))]
[1, 2, 3, 4, 5, 7, 10, 18, 19, 37]
索引的成本为 O(n),更新的成本为 O(logn)。 heapify
是另一种解决方案,但是效率低于 _siftup
或 _siftdown
。
但是_siftup
和_siftdown
是heapq中的 protected 成员,因此不建议从外部访问。
那么有没有更好更高效的方法来解决这个问题呢?这种情况的最佳实践?
感谢您的阅读,我非常感谢它对我的帮助。 :)
已引用heapq python - how to modify values for which heap is sorted ,但没有回答我的问题
最佳答案
@cglacet 的答案是完全错误的,但看起来非常合法。他提供的代码片段完全被破坏了!它也很难阅读。_siftup()
在 heapify()
中被调用 n//2 次,因此它不可能比 _siftup()
本身更快。
要回答原来的问题,没有更好的办法了。如果您担心方法是私有(private)的,请创建自己的方法来执行相同的操作。
我唯一同意的是,如果你不需要长时间从堆中读取数据,那么惰性heapify()可能会有好处
当您需要它们时就可以使用它们。问题是您是否应该为此使用堆。
让我们回顾一下他的代码片段的问题:
heapify()
函数在“更新”运行中被多次调用。导致此问题的错误链如下:
heap_fix
,但期望 heap
,对于 sort
也是如此self.sort
始终为 False
,则 self.heap
始终为 True
__getitem__()
和__setitem__()
,每次_siftup()
或_siftdown()时都会调用它们
code> 分配或读取某些内容(注意:这两个函数在 C 中未调用,因此它们使用 __getitem__()
和 __setitem__()
)self.heap
为 True
并且正在调用 __getitem__()
和 __setitem__()
,则每次 _siftup()
或 siftdown()
交换元素时都会调用 _repair()
函数。但是对 heapify()
的调用是在 C 中完成的,因此 __getitem__()
不会被调用,并且不会陷入无限循环self.sort
,因此像他尝试做的那样调用它会失败nb_updates
次,而不是他声称的 1:1我修复了这个例子,我尽力验证它,但我们都会犯错误。请自行检查。
import time
import random
from heapq import _siftup, _siftdown, heapify, heappop
class UpdateHeap(list):
def __init__(self, values):
super().__init__(values)
heapify(self)
def update(self, index, value):
old, self[index] = self[index], value
if value > old:
_siftup(self, index)
else:
_siftdown(self, 0, index)
def pop(self):
return heappop(self)
class SlowHeap(list):
def __init__(self, values):
super().__init__(values)
heapify(self)
self._broken = False
# Solution 2 and 3) repair using sort/heapify in a lazy way:
def update(self, index, value):
super().__setitem__(index, value)
self._broken = True
def __getitem__(self, index):
if self._broken:
self._repair()
self._broken = False
return super().__getitem__(index)
def _repair(self):
...
def pop(self):
if self._broken:
self._repair()
return heappop(self)
class HeapifyHeap(SlowHeap):
def _repair(self):
heapify(self)
class SortHeap(SlowHeap):
def _repair(self):
self.sort()
def rand_update(heap):
index = random.randint(0, len(heap)-1)
new_value = random.randint(max_int+1, max_int*2)
heap.update(index, new_value)
def rand_updates(update_count, heap):
for i in range(update_count):
rand_update(heap)
heap[0]
def verify(heap):
last = None
while heap:
item = heap.pop()
if last is not None and item < last:
raise RuntimeError(f"{item} was smaller than last {last}")
last = item
def run_perf_test(update_count, data, heap_class):
test_heap = heap_class(data)
t0 = time.time()
rand_updates(update_count, test_heap)
perf = (time.time() - t0)*1e3
verify(test_heap)
return perf
results = []
max_int = 500
update_count = 100
for i in range(2, 7):
test_size = 10**i
test_data = [random.randint(0, max_int) for _ in range(test_size)]
perf = run_perf_test(update_count, test_data, UpdateHeap)
results.append((test_size, "update", perf))
perf = run_perf_test(update_count, test_data, HeapifyHeap)
results.append((test_size, "heapify", perf))
perf = run_perf_test(update_count, test_data, SortHeap)
results.append((test_size, "sort", perf))
import pandas as pd
import seaborn as sns
dtf = pd.DataFrame(results, columns=["heap size", "method", "duration (ms)"])
print(dtf)
sns.lineplot(
data=dtf,
x="heap size",
y="duration (ms)",
hue="method",
)
如您所见,使用 _siftdown()
和 _siftup()
的“更新”方法渐近更快。
您应该知道您的代码的作用以及运行需要多长时间。如果有疑问,您应该检查一下。 @cglaced 检查了执行需要多长时间,但他没有询问应该需要多长时间。如果他这样做了,他会发现两者不匹配。其他人也上当了。
heap size method duration (ms)
0 100 update 0.219107
1 100 heapify 0.412703
2 100 sort 0.242710
3 1000 update 0.198841
4 1000 heapify 2.947330
5 1000 sort 0.605345
6 10000 update 0.203848
7 10000 heapify 32.759190
8 10000 sort 4.621506
9 100000 update 0.348568
10 100000 heapify 327.646971
11 100000 sort 49.481153
12 1000000 update 0.256062
13 1000000 heapify 3475.244761
14 1000000 sort 1106.570005
关于python - 如何避免在 heapq 中使用 _siftup 或 _siftdown,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55373969/
我们已经有一个使用 AnyEvent 的库。它在内部使用 AnyEvent,并最终返回一个值(同步 - 不使用回调)。有什么方法可以将这个库与 Mojolicious 一起使用吗? 它的作用如下: #
我想从 XSD 文件生成带有 JAXB 的 Java 类。 问题是,我总是得到一些像这样的类(删除了命名空间): public static class Action { @X
我有一个关于 html 输入标签或 primefaces p:input 的问题。为什么光标总是自动跳转到输入字段。我的页面高度很高,因此您需要向下滚动。输入字段位于页面末尾,光标自动跳转(加载)到页
我今天在考虑面向对象设计,我想知道是否应该避免 if 语句。我的想法是,在任何需要 if 语句的情况下,您都可以简单地创建两个实现相同方法的对象。这两个方法实现只是原始 if 语句的两个可能的分支。
String graphNameUsed = graphName.getName(); if (graphType.equals("All") || graphType.equals(
我有一张友谊 table CREATE TABLE IF NOT EXISTS `friendList` ( `id` int(10) NOT NULL, `id_friend` int(10
上下文 Debian 64。Core 2 二人组。 摆弄循环。我使用了同一循环的不同变体,但我希望尽可能避免条件分支。 但是,即使我认为它也很难被击败。 我考虑过 SSE 或位移位,但它仍然需要跳转(
我最近在 Java 中创建了一个方法来获取字符串的排列,但是当字符串太长时它会抛出这个错误:java.lang.OutOfMemoryError: Java heap space我确信该方法是有效的,
我正在使用 (C++) 库,其中需要使用流初始化对象。库提供的示例代码使用此代码: // Declare the input stream HfstInputStream *in = NULL; tr
我有一个 SQL 查询,我在 WHERE 子句中使用子查询。然后我需要再次使用相同的子查询将其与不同的列进行比较。 我假设没有办法在子查询之外访问“emp_education_list li”? 我猜
我了解到在 GUI 线程上不允许进行网络操作。对我来说还可以。但是为什么在 Dialog 按钮点击回调上使用这段代码仍然会产生 NetworkOnMainThreadException ? new T
有没有办法避免在函数重定向中使用 if 和硬编码字符串,想法是接收一个字符串并调用适当的函数,可能使用模板/元编程.. #include #include void account() {
我正在尝试避免客户端出现 TIME_WAIT。我连接然后设置 O_NONBLOCK 和 SO_REUSEADDR。我调用 read 直到它返回 0。当 read 返回 0 时,errno 也为 0。我
我正在开发 C++ Qt 应用程序。为了在应用程序或其连接的设备出现故障时帮助用户,程序导出所有内部设置并将它们存储在一个普通文件(目前为 csv)中。然后将此文件发送到公司(例如通过邮件)。 为避免
我有一组具有公共(public)父类(super class)的 POJO。这些存储在 superclass 类型的二维数组中。现在,我想从数组中获取一个对象并使用子类 的方法。这意味着我必须将它们转
在我的代码中,当 List 为 null 时,我通常使用这种方法来避免 for 语句中的 NullPointerException: if (myList != null && myList.size
我正在尝试避免客户端出现 TIME_WAIT。我连接然后设置 O_NONBLOCK 和 SO_REUSEADDR。我调用 read 直到它返回 0。当 read 返回 0 时,errno 也为 0。我
在不支持异常的语言和/或库中,许多/几乎所有函数都会返回一个值,指示其操作成功或失败 - 最著名的例子可能是 UN*X 系统调用,例如 open( ) 或 chdir(),或一些 libc 函数。 无
我尝试按值提取行。 col1 df$col1[col1 == "A"] [1] "A" NA 当然我只想要“A”。如何避免 R 选择 NA 值?顺便说一句,我认为这种行为非常危险,因为很多人都会陷入
我想将两个向量合并到一个数据集中,并将其与函数 mutate 集成为 5 个新列到现有数据集中。这是我的示例代码: vector1% rowwise()%>% mutate(vector2|>
我是一名优秀的程序员,十分优秀!