python - 如何避免在 heapq 中使用 _siftup 或

python - 如何避免在 heapq 中使用 _siftup 或 _siftdown

转载作者：行者123 更新时间：2023-11-30 21:57:03

我不知道如何在不使用 _siftup 或 _siftdown 的情况下有效解决以下问题:

当一个元素乱序时，如何恢复堆不变量？

换句话说，将heap中的old_value更新为new_value，并保持heap工作。您可以假设堆中只有一个 old_value。函数定义如下:

def update_value_in_heap(heap, old_value, new_value):

这是我的真实场景，有兴趣的可以看看。

您可以想象它是一个小型自动完成系统。我需要数数单词的频率，并维护前k个最大计数单词，其中随时准备输出。所以我在这里使用堆。当一个字count++，如果它在堆中，我需要更新它。
所有单词和计数都存储在 trie 树的叶子和堆中
存储在trie树的中间节点中。如果你关心这个词
堆外，不用担心，我可以从 trie-tree 的叶子节点获取它。
当用户输入一个单词时，它会首先从堆中读取，然后更新
它。为了获得更好的性能，我们可以考虑降低更新频率通过批量更新。

那么当某个特定字数增加时如何更新堆呢？

这是 _siftup 或 _siftdown 版本的简单示例(不是我的场景):

>>> from heapq import _siftup, _siftdown, heapify, heappop

>>> data = [10, 5, 18, 2, 37, 3, 8, 7, 19, 1]
>>> heapify(data)
>>> old, new = 8, 22              # increase the 8 to 22
>>> i = data.index(old)
>>> data[i] = new
>>> _siftup(data, i)
>>> [heappop(data) for i in range(len(data))]
[1, 2, 3, 5, 7, 10, 18, 19, 22, 37]

>>> data = [10, 5, 18, 2, 37, 3, 8, 7, 19, 1]
>>> heapify(data)
>>> old, new = 8, 4              # decrease the 8 to 4
>>> i = data.index(old)
>>> data[i] = new
>>> _siftdown(data, 0, i)
>>> [heappop(data) for i in range(len(data))]
[1, 2, 3, 4, 5, 7, 10, 18, 19, 37]

索引的成本为 O(n)，更新的成本为 O(logn)。 heapify 是另一种解决方案，但是效率低于 _siftup 或 _siftdown。

但是_siftup和_siftdown是heapq中的 protected 成员，因此不建议从外部访问。

那么有没有更好更高效的方法来解决这个问题呢？这种情况的最佳实践？

感谢您的阅读，我非常感谢它对我的帮助。 :)

已引用heapq python - how to modify values for which heap is sorted ，但没有回答我的问题

最佳答案

@cglacet 的答案是完全错误的，但看起来非常合法。他提供的代码片段完全被破坏了!它也很难阅读。_siftup() 在 heapify() 中被调用 n//2 次，因此它不可能比 _siftup() 本身更快。

要回答原来的问题，没有更好的办法了。如果您担心方法是私有(private)的，请创建自己的方法来执行相同的操作。

我唯一同意的是，如果你不需要长时间从堆中读取数据，那么惰性heapify()可能会有好处 当您需要它们时就可以使用它们。问题是您是否应该为此使用堆。

让我们回顾一下他的代码片段的问题:

heapify() 函数在“更新”运行中被多次调用。导致此问题的错误链如下:

他传递了 heap_fix，但期望 heap，对于 sort 也是如此
如果 self.sort 始终为 False，则 self.heap 始终为 True
他重新定义了__getitem__()和__setitem__()，每次_siftup()或_siftdown()时都会调用它们 code> 分配或读取某些内容(注意:这两个函数在 C 中未调用，因此它们使用 __getitem__() 和 __setitem__())
如果 self.heap 为 True 并且正在调用 __getitem__() 和 __setitem__()，则每次 _siftup() 或 siftdown() 交换元素时都会调用 _repair() 函数。但是对 heapify() 的调用是在 C 中完成的，因此 __getitem__() 不会被调用，并且不会陷入无限循环
他重新定义了 self.sort，因此像他尝试做的那样调用它会失败
他读了一次，但更新了一个项目 nb_updates 次，而不是他声称的 1:1

我修复了这个例子，我尽力验证它，但我们都会犯错误。请自行检查。

代码

import time
import random

from heapq import _siftup, _siftdown, heapify, heappop

class UpdateHeap(list):
    def __init__(self, values):
        super().__init__(values)
        heapify(self)

    def update(self, index, value):
        old, self[index] = self[index], value
        if value > old:
            _siftup(self, index)
        else:
            _siftdown(self, 0, index)

    def pop(self):
        return heappop(self)

class SlowHeap(list):
    def __init__(self, values):
        super().__init__(values)
        heapify(self)
        self._broken = False
        
    # Solution 2 and 3) repair using sort/heapify in a lazy way:
    def update(self, index, value):
        super().__setitem__(index, value)
        self._broken = True
    
    def __getitem__(self, index):
        if self._broken:
            self._repair()
            self._broken = False
        return super().__getitem__(index)

    def _repair(self):
        ...

    def pop(self):
        if self._broken:
            self._repair()
        return heappop(self)

class HeapifyHeap(SlowHeap):

    def _repair(self):
        heapify(self)


class SortHeap(SlowHeap):

    def _repair(self):
        self.sort()

def rand_update(heap):
    index = random.randint(0, len(heap)-1)
    new_value = random.randint(max_int+1, max_int*2)
    heap.update(index, new_value)
    
def rand_updates(update_count, heap):
    for i in range(update_count):
        rand_update(heap)
        heap[0]
        
def verify(heap):
    last = None
    while heap:
        item = heap.pop()
        if last is not None and item < last:
            raise RuntimeError(f"{item} was smaller than last {last}")
        last = item

def run_perf_test(update_count, data, heap_class):
    test_heap = heap_class(data)
    t0 = time.time()
    rand_updates(update_count, test_heap)
    perf = (time.time() - t0)*1e3
    verify(test_heap)
    return perf


results = []
max_int = 500
update_count = 100

for i in range(2, 7):
    test_size = 10**i
    test_data = [random.randint(0, max_int) for _ in range(test_size)]

    perf = run_perf_test(update_count, test_data, UpdateHeap)
    results.append((test_size, "update", perf))
    
    perf = run_perf_test(update_count, test_data, HeapifyHeap)
    results.append((test_size, "heapify", perf))

    perf = run_perf_test(update_count, test_data, SortHeap)
    results.append((test_size, "sort", perf))

import pandas as pd
import seaborn as sns

dtf = pd.DataFrame(results, columns=["heap size", "method", "duration (ms)"])
print(dtf)

sns.lineplot(
    data=dtf, 
    x="heap size", 
    y="duration (ms)", 
    hue="method",
)

结果

如您所见，使用 _siftdown() 和 _siftup() 的“更新”方法渐近更快。

您应该知道您的代码的作用以及运行需要多长时间。如果有疑问，您应该检查一下。 @cglaced 检查了执行需要多长时间，但他没有询问应该需要多长时间。如果他这样做了，他会发现两者不匹配。其他人也上当了。

    heap size   method  duration (ms)
0         100   update       0.219107
1         100  heapify       0.412703
2         100     sort       0.242710
3        1000   update       0.198841
4        1000  heapify       2.947330
5        1000     sort       0.605345
6       10000   update       0.203848
7       10000  heapify      32.759190
8       10000     sort       4.621506
9      100000   update       0.348568
10     100000  heapify     327.646971
11     100000     sort      49.481153
12    1000000   update       0.256062
13    1000000  heapify    3475.244761
14    1000000     sort    1106.570005

关于python - 如何避免在 heapq 中使用 _siftup 或 _siftdown，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55373969/

文章推荐： php - JSON 格式到 HTML 表格

文章推荐： c# - 查询中的 Linq Convert.ToInt32

文章推荐： c# - session 状态提供者性能比较

文章推荐： c# - 如何在页面加载时设置 MVCSitemapnode 角色属性？

perl - 避免 Mojolicious 异步行为？避免 "AnyEvent::CondVar: recursive blocking wait attempted"
我们已经有一个使用 AnyEvent 的库。它在内部使用 AnyEvent，并最终返回一个值(同步 - 不使用回调)。有什么方法可以将这个库与 Mojolicious 一起使用吗？它的作用如下: #
JAXB 避免 JAXBElement
我想从 XSD 文件生成带有 JAXB 的 Java 类。问题是，我总是得到一些像这样的类(删除了命名空间): public static class Action { @X
javascript - 避免/禁用自动跳转到输入字段
我有一个关于 html 输入标签或 primefaces p:input 的问题。为什么光标总是自动跳转到输入字段。我的页面高度很高，因此您需要向下滚动。输入字段位于页面末尾，光标自动跳转(加载)到页
oop - 避免 if 语句
我今天在考虑面向对象设计，我想知道是否应该避免 if 语句。我的想法是，在任何需要 if 语句的情况下，您都可以简单地创建两个实现相同方法的对象。这两个方法实现只是原始 if 语句的两个可能的分支。
java - 避免 NullPointerException
String graphNameUsed = graphName.getName(); if (graphType.equals("All") || graphType.equals(
mysql - 避免/删除表中的重复行
我有一张友谊 table CREATE TABLE IF NOT EXISTS `friendList` ( `id` int(10) NOT NULL, `id_friend` int(10
c - 避免 if in 循环
上下文 Debian 64。Core 2 二人组。摆弄循环。我使用了同一循环的不同变体，但我希望尽可能避免条件分支。但是，即使我认为它也很难被击败。我考虑过 SSE 或位移位，但它仍然需要跳转(
java - 避免 OutOfMemoryError
我最近在 Java 中创建了一个方法来获取字符串的排列，但是当字符串太长时它会抛出这个错误:java.lang.OutOfMemoryError: Java heap space我确信该方法是有效的，
c++ - 避免 while (!is_eof)
我正在使用 (C++) 库，其中需要使用流初始化对象。库提供的示例代码使用此代码: // Declare the input stream HfstInputStream *in = NULL; tr
MySQL 避免 WHERE/AND 中的子查询重复
我有一个 SQL 查询，我在 WHERE 子句中使用子查询。然后我需要再次使用相同的子查询将其与不同的列进行比较。我假设没有办法在子查询之外访问“emp_education_list li”？我猜
android - 避免 NetworkOnMainThreadException
我了解到在 GUI 线程上不允许进行网络操作。对我来说还可以。但是为什么在 Dialog 按钮点击回调上使用这段代码仍然会产生 NetworkOnMainThreadException ？ new T
C++ 避免 if & 硬编码字符串
有没有办法避免在函数重定向中使用 if 和硬编码字符串，想法是接收一个字符串并调用适当的函数，可能使用模板/元编程.. #include #include void account() {
c - 避免 TIME_WAIT
我正在尝试避免客户端出现 TIME_WAIT。我连接然后设置 O_NONBLOCK 和 SO_REUSEADDR。我调用 read 直到它返回 0。当 read 返回 0 时，errno 也为 0。我
c++ - 避免/检测对导出文件的操纵
我正在开发 C++ Qt 应用程序。为了在应用程序或其连接的设备出现故障时帮助用户，程序导出所有内部设置并将它们存储在一个普通文件(目前为 csv)中。然后将此文件发送到公司(例如通过邮件)。为避免
java - 避免 instanceof
我有一组具有公共(public)父类(super class)的 POJO。这些存储在 superclass 类型的二维数组中。现在，我想从数组中获取一个对象并使用子类的方法。这意味着我必须将它们转
java - 避免 "for"语句中的空指针异常
在我的代码中，当 List 为 null 时，我通常使用这种方法来避免 for 语句中的 NullPointerException: if (myList != null && myList.size
c - 避免 TIME_WAIT
我正在尝试避免客户端出现 TIME_WAIT。我连接然后设置 O_NONBLOCK 和 SO_REUSEADDR。我调用 read 直到它返回 0。当 read 返回 0 时，errno 也为 0。我
c - 避免/减轻每次函数调用后返回值检查的痛苦的方法？
在不支持异常的语言和/或库中，许多/几乎所有函数都会返回一个值，指示其操作成功或失败 - 最著名的例子可能是 UN*X 系统调用，例如 open( ) 或 chdir()，或一些 libc 函数。无
R 按值选择，避免 NA
我尝试按值提取行。 col1 df$col1[col1 == "A"] [1] "A" NA 当然我只想要“A”。如何避免 R 选择 NA 值？顺便说一句，我认为这种行为非常危险，因为很多人都会陷入
R 避免 rowwise() 并寻找更快的替代方案
我想将两个向量合并到一个数据集中，并将其与函数 mutate 集成为 5 个新列到现有数据集中。这是我的示例代码: vector1% rowwise()%>% mutate(vector2|>

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何避免在 heapq 中使用 _siftup 或 _siftdown

代码

结果