algorithm - Count-Min Sketch 和 Heavy-Hitters 问题-6ren

algorithm - Count-Min Sketch 和 Heavy-Hitters 问题

转载作者：塔克拉玛干更新时间：2023-11-03 06:39:28

25

4

我正在阅读 Count-Min Sketch 数据结构，它根据错误概率参数和容差参数为点和范围查询提供概率答案。例如，CM 可以回答“item x 在数据流中出现了多少次，概率为 10%”。

重击手的相关问题也出现了。在为 HH 问题实现最小堆时，我注意到各种研究论文都指出，只有当草图中某个项目的最小计数大于阈值时，我们才会插入堆中。

我的问题是，这是否意味着我们正在概率性地回答重击者问题？相应的问题是“有 10% 的概率，哪个项目在数据流中出现频率第二高？”

最佳答案

来自维基百科:

In the data stream model, the frequent elements problem is to output a set of elements that constitute more than some fixed fraction of the stream. A special case is the majority problem, which is to determine whether or not any value constitutes a majority of the stream.

More formally, fix some positive constant c > 1, let the length of the stream be m, and let fi denote the frequency of value i in the stream. The frequent elements problem is to output the set { i | fi > m/c }.

Some notable algorithms are:

Boyer–Moore majority vote algorithm

Karp-Papadimitriou-Shenker algorithm

Count-Min sketch

Sticky sampling

Lossy counting

Sample and Hold

Multi-stage Bloom filters

Count-sketch

Sketch-guided sampling

Event detection Detecting events in data streams is often done using a heavy hitters algorithm as listed above: the most frequent items and their frequency are determined using one of these algorithms, then the largest increase over the previous time point is reported as trend. This approach can be refined by using exponentially weighted moving averages and variance for normalization.

所以，是的。 CMS可用于确定频率(以近似的方式)，可用于回答HH问题。

关于algorithm - Count-Min Sketch 和 Heavy-Hitters 问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53276616/

25

4

0

文章推荐： c - 该算法对于查找字符串的句点是否正确？

文章推荐：竞争性编程 Dijkstra

文章推荐： java - 将多张图片与一张图片进行比较

javascript - 'heavy' 是如何在服务器上每隔几秒运行一次mysql命令
关闭。这个问题需要更多focused 。它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 已关闭 7 年前。 Improve this qu
multithreading - 并行执行比顺序执行慢，即使代码是 "heavy"
有很多问题会问“为什么我的并行循环比顺序循环慢”，答案是“循环内所需的工作很少；尝试进行更多迭代”，例如 this one . 我有一个循环，每次迭代大约需要 0.5 分钟。我认为这个循环足够“重”，
java - Heavy DB 读写操作的设计选项
我有一个向数百万用户发送消息的系统。我们的集群中有 6 个应用程序节点，具有一个通用的 Oracle 数据库 (RAC)。在其中一个用例中，我们必须向用户发送消息，消息发送后，我们必须更新数据库表
c# - RavenDB 中的 'heavy' 聚合函数是否可取？
我正在使用 C# 开发一个概念验证时间表应用程序，它允许用户简单地输入大量时间表记录。概念验证将使用 RavenDB 作为存储提供程序，但是下面的问题可能与一般的 nosql 概念更相关。用户通常会
MySQL insert, update-heavy, 按索引排序
我目前正在设计一个数据库，其中有一个表 events，该表将插入(和更新)-heavy(我预计每分钟插入 1,000 到 5,000 次)，但也需要按日期排序。每个事件都有一个read bool 字
php - PEAR 是 "heavy"吗？
我最近一直在使用需要 PEAR 的 PHPUnit。我提到 PEAR 的每个 PHP 开发人员似乎都认为它是一大堆笨拙的代码。真相是什么？对我来说，PEAR 就像任何其他库一样，除非您决定包含和使用大
c++ - QtCore 是否太 'heavy' 供服务器端使用？
我正在研究使用 Qt 库编写一个自包含的 http 服务器，尽管许多人认为 QtCore 过于臃肿并且开销太大。 QtCore http 服务器是否会使用线程池管理大约 50 个并发连接的负载。 Qt
处理 "heavy"数据时的 WinForms UI 响应能力
我正在修改 Windows 窗体以允许在 UI 保持响应时在后台加载数据。数据检索和绑定(bind)都需要相当长的时间。理想情况下，我会在后台执行这两项操作，但是对于我应该在后台执行哪种 UI 更新(
c# - .Net : Threadify heavy API calls
我有一个电子邮件队列，其中包含要发送的电子邮件。一个Web服务调用一个SOAP Web服务，该SOAP Web服务一个一个地处理队列。我们使用外部供应商的REST API发送电子邮件。我的问题是，对
server-load - 每分钟有多少请求被视为 'Heavy Load' ？ (近似)
人们经常在他们的(与优化和性能相关的)问题和答案中谈论“重载”。我试图在典型服务器上的常规 Web 应用程序的上下文中量化这一点(以 SO 及其相当小的基础设施为例)，假设它们立即返回(以简化和提高
hadoop - 运行多个 “light” mapreduce或单个 “heavy” mapreduce
我正在编写将在AWS EMR上运行的mapreduce程序。我的程序从google ngram语料库中计算出概率。我想知道运行一次可同时处理所有计算的mapreduce和一次处理一次计算的多个ma
jenkins - Jenkins 管道中是否有相当于 Heavy Job 的插件？
我们的 Jenkins 上运行着不同的作业。有些工作很繁重，需要占用大量 CPU 和 RAM，有些则不然。所以我想要一些插件来帮助我设置这些作业的权重，就像https://wiki.jenkins-c
java - 在每个 ListView 项目中添加 Heavy UI
我更担心 OOM 在 ListView 的每个项目上都有繁重的 UI，例如我有 100 个项目。下面是我想要练习和复制 UI 布局的图像。可能的布局是什么或者我如何实现这种类型的 UI。每个项目都可以
java - 是否有 "heavy class"这样的东西？它的正确定义是什么？
我发现一些类(“重类”)不应该重复创建和处置，因为它占用了 JVM 的开销/时间/资源。虽然可以想象什么是重级 - 我从未遇到过它的任何定义。背景: 重复创建和处置 SimpleDateFormat
python - 套索回归 : The continuous heavy step function
从很多文档中，我了解到岭回归的秘诀是: loss_Ridge = loss_function + lambda x L2 norm of slope Lasso 回归的秘诀是: loss_Lasso
javascript - 优化 dom-heavy JS 排序
所以我构建了这个类似邮件程序的 HTML 查看器(没有真正的电子邮件，只是用户之间的一些消息)。它基本上就像 Windows 资源管理器一样，在顶部有标签，文件可以按日期或字母顺序排序。每条消息如下所
java - 安卓线程 : stopping a thread with heavy computation
我正在我的 android 应用程序中进行一些繁重的计算。因为我不想阻塞 UI 线程，所以我在一个单独的 WorkerThread 中进行计算，它扩展了 Thread。这很好用。但我无法停止线程。停止
ios - 更新 TableView 上的所有单元格而不使操作太 "heavy"内存
我有一个带有 cells 的 table view，当执行左滑 Action 时它们可以显示一个复选标记(复选标记只是一个 UIView，哪个属性 isHidden 被设置为 true)。我在另一个
java - Clip 类适合 'heavy use' 吗？
我正在开发一个程序，该程序可以播放一系列 Clip (clip.start())，平均每秒一个。意味着一个剪辑开始，一秒钟后停止，另一个剪辑开始，依此类推，大约 10 个剪辑。结果并不“流畅”，有
c++ - 如果位于头文件中的 "heavy"函数没有标记为 'inline' ，那么它的代码被编译到哪里？
我已经知道，当我将一个成员函数的定义放在一个头文件中并将该函数标记为inline时，该函数中的代码将被内联到该函数被调用的任何地方.cpp 文件，所以当涉及到编译的二进制文件时，我知道函数的代码位于何

首页

博学

6Ren·AI

商城

algorithm - Count-Min Sketch 和 Heavy-Hitters 问题