hadoop - MapReduce 上的 HyperLogLog 正确性-6ren

hadoop - MapReduce 上的 HyperLogLog 正确性

转载作者：可可西里更新时间：2023-11-01 14:49:53

24

4

关于 HyperLogLog 算法一直困扰我的一点是它对 key 散列的依赖。我遇到的问题是，这篇论文似乎假设我们在每个分区上都有一个完全随机的数据分布，但是在它经常使用的上下文中(MapReduce 风格的作业)，东西通常是按它们的哈希值分布的，所以所有重复的键都会在同一个分区上。对我来说，这意味着我们实际上应该添加 HyperLogLog 生成的基数，而不是使用某种平均技术(在我们通过散列与 HyperLogLog 散列相同的东西来分区的情况下)。

所以我的问题是:这是 HyperLogLog 的真正问题还是我没有足够详细地阅读论文

最佳答案

如果您对两个任务都使用非独立的哈希函数，这将是一个真正的问题。

假设分区根据散列值的前 b 位决定节点。如果分区和 HyperLogLog 使用相同的哈希函数，算法仍然可以正常工作，但会牺牲精度。实际上，它等同于使用 m/2^b 桶 (log2m' = log2m-b)，因为第一个 b 位总是相同的，因此只有 log2m-b 位将用于选择 HLL 桶。

关于hadoop - MapReduce 上的 HyperLogLog 正确性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25141787/

24

4

0

文章推荐： java - Hadoop 没有在 Windows 7 上启动任何数据节点

文章推荐： windows - 如何在控制台窗口中输出窗口标题列表？

文章推荐： html - UL/LI 列表项全 Angular

c++ - const 正确性
我有一个 const 方法，我想在其中将类 B 的一个成员的属性设置为当前实例 A(通过指针进行反向引用) A 类: void A::foo () const { ... ... B
python - Cython 正确性
Cython 生成的代码是否总是与生成它的 Python 代码一样正确？它可能会帮助其他读者解决 Cython 静态类型声明和其他 Cython 功能(如果有的话)的使用问题，尽管我只对通过将 Py
具有指针的结构的 const 正确性
我有一个包含一些指针的结构。我希望这些值是不可修改的。但是简单地写 const infront 并不能使结构成员不可变 typedef struct{ int *x; int *y; }poi
debugging - 如何评估QR码的质量/正确性？ (如何获得定量和定性的QR码特征)
我需要评估和比较QR Code生成库，并寻找逻辑参数来测量和比较输出。 Why do I need this? It seems that when I give two different QR g
c++ - 理解具有冲突要求的 const 正确性
错误:Invalid conversion from 'char**' to 'const char**' 类似的问题似乎没有相同的情况(即两个函数在同一结构上具有不同的 const 要求)。如果确实
c++ - 无法通过引用传递的参数维护 const 正确性
我确定以前有人问过这个问题，但所有搜索结果都有 const& 问题。我想确保下面的方法不会改变传递给它的 GuestNode，所以我想传递 const GuestNode& guest，但是 g++
c++ - 配置结构的 const 正确性
我有一个配置文件，它在我的程序运行时开始时被读入、解析并放入结构中。我遇到的问题是我希望这些结构保持不变，因为它们中的值在程序生命周期内不应更改。目前我正在做以下事情: 配置.h #pragma
java - Java 中的泊松分布(正确性？)
我必须生成泊松分布的数据。我的范围是 n = 1000 到 100K。其中n是数据元素的数量； k 从 1 到 n 变化。它说使用 lambda 作为 n/2 我从未进行过统计，也不知道如何在这里获得
algorithm - 强连通分量算法背后的逻辑(正确性)(DFS的应用)
“如果每个顶点都可以从其他每个顶点到达，则称有向图是强连通的”。 Coreman 中给出的算法如下:- STRONGLY-CONNECTED-COMPONENTS (G) 1. Call DFS(G
c++ - 添加 const 正确性
我有一些代码是在不考虑 const 正确性的情况下编写的。有什么情况可以改变这个 class X { public: X(X& rhs); // does not modify rhs
c++ - 如何跨指针保持 const 正确性？
我正在尝试对真正为 const 的类进行 const 操作 - 它不会更改该类指向的数据。例如: class Node{ public: int val; }; class V{ publi
c++ - 唯一指针和 const 正确性
我没想到这段代码可以编译: #include #include class A { public: inline int get() const { return
c++ - 共享指针和 const 正确性
将类的const 正确性扩展到其指定成员的正确方法是什么？在示例代码中，get 方法的常量版本是否会创建一个 std::shared_ptr，其引用计数器与内部成员 m_b 相同，还是它重新从 0
c++ - 智能指针的 const 正确性
我试图更好地理解 const-correctness 是如何工作的，更具体地说，在处理其成员基于 containers 和 smart pointers 的类时。我想无论类成员如何，const-cor
c++ - 自动初始化和 const 正确性
我有一个自定义迭代器实现(它迭代数据库查询结果，但这与此无关)。它在概念上有两组函数:get 类型函数，它从当前项目(当前行)返回一个值，以及 setup 类型函数(在我的例子中是 binds)，它在
c++ - 是否值得插入 `const` -正确性
我目前面临一个由一些高级程序员编写的 C++ 项目，其中包含大约 400 个文件和 200 个类。代码精心设计，运行良好且稳定。虽然我正在添加一些功能，但对我来说，注意 const 的正确性只是普
字符串文字的 C++ const 正确性
这个问题在这里已经有了答案: What is the type of string literals in C and C++? (4 个回答) 关闭9年前。根据 C++ 标准，字符串字面量类型是
C++ 智能指针 const 正确性
我在一个类中有几个容器，例如 vector 或 map ，其中包含shared_ptr 指向堆上的对象。例如 template class MyExample { public: private:
c++ - 值参数的 const 正确性
我知道很少有关于 const 正确性的问题，其中声明函数的声明及其定义不需要就值参数达成一致。这是因为值参数的常量只在函数内部很重要。这很好: // header int func(int i); /
C++ 互斥体和 const 正确性
对于本质上是只读但具有可能需要修改的互斥锁/锁的方法是否为 const 是否有约定？如果没有，如果这种方法是 const 会有什么缺点/不好的设计谢谢最佳答案您可以使用关键字mutable标记

首页

博学

6Ren·AI

商城

hadoop - MapReduce 上的 HyperLogLog 正确性