- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个长文本文件,其中包含大约 1 亿个 MD5 哈希值。我想对一小组文件进行哈希处理,并找出其中任何一个文件的哈希值是否在 1 亿个哈希列表中。我的 1 亿个哈希是按字母顺序排序的。无需将整个列表加载到内存或数据库中,从这个大文本文件中查找哈希值的最有效方法是什么?哈希列表会不时更新,但会保持按字母顺序排序。对找到的命中位置不感兴趣。重要的是是否有命中。
最佳答案
这种作业的关键参数是单个磁盘查找的成本。磁盘查找具有固有的延迟,因为读/写磁头必须移动到正确的位置。在一个典型的磁盘上,每秒可以进行大约一百次查找。另一方面,磁盘非常擅长顺序读取,因此对于每次查找,您可以读取值(value) 1 兆字节的数据,而几乎没有额外的成本。
我在这里假设“文本文件”具有常规范式。例如,每个散列值正好使用 33 个字节,其中 32 个用于 MD5 结果本身(以十六进制表示)和 1 个额外字节用于“换行”字符。如果需要,根据确切的格式进行调整。使用这些数字,您的文本文件的长度约为 3.3 GB。
由于 MD5 的行为主要类似于随机函数,因此 1 亿个哈希值应均匀分布在 128 位值的空间中。这意味着,给定一个哈希值,您可以计算该值在文件中的大致位置(如果它在文件中)。例如,哈希值 9378ec093d09863d008154f1c8f5ca8f
应该在接近 0.5761*n*33 的偏移量处,其中 n 是大文件中的哈希数,“33”在上面的段落中进行了解释。 0.5761 是 0x9378EC 除以 0x1000000 的结果。因此,您可以读取以该计算位置为中心的一兆字节的文本文件。这将包含大约 30000 个哈希值。 1 亿个随机值的标准偏差约为 10000,因此 30000 个散列将包含正确值的可能性很高,以决定您的散列是否在列表中。如果估计值不正确,您将不得不再读取 1 兆字节,但这不会经常发生。可能,您可以读取多于 1 兆字节以减少这种情况的发生:有一个权衡,需要通过实际措施进行调整。
一旦您在 RAM 中有一个(小)哈希值块,请使用二进制搜索。但无论如何,最初的查找成本将使那部分完全相形见绌。
另一种解决方案使用额外的索引文件。构建一个二级文件,其中包含大文件中每 10000 个哈希值。该文件的长度约为 330 kB。尽可能将此文件保存在 RAM 中。使用它(通过二分搜索)来了解哪个 10000 个哈希序列与您的查找相关。然后从大文件中读取该块。每当哈希列表发生变化时,必须重建索引文件;这有点昂贵,但比实际的大文件更改要少。根据生成大文件的系统,您也许可以以可忽略不计的额外成本集成索引文件生成。
关于.net - 从 LONG 哈希列表中查找哈希,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4254456/
我找到了long int long和 int long long可以编译为变量类型。 long int long有什么区别吗, int long long , long long和 long long
我无法找出为什么“加密”函数仍然将“消息”读取为字符串,尽管我已经使用不同的方法将数据类型更改为字节。 错误消息是“Prince 类型中的方法 Encrypt(long, long, long, lo
这个问题在这里已经有了答案: Is "long long" = "long long int" = "long int long" = "int long long"? (4 个答案) 关闭 6 年
我正在从 Java 过渡到 C++,并且对 long 数据类型有一些疑问。在 Java 中,要保存大于 232 的整数,您只需编写 long x;。但是,在 C++ 中,long 似乎既是数据类型又是
clang-tidy 12.0.1 报告了一个相当奇怪的警告。在以下代码中: #include int main() { std::vector v1; const auto a =
我创建了一个 pair 和 long long int 的映射 - map,long long int >; 和一个交互器 - map, long long int >::iterator it1;
我想知道 unsigned long long 和 unsigned long long int 的主要区别。它们可以互换使用吗? 对于像 9223372036854775807 这样的大十进制数的计
我看到的大多数代码都使用缩写类型来声明变量,例如 long long x; // long long int x short y; // short int y 我浏览了 C++11 标准(第 3.9
common_type::type是 unsigned long因为关于积分提升后的操作数,标准说... [...] if the operand that has unsigned integer
long long int A = 3289168178315264; long long int B = 1470960727228416; double D = sqrt(5); long lon
这些新数据类型的目的是什么?我通常只使用“int”或“long”,但为什么会存在这些呢?它们带来了什么新功能或用途? 最佳答案 long int一直是long的全称,只是很少用而已。 long lon
我正在运行以下for循环 for(unsigned long long int i = N-1; i >= 0; i--){ cin>>L[i]; } 当程序到达这个代码段时,它停止响应。但是
最近问了一个关于递归导致这个问题的问题 注意-> count() 函数返回键 K 在 map 容器中出现的次数。如果键存在于容器中,则返回 1,因为映射仅包含唯一键。如果 map 容器中不存在键,则返
好的,所以我正在尝试实现客户端 - 服务器程序(套接字编程)。 我的客户发送一个嵌入字符串中的 long long int,如下所示: char copy[10]; sprintf(send_data
如果我有任务 Long c = a + b; 有没有一种简单的方法来检查 a + b 不大于/小于 Long.MAX_VALUE/Long.MIN_VALUE? 最佳答案 使用 Guava , 就这么
我需要制作一个 Comparator 来根据它的 long 类型的变量之一对我的对象列表进行排序。 public class ParticipantIndexComparator implements
假设我有这两种类型: typedef unsigned long long uint64; typedef signed long long sint64; 我有这些变量: uint64 a = ..
long long 和 long 有什么区别?而且它们都不适用于 12 位数字 (600851475143),我是不是忘记了什么? #include using namespace std; int
当结果将大于 C 中的 long long int 时,是否有可能对两个不同的 long long int 变量求和? 最佳答案 由于 OP 想要“在屏幕上打印结果”,因此将数字分成两部分:Most-
实际上我必须找到从源顶点到所有其他顶点的最短路径。为此,我获得了下面给出的代码模板。我想实现“Bellman–Ford algorithm”。 #include #include #include
我是一名优秀的程序员,十分优秀!