- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
假设您有两组无序的校验和,一组大小为 N,一组大小为 M。根据比较它们的算法,您甚至可能不知道大小,但可以比较 N != M 以快速中止,如果您做。
用于校验和的散列函数有一定的碰撞几率,作为外行,我愚蠢地将其称为“强度”。有没有办法获取两组校验和,全部由相同的哈希函数制成,并快速比较它们(因此比较元素到元素是正确的)两组之间的基本碰撞机会与两个单独的校验和之间的碰撞机会相同?
例如,一种方法是通过对集合中的所有校验和进行异或来计算“集合校验和”。这个新的单一散列用于与其他集合的散列进行比较,这意味着不再需要存储大小。特别是因为它可以通过与集合的校验和进行异或来修改以添加/删除元素校验和,而无需重新计算整个事情。但是,与所有原始校验和的强力比较相比,这是否会降低校验和的“强度”?有没有一种方法可以合并集合的校验和,既不会降低“强度”(同样多?),但仍然比直接比较集合元素的校验和更简单?
最佳答案
在我最初的评论之后,我开始思考它背后的数学原理。这是我想出的。我不是专家,所以请随时进行更正。注意:这一切都假设您的哈希函数是均匀分布的,因为它应该是。
基本上,校验和中的位数越多,发生冲突的可能性就越低。文件越多越高。
首先,让我们计算一对文件异或后发生冲突的几率。我们将首先处理小数字,因此假设我们的校验和为 4 位 (0-15),我们将其称为 n
。
有了两个和,总位数 2n
(8),所以总共有 2^(2n)
(256) 种可能性。然而,我们只对碰撞感兴趣。要碰撞 XOR,您需要翻转两个和中的相同位。只有 2^n
(16) 种方法可以做到这一点,因为我们使用的是 n
位。
因此,碰撞的总体概率为 16/256
,即 (2^n)/(2^(2n))
,或简称为 1/(n^2)
。这意味着非碰撞的概率是1 - (1/(n^2))
。因此,对于我们的示例 n
,这意味着它只有 15/16
安全,即 93.75%。当然,对于更大的校验和,它更好。即使对于微不足道的 n=16
,您也可以获得 99.998%
当然,这是针对单一比较的。由于您将它们全部滚动在一起,因此您正在进行 f-1
比较,其中 f
是文件数。要以这种方式获得碰撞的总几率,您可以使用我们在第一步中获得的几率的 f-1
次方。
因此,对于 10 个具有 4 位校验和的文件,我们得到非常糟糕的结果:
(15/16) ^ 9 = 55.92% chance of non-collision
即使我们增加了文件数量,这也会随着我们增加位而迅速变得更好。
对于 10 个具有 8 位校验和的文件:
(255/256) ^ 9 = 96.54%
对于 16 位的 100/1000 个文件:
(65536/65536) ^ 99 = 99.85%
(65536/65536) ^ 999 = 98.49%
如您所见,我们仍在使用较小的校验和。如果您使用 >= 32 位的任何东西,当我尝试对其进行数学运算时,我的计算器会出现浮点舍入错误。
其中 n
是校验和位数,f
是每组中的文件数:
nonCollisionChance = ( ((2^n)-1) / (2^n) ) ^ (f-1)
collisionChance = 1 - ( ((2^n)-1) / (2^n) ) ^ (f-1)
您将一堆校验和异或在一起的方法可能很好。
关于algorithm - 如何快速判断两组校验和是否相等,与单个校验和相同的 "strength",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19144353/
也许我在 Java 上工作的时间太长而没有真正理解它的一些基础知识。 我确实理解 == 用于对象引用相等,而 .equals() 用于对象值相等。 比较整数: Integer x = 1, y = 1
我是从一道考试题中得出这个答案的,但无法理解该解决方案的工作原理。如果值“x”和“y”相等,则此函数应该返回“true”,否则返回 False。 解决方法: function equal_boolea
我将带有表情符号的文本存储在 mysql 数据库中。 数据库、表和列设置为使用utf8mb4和utf8mb4_unicode_ci。 我可以毫无问题地输入单元格值(数据类型是 VARCHAR)。 但是
如果两个 DateTime 对象具有相同的日、月和年,我该如何比较?问题是他们有不同的小时/分钟/秒。 最佳答案 对于 DateTime 对象,没有好的方法可以做到这一点。所以你必须做,比方说,不是那
我一直想知道这个问题,所以我想我会问的。 您将看到的大多数地方都使用相同的语义逻辑来覆盖 Equals 和 GetHashCode 以实现成员平等...但是它们通常使用不同的实现: publi
苹果 CoreGraphics.framework , CGGeometry.h : CG_INLINE bool __CGSizeEqualToSize(CGSize size1, CGSize s
在最新的python 版本中, dict 保留了插入的顺序。在平等方面是否有任何变化。例如,目前以下工作。既然广告顺序很重要, future 会不会发生这种变化? 我问是因为有根本性的变化 - 以前
class VideoUserModel(models.Model): user = models.ManyToManyField(get_user_model()) viewlist
我在 COQ 中有一个有限枚举类型(比如 T),我想检查元素是否相等。这意味着,我需要一个函数 bool beq_T(x:T,y:T) 我设法定义这样一个函数的唯一方法是逐个分析。这会导致很多匹配语
我在 Windows 7(32 位)下的 MinGW 中使用 gfortran 来编译 Fortran 代码。这是文件 testequal.f 中包含的最少代码: program test
我有以下 jsp 片段: ${campaign.moderated}
我想检查两个稀疏数组是否(几乎)相等。而对于 numpy 数组,你可以这样做: import numpy as np a = np.ones(200) np.testing.assert_array_
我有以下类(class): public class MyDocuments { public DateTime registeredDate; public
这个问题已经有答案了: Is floating point math broken? (33 个回答) 已关闭 5 年前。 我在这里想做的是,我采用一个精度值(小于 1)并打印 1/n 类型的所有数字
我正在为我的arduino写一个草图,我想检查我的字符串的最后一个字符。 例如: 如果输入是 cats- 我想看看最后一个字符(在我的例子中是“-”)实际上是否 - 我使用的代码: 串行事件函数 vo
让我们开始: using System; public class Program { class A { public virtual void Do() { }
我只需要根据几个键(不是全部)来确定两个 HashMap 的相等性 除了单独访问每个字段并比较相等性之外,还有其他节省时间的方法吗? 最佳答案 我能想到的一种方法是在您的 HashMap 上存储某种“
在Java中,大写的Double可以为null。 但是如果我有 double a 和 b 并且我这样做: if (a.equals(b)) 如果其中之一为空,它会崩溃。有没有更好的方法来比较它们? 最
我正在尝试从我的旧数据库中插入表格数据。 Id 在数据库表和选择特定列中都相等。这是我的数据库。 旧数据库:sch -> 旧表:product (id, tag, url) (13, red, aaa
我正在开发一个应用程序,它在我的主视图中有一个侧边栏和两个 div。我试图在容器内平均分割两者的高度。我试过 height = 50% 但效果不太好。
我是一名优秀的程序员,十分优秀!