- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
假设我有大量文档以某种方式散列(例如 Sha256)并存储它们的散列。是否有一种散列技术可以让我通过查看它们的散列来检查 string1
是否包含在 string2
中?我想避免加载全文。
澄清一下:这与 sim/min-hashing 无关,寻找近似重复项或 Levenshtein 距离。我正在寻找一种哈希算法,它可以通过查看哈希以某种方式让我检查子字符串。
例如
var string1 = "bla bla bla cat dog bla bla";
var string2 = "cat dog";
var hash1 = HashAlgo(string1); // <-- magic goes here
var hash2 = HashAlgo(string2);
Assert.IsTrue(string1.Contains(string2));
Assert.IsTrue(hash1.Contains(hash2)); // <--- magic goes here
最佳答案
如果你仔细想想,这不可能是有道理的。
首先,所有 SHA256 哈希值的长度都完全相同。我的答案基于 SHA256,但据我所知,这适用于任何哈希方法。
较大文件的哈希值不可能包含两个较小文件的哈希值,因为只有当所有三个哈希值彼此相等时才有可能。
其次,想一想我可以从 1000 个字符的文档中提取多少个 100 个字符的子字符串。它不仅仅是 10(如 1000/100 = 10),而是 900。将子字符串表示为索引边界,有多种可能性:
总共有 900 个选项。假设您的初始文档不会以任何方式重复自身(因此您不会得到两个相等的子字符串),这将导致 900(假定的)唯一哈希值。
这 900 个唯一的哈希值不能都是初始文件哈希值的子字符串。
此外,考虑到我们甚至没有考虑过其他长度的子串!假设任何可能的子串长度,您最终可以得到 999,000 个不同的子串(但当然其中一些会重复)
这还没有考虑原始文档可能超过 1000 个字符的事实。对于包含 n 个字符的任何文档,您可以期望找到 n*(n-1) 个子字符串(长度在 1 到 n 之间),主要具有唯一的哈希值。
只有当您处于 1077(更准确地说,2256)的数量级时,这种可能值的扩展才会稳定下来,因为这是唯一值的数量SHA 哈希可能存在。
餐巾纸的背面是一个 1038 字节的文档。一旦达到该文件大小,所有可能的子字符串(任意长度)都必须包含至少一个重复项。
我想您明白为什么您的建议在数学上根本不可能。
I will keep this as a sidenote, but superpermutations are a tangential topic worth looking at to understand how impossible this is. For 7 unique characters, you need a superpermutation of 5907 digits if you want to encompass all possible permutations of the 7 characters. This is the highest N for which we have found (minimal) superpermutations.
For the initial example of 900 unique hashes (= unique permutations of hexedecimal characters) which would all be contained in your "master" hash, the minimum required length of the master hash is simply incalculable. But as an absolute minimum (which you provably cannot go under), your master hash would have to be 963 characters long (if you assume that every single 64-character substring always gives you a unique new hash)
关于c# - 检查字符串哈希是否包含子字符串哈希,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55222367/
我需要根据需要动态设置文本区域,但它不想正常工作。 JQuery 会自行检查,但无法检查是否已检查。但是当您在第二个单选框内单击时,始终需要文本区域。我尝试了很多次让它工作,但它仍然有问题。我添加了“
我需要在 Django 中进行 API 调用(某种形式),作为我们所需的自定义身份验证系统的一部分。用户名和密码通过 SSL 发送到特定 URL(对这些参数使用 GET),响应应该是 HTTP 200
我将在我的可移植 C 代码中使用 #warning 来生成编译时警告。但并非所有平台都支持 #warning。有什么方法可以找到该平台是否支持 #warning。 #ifdef warning
我编写了一个函数来检查某个数字是否存在于某个区间内。停止搜索的最佳方法是什么?这个: for (i = a; i <= b; i++) { fi = f(i); if (fi == c) {
我想知道在 c 中是否有一种方法可以检查,例如在 for 函数中,如果变量等于或不等于某些字符,而不必每次都重复进行相等性检查。如果我没记错的话,以这种方式检查相等性是不正确的: if (a == (
我有如下日志功能 void log_error(char * file_name, int line_num, int err_code) { printf("%s:%d:%s\n", fil
使用 ssh-keygen 生成的 key 对在 macOS 上可以有不同的格式。 macOS 可读的标准 PEM ASN.1 对象 SecKey API 带有文本标题的 PEM OpenSSH ke
我正在尝试编写一个 excel if 语句。我不熟悉使用 Excel 具有的所有额外功能。我正在使用一个名为 importXML() 的函数.我正在尝试检查我正在使用的函数是否生成“#VALUE!”错
有没有办法检查是否没有 AIO 写入给定文件?我在我的 Unix 类(class)上制作了一个项目,该项目将是一个上下文无关(基于 UDP)的国际象棋服务器,并且所有数据都必须存储在文件中。应用程序将
我有一个如下所示的函数: public Status execute() { Status status = doSomething(); if (status != Stat
我正在使用 Composer,我不希望 PhpStorm 在 vendor 文件夹上运行任何错误检查或检查,因为它对 vendor/中的某些代码显示误报composer/autoload_static
Chapel 的一个很好的特性是它区分了数组的域和它的分布。检查两个数组是否具有相同的域和分布(通常想要的)的最佳方法是什么? 我能看到的最好的方法是检查 D1==D2和 D1.dist==D2.di
在我的 JavaScript 函数中,我为所有输入、文本区域和选择字段提供实际值作为 initial_value: $('input, textarea, select').each(function
我正在编写一个分解为几个简单函数的 PHP 类。在构造函数中,它调用另一个名为 processFile 的函数。该函数调用 5 个私有(private)函数并进行检查。如果检查失败,它会将消息分配给
这个问题已经有答案了: How to detect if user it trying to open a link in a new tab? (2 个回答) 已关闭 7 年前。 我认为 JavaS
我正在浏览我们的代码库并看到很多这样的测试: declare @row_id int = ... declare @row_attribute string select @row_attribu
我正在声明一个用作比较的函数。我的问题是: 为什么条件充当语句? 为什么第 4 行可以工作,而第 5 行却不行? 我知道这段代码不切实际且未使用,但为什么编译器允许这种语法? 谷歌没有找到答案。但话又
到目前为止,我有一个带有空文本字段的 PHP Kontaktform,并使用以下命令检查了所需的字段: $name = check_input($_POST['name'], "请输入姓名。"); 现
目前,我能想到的合理检查的唯一方法没有臃肿的逻辑: if ( $value > 0 ) { // Okay } else { // Not Okay } 有没有更好的办法? 最佳答案
我正在尝试运行一个脚本,如果 i 存在(意味着存在 i 值,任何值)或其他部分,我希望运行其中的一部分如果i没有值就运行,有人可以启发我吗? 我说的是 for 循环,比如 for (var i=0;
我是一名优秀的程序员,十分优秀!