- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我刚刚在我的项目中遇到一个场景,我需要比较不同的树对象与已知实例的相等性,并且认为在任意树上运行的某种哈希算法会非常有用。
以下面的树为例:
O / \ / \ O O /|\ | / | \ | O O O O / \ / \ O O
Where each O
represents a node of the tree, is an arbitrary object, has has an associated hash function. So the problem reduces to: given the hash code of the nodes of tree structure, and a known structure, what is a decent algorithm for computing a (relatively) collision-free hash code for the entire tree?
A few notes on the properties of the hash function:
If it helps, I'm using C# 4.0 here in my project, though I'm primarily looking for a theoretical solution, so pseudo-code, a description, or code in another imperative language would be fine.
Well, here's my own proposed solution. It has been helped much by several of the answers here.
Each node (sub-tree/leaf node) has the following hash function:
public override int GetHashCode()
{
int hashCode = unchecked((this.Symbol.GetHashCode() * 31 +
this.Value.GetHashCode()));
for (int i = 0; i < this.Children.Count; i++)
hashCode = unchecked(hashCode * 31 + this.Children[i].GetHashCode());
return hashCode;
}
在我看来,这种方法的优点在于可以缓存哈希码,并且仅在节点或其后代之一发生更改时才重新计算。 (感谢 vatine 和 Jason Orendorff 指出这一点)。
无论如何,如果人们可以在这里对我建议的解决方案发表评论,我将不胜感激 - 如果它能很好地完成工作,那就太好了,否则欢迎任何可能的改进。
最佳答案
如果我要这样做,我可能会做如下事情:
对于每个叶节点,计算 0 和节点数据的散列的串联。
对于每个内部节点,计算 1 和任何本地数据的哈希值(注意:可能不适用)以及从左到右的子节点的哈希值的串联。
每次您更改任何内容时,这都会导致树向上级联,但这可能足够低的开销是值得的。如果与更改量相比更改相对不频繁,则采用加密安全散列甚至可能有意义。
Edit1: 还有可能向每个节点添加“哈希有效”标志并简单地将“假”传播到树中(或“哈希无效”并传播“真”)在节点更改上向上树。这样,就可以在需要树哈希时避免完全重新计算,并可能避免未使用的多个哈希计算,但风险是在需要时获得哈希的可预测时间略有减少。
Edit3: Noldorin 在问题中建议的哈希码看起来有可能发生冲突,如果 GetHashCode 的结果永远为 0。本质上,没有办法区分一个由单个节点组成的树,“符号散列”为 30,“值散列”为 25,还有一个双节点树,其中根的“符号散列”为 0,“值散列”为 30,子节点有总哈希值为 25。这些示例完全是虚构的,我不知道预期的哈希范围是多少,所以我只能评论我在提供的代码中看到的内容。
使用 31 作为乘法常数是好的,因为它会导致在非位边界上发生任何溢出,尽管我认为,如果树中有足够的 child 和可能的对抗性内容,项目的哈希贡献早期散列的可能由后来散列的项目支配。
但是,如果哈希对预期数据的表现不错,看起来它就可以完成这项工作。它肯定比使用加密散列更快(如下面列出的示例代码中所做的那样)。
Edit2:至于具体的算法和所需的最小数据结构,类似下面(Python,翻译成任何其他语言应该相对容易)。
#! /usr/bin/env pythonimport Crypto.Hash.SHAclass Node: def __init__ (self, parent=None, contents="", children=[]): self.valid = False self.hash = False self.contents = contents self.children = children def append_child (self, child): self.children.append(child) self.invalidate() def invalidate (self): self.valid = False if self.parent: self.parent.invalidate() def gethash (self): if self.valid: return self.hash digester = crypto.hash.SHA.new() digester.update(self.contents) if self.children: for child in self.children: digester.update(child.gethash()) self.hash = "1"+digester.hexdigest() else: self.hash = "0"+digester.hexdigest() return self.hash def setcontents (self): self.valid = False return self.contents
关于algorithm - 散列树结构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1988665/
我正在 csv 上使用 hadoop 来分析一些数据。我使用sql/mysql(不确定)来分析数据,现在陷入了僵局。 我花了好几个小时在谷歌上搜索,却没有找到任何相关的东西。我需要一个查询,在该查询中
我正在为 Bootstrap 网格布局的“简单”任务而苦苦挣扎。我希望在大视口(viewport)上有 4 列,然后在中型设备上有 2 列,最后在较小的设备上只有 1 列。 当我测试我的代码片段时,似
对于这个令人困惑的标题,我深表歉意,我想不出这个问题的正确措辞。相反,我只会给你背景信息和目标: 这是在一个表中,一个人可能有也可能没有多行数据,这些行可能包含相同的 activity_id 值,也可
具有 3 列的数据库表 - A int , B int , C int 我的问题是: 如何使用 Sequelize 结果找到 A > B + C const countTasks = await Ta
我在通过以下功能编写此查询时遇到问题: 首先按第 2 列 DESC 排序,然后从“不同的第 1 列”中选择 只有 Column1 是 DISTINCT 此查询没有帮助,因为它首先从第 1 列中进行选择
使用 Bootstrap 非常有趣和有帮助,目前我在创建以下需求时遇到问题。 “使用 bootstrap 在桌面上有 4 列,在平板电脑上有 2 列,在移动设备上有 1 列”谁能告诉我正确的结构 最佳
我是 R 新手,正在问一个非常基本的问题。当然,我在尝试从所提供的示例中获取指导的同时做了功课here和 here ,但无法在我的案例中实现这个想法,即可能是由于我的问题中的比较维度更大。 我的实
通常我会使用 R 并执行 merge.by,但这个文件似乎太大了,部门中的任何一台计算机都无法处理它! (任何从事遗传学工作的人的附加信息)本质上,插补似乎删除了 snp ID 的 rs 数字,我只剩
我有一个 df , delta1 delta2 0 -1 2 0 -1 0 0 0 我想知道如何分配 delt
您好,我想知道是否可以执行以下操作。显然,我已经尝试在 phpMyAdmin 中运行它,但出现错误。也许还有另一种方式来编写此查询。 SELECT * FROM eat_eat_restaurants
我有 2 个列表(标题和数据值)。我想要将数据值列 1 匹配并替换为头文件列 1,以获得与 dataValue 列 1 和标题值列 2 匹配的值 头文件 TotalLoad,M0001001 Hois
我有两个不同长度的文件,file2 是一个很大的引用文件,我从中提取文件 1 的数据。 我有一行 awk,我通常会对其进行调整以在我的文件中进行查找和替换,但它总是在同一列中进行查找和替换。 所以对于
假设我有两个表,如下所示。 create table contract( c_ID number(1) primary key, c_name varchar2(50) not
我有一个带有 varchar 列的 H2 表,其检查约束定义如下: CONSTRAINT my_constraint CHECK (varchar_field <> '') 以下插入语句失败,但当我删
这是最少量的代码,可以清楚地说明我的问题: One Two Three 前 2 个 div 应该是 2 个左列。第三个应该占据页面的其余部分。最后,我将添加选项来隐藏和
在 Azure 中的 Log Analytics 中,我为 VM Heartbeat 选择一个预定义查询,我在编辑器中运行查询正常,但当我去创建警报时,我不断收到警报“查询未返回 TimeGenera
在 Azure 中的 Log Analytics 中,我为 VM Heartbeat 选择一个预定义查询,我在编辑器中运行查询正常,但当我去创建警报时,我不断收到警报“查询未返回 TimeGenera
今天我开始使用 JexcelApi 并遇到了这个:当您尝试从特定位置获取元素时,不是像您通常期望的那样使用sheet.getCell(row,col),而是使用sheet.getCell(col,ro
我有一个包含 28 列的数据库。第一列是代码,第二列是名称,其余是值。 public void displayData() { con.Open(); MySqlDataAdapter
我很沮丧:每当我缩小这个网页时,一切都变得一团糟。我如何将网页居中,以便我可以缩小并且元素不会被错误定位。 (它应该是 2 列,但所有内容都合并为 1)我试过 但由于某种原因,这不起作用。 www.o
我是一名优秀的程序员,十分优秀!