gpt4 book ai didi

c# - 我应该使用哪种收集类型来存储一堆哈希值?

转载 作者:太空宇宙 更新时间:2023-11-03 17:42:12 25 4
gpt4 key购买 nike

我有一堆长弦,必须操纵。它们可以一次又一次地出现,如果它们出现两次,我想忽略它们。我认为执行此操作的最佳方法是对字符串进行哈希处理,并以快速的查找时间将哈希列表存储在某种有序列表中,以便在数据集向我提供新字符串时可以进行比较。

要求:


能够将项目(哈希)添加到我的收藏中
能够(快速)检查集合中是否已存在特定的哈希。
不太占用内存。我最终可能会得到大约100,000个哈希值。


如果那有什么区别,我不需要倒退(键->值)。

关于哪种.NET数据类型最有效的任何建议?

最佳答案

我认为执行此操作的最佳方法是对字符串进行哈希处理,并以快速的查找时间将哈希列表存储在某种有序列表中,以便每当我的数据集给我一个新字符串时就可以进行比较。


不,不要那样做。两个原因:


哈希值仅告诉您两个值是否相同;他们不会告诉您是否相同。
您会做很多已经为您完成的工作。


基本上,您应该只保留一个HashSet<String>。没问题,可以快速查找,并且您不需要自己实现它。

缺点是您最终会将所有字符串保留在内存中。如果这是一个问题,那么您将需要制定一种替代策略……实际上可能最终只能将哈希保留在内存中。确切的详细信息可能取决于字符串的来源,以及如果得到误报会导致什么样的问题。例如,您可以保留每个字符串的MD5散列,作为“优于hashCode”散列-但这仍将使攻击者可以向您呈现具有相同散列的另一个字符串。那是问题吗?如果是这样,则更安全的哈希算法(例如SHA-256)可能会有所帮助。但是,它仍然不能保证您为不同的字符串使用不同的哈希值。

如果您确实想确定,则需要将散列保留在内存中,但将实际的字符串数据保留(存储到磁盘或数据库中)-然后,在可能的匹配项中(因为您看到了相同的散列)之前),您需要将存储的字符串与新字符串进行比较。

如果您将哈希存储在内存中,则最佳方法将取决于您使用的哈希大小。例如,对于仅64位哈希,您可以为每个哈希使用Long并将其保存在HashSet<Long>中。对于更长的散列,您需要一个可以轻松比较的对象。在这一点上,我建议您查看Guava及其HashCode类以及HashCodes中的工厂方法(从Guava v16起不推荐使用) )。

关于c# - 我应该使用哪种收集类型来存储一堆哈希值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16812751/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com