gpt4 book ai didi

c# - 是否可以复制 .NET HashAlgorithm(用于重复的增量哈希结果)?

转载 作者:可可西里 更新时间:2023-11-01 08:46:42 26 4
gpt4 key购买 nike

我有以下用例:

  • 从一个文件中读取n个字节
  • 计算这 n 个字节的 (MD5) 散列
  • 从文件中读取下m个字节
  • 为最多 n+m 字节的文件计算 (MD5) 哈希

增量散列文件不是问题,just call TransformBlock and TransformFinalBlock .

问题是我需要共享其起始字节的多个数据散列,但在我调用 TransformFinalBlock 读取第一个 n 的 Hash 之后 bytes 我不能继续使用同一个对象进行哈希处理,需要一个新对象。

搜索问题时,我看到 Python以及OpenSSL可以选择为此目的复制哈希对象:

hash.copy()

Return a copy (“clone”) of the hash object. This can be used to efficiently compute the digests of strings that share a common initial substring.

EVP_MD_CTX_copy_ex() can be used to copy the message digest state from in to out. This is useful if large amounts of data are to be hashed which only differ in the last few bytes. out must be initialized before calling this function.

尽我所能搜索,我无法找到库存 C# HashAlgorithm 中的任何内容这将允许我有效地 Clone() == 复制这样一个对象 before 调用它的 TransformFinalBlock 方法——然后继续散列其余部分克隆的数据。

我找到了一个 C# reference implementation for MD5可以简单地调整以支持克隆(*),但强烈希望使用现有的东西而不是将这样的东西引入代码库。

(*) 事实上,据我所知,任何我费心检查的哈希算法(与加密/解密相反)都是可简单复制的,因为这种算法的所有状态都是摘要的一种形式。

我是不是遗漏了什么,或者标准的 C#/.NET 接口(interface)实际上没有提供复制散列对象的方法?


另一个数据点:

Microsoft 拥有 用于 crypto services 的 native API有一个函数 CryptDuplicateHash ,哪个州的文档,引用:

The CryptDuplicateHash function can be used to create separate hashes of two different contents that begin with the same content.

从 Windows XP 开始就存在。 :-|


请注意。 MD5:用例不是加密敏感的。只是可靠的文件校验和。

最佳答案

我知道这并不完全是您所要求的,但如果这与您要解决的问题相符,那么它是一种替代方法,可以为您提供相同的保证和类似的流媒体性能特征。我过去曾将其用于服务器到服务器的文件传输协议(protocol),其中发送方/接收方并不总是可用/可靠。诚然,我可以控制线路两侧的代码,但我知道你可能无法控制。在那种情况下,请忽略 ;-)

我的方法是设置 1 个 HashAlgorithm 来处理整个文件,另一个 HashAlgorithm 用于散列文件的固定大小的 block ——不是滚动散列(避免你的问题),而是独立的散列。因此,想象一个 1034MB(1 GB + 10 MB)的文件在逻辑上分成 32MB 的 block 。发送方加载文件,同时在文件级和 block 级 HashAlgorithm 上调用 TransformBlock。当它到达 32MB 的末尾时,它在 block 级上调用 TransformFinalBlock,记录该 block 的散列,并为下一个 block 重置/创建一个新的 HashAlgorithm。当它到达文件末尾时,它在文件级和 block 级哈希器上调用 TransformFinalBlock。现在发送方有了一个传输“计划”,其中包括文件名、文件大小、文件哈希以及每个 block 的偏移量、长度和哈希。

它将计划发送给接收者,接收者要么为新文件分配空间(文件长度 % block 大小告诉它最后一个 block 小于 32MB),要么打开现有文件。如果文件已经存在,它会运行相同的算法来计算相同大小块的哈希值。与计划的任何不匹配都会导致它仅向发送者询问这些 block (这将说明尚未传输的 block /全 0 和损坏的 block )。它循环执行此操作(验证、请求 block ),直到没有什么可请求的为止。然后它根据计划检查文件级哈希。如果文件级散列无效但 block 级散列均有效,则可能意味着散列冲突或内存损坏(这两种情况都极为罕见……我使用了 SHA-512)。这允许接收方从不完整的 block 或损坏的 block 中恢复,最坏情况的惩罚是必须再次下载 1 个坏 block ,这可以通过调整 block 大小来抵消。

关于c# - 是否可以复制 .NET HashAlgorithm(用于重复的增量哈希结果)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26123689/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com