gpt4 book ai didi

algorithm - 重复数据删除算法

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:45:41 27 4
gpt4 key购买 nike

我想找到重复数据删除算法,主要是为了查找重复文件。看起来第一步是识别具有相同时间戳、大小和文件名的文件。我可以对这些文件进行 MD5 校验和比较。除此之外,还可以比较文件的内容。我还应该注意什么?

最佳答案

您有操作系统元信息(大小和时间戳)。其他元信息包括权限。您可以比较 inode 和 dnode 信息,但这意义不大。

您有一个摘要(校验和)。

您有逐字节的详细信息。

还能有什么?您是否要求其他摘要?摘要比逐字节的详细信息信息量少。但是您可以轻松地发明许多其他摘要。摘要只有在您将其保存在某个地方时才有用,这样您就不会一直重新计算它。

如果你想为“主”副本保存摘要,你可以发明任何你想要的摘要。行数、字母“e”数、平均行长,任何内容都可能是有趣的摘要。

关于algorithm - 重复数据删除算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1018282/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com