gpt4 book ai didi

python - 使用 MD5 校验和在多个硬盘驱动器上搜索重复文件是否安全?

转载 作者:太空狗 更新时间:2023-10-30 01:58:42 24 4
gpt4 key购买 nike

<分区>

我的任务是整合实验室大约 15 年的记录,其中大部分是学生作业或原始数据。我们说的是 100,000 多个人工生成的文件。

我的计划是编写一个 Python 2.7 脚本来映射整个目录结构,为每个目录结构创建校验和,然后标记重复项以供删除。我预计可能会有 10-25% 的重复。

我的理解是,从理论上讲,MD5 冲突是可能的,但不太可能,这实际上是一个安全的过程(假设如果发生 1 次冲突,我的工作就是安全的)。

这是一个可靠的假设吗?如果实现很重要,我打算使用的唯一 Python 库是:

  • hashlib 用于校验和;
  • sqlite 用于数据库化结果;
  • os 用于目录映射

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com