algorithm - 列出给定根目录的文件系统中的所有重复文件。-6ren

algorithm - 列出给定根目录的文件系统中的所有重复文件。

转载作者：塔克拉玛干更新时间：2023-11-03 03:48:02

25

4

您将如何设计一种算法来列出文件系统中的所有重复文件？我首先想到的是使用散列，但我想知道是否有更好的方法来做到这一点。需要牢记任何可能的设计权衡？

最佳答案

散列所有文件将花费很长时间，因为您必须读取所有文件内容。

我会推荐一个三步算法:

扫描目录并记下文件的路径和大小
仅对与其他文件具有相同大小的文件进行哈希处理，前提是存在超过 2 个相同大小的文件:如果一个文件仅与一个其他文件具有相同大小，则不需要进行哈希处理，只需一对一比较它们的内容(节省散列时间，之后您将不需要散列值)
即使散列值相同，您仍然必须逐字节比较文件，因为不同文件的散列值可能相同(尽管如果文件大小相同并且是您的文件，则这种情况不太可能发生文件系统)。

您也可以完全不进行散列，尽可能同时打开所有文件，然后比较内容。这将节省对大文件的多次读取。您可以根据数据类型进行很多调整以节省时间(例如:如果 2 个压缩/tar 文件具有相同的大小 > x Ggigabytes 大小(以及相同的名称)，请不要读取内容，鉴于您的过程，文件很可能是重复的)

这样，您就可以避免对系统中大小唯一的文件进行哈希处理。节省大量时间。

注意:我在这里不考虑名称，因为我认为名称可能不同。

编辑:我做了一些研究(为时已晚)，发现如果您使用的是类似 Un*x 的系统，fdupes 似乎就是这样做的:

https://linux.die.net/man/1/fdupes

在那个问题中看到:List duplicate files in a directory in Unix

关于algorithm - 列出给定根目录的文件系统中的所有重复文件。，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40691190/

25

4

0

文章推荐： image - opencv如何判断轮廓是直线还是曲线？

文章推荐： java - JsonPath : filter by value in array

文章推荐： java - Jboss EAP 7 - 如何从部署中排除隐式模块 (javax.jms)？

文章推荐： algorithm - 最小皮带，已知距离

themes - Prestashop 根目录
我正在使用 prestashop，在主题中我添加了自己的目录，里面有一个样式表然后我在 header.tpl 中链接了样式表例如但是，如果我在子目录中安装 prestashop，例如 www.
php - 乔姆拉!根目录
我有以下目录结构: C:\mywebsites \site_1 \site_2 \site_n 在“site_2”中，我安装了 joomla，但是，我在“额外”文件夹之一中有其他文件夹，其
linux - 运行命令前检查用户是否可以访问/根目录
我有一个家庭作业，要求我使用 bash 脚本在 Linux 终端中打印某些内容。我已经完成了其中的大部分，但我被困在我需要做的最后一件事上......这就是我的教授的措辞 Checks to see
windows - 删除所有子目录和子文件而不删除父/根目录？
通过 Windows Batch，删除文件夹的所有子目录和子文件而不删除/删除所述父/根文件夹的命令是什么？到目前为止，这是我尝试过的: ECHO "Good riddance, cache! Mu
python: OpenCV 根目录
我正在将 OpenCV 用于各种对象检测器，但我发现很难编写可移植代码。例如，要在通过自制软件安装了 OpenCV 的 Mac 上加载人脸检测器，我必须这样写: haar=cv.Load('/usr
Linux目录树:根目录、典型目录等详细说明
目录树的主要部分有root（/）、/USR、/var、/home等等。下面是一个典型的linux目录结构如下： / 根目录 /bin 存放必要的命令 /boot
import - 更改 pytest 根目录
我被这个非常愚蠢的错误所困扰。我正在尝试使用 bluepy 在 Raspberry Pi 上运行 pytest。 pi@pi:~/bluepy/bluepy $ pytest test_asdf.py
ubuntu - 更改 MediaWiki 根目录
我在 Ubuntu 14 上安装了 MediaWiki，该站点的 URL 为:www.wiki.example.com/mediawiki/ 但是我想将位置更改为 www.wiki.example.c
Vagrant 文件结构和 Web 根目录
我已经阅读了文档，但有些事情仍然让我感到困惑，主要与同步文件夹和数据库数据有关。我想在我的主机上使用以下文件夹结构 ROOT |- workFolder ||- project1 |||- proj
azure - 根目录 Azure 的网络服务权限
我想在我的 Azure webrole 启动时授予网络服务帐户修改权限(根项目目录)，有人知道这样做的方法吗？修改后，我会重置该值以确保安全。主要目的是我需要修改 webconfig 以根据多个节点上
scons - 获取 scons 根目录
我需要作为自定义构建器的一部分按顺序运行两个程序。其中一个程序我被困住了，无法处理绝对/相对路径，因此我必须使用构建器的 chdir=1 选项才能运行其操作与目标位于同一目录中。第二个是位于项目的
cmake 安装到 CMAKE_INSTALL_PREFIX 根目录
Cmake的安装命令 install(TARGETS MyTarget LIBRARY DESTINATION lib) 要求我将共享库安装到子文件夹中。似乎 LIBRARY DESTINATION
c# - 如何阻止更改 Uri 根目录？
我正在尝试运行这个: string webRoot = "http://www.dev/api"; string apiRoot = "http://api.dev"; string path = "
android - 在Android中获取辅助外部存储设备的公共(public)/根目录？
在 android 中，我可以使用以下方法获取手机的可移动外部存储: for (File f : context.getExternalFilesDirs("/")) if (Environm
tomcat - 移动 Tomcat 根目录
当我启动 tomcat 时，它从 localhost:8080/开始服务。我希望它从 localhost:8080/aaa 开始服务。我不想用“aaa”webapp 替换“root”webapp，我希
javascript - 将类添加到 html 根目录
我想在按下按钮时向页面顶部的根 html 标记添加一个类。我遇到的唯一代码是将类添加到具有 id 的 div 元素。 Untitled Document 开始演示我尝试修改这段代码，但没
c++ - 根目录 : TTreeReader and TVector3
我希望了解 ROOT 的 TTreeReader 和 TVector3 类的人可以帮助我。我正在尝试使用 TTreeReader 读取包含 TVector3 的 TTree。 class MuseS
php - 本地 Prestashop 根目录
我已经从已经运行并安装在我本地的服务器上下载了 prestashop 文件选择了默认主题，但未应用任何样式表例如，当我通过 Firebug 检查时，样式表路径是错误的我有 http://localho
python - 检查目录是否为(文件系统)根目录
我有一个脚本，用于搜索包含特定文件的目录，从当前目录开始向上爬(想想试图找出 .git 目录所在的位置)。我的方法是这样的: def getDir(self,cwd): path = os.pa
git - 在一个命令中检查目录是否为 Git 根目录
我需要检查当前目录是否在Git版本控制下如果是 Git 根目录在单行 shell 脚本中执行上述操作，成功时应以 0 退出最佳答案使用 git-rev-parse 是可行的方法。只需确保将其

首页

博学

6Ren·AI

商城

algorithm - 列出给定根目录的文件系统中的所有重复文件。