ubuntu - 通过 cli 删除重复图像-6ren

ubuntu - 通过 cli 删除重复图像

转载作者：行者123 更新时间：2023-12-04 18:53:35

27

4

在 linux 环境中，我需要通过文件的 md5 删除重复的图像，但在删除之前，我想在文件中写入一些 CSV 列表

已删除文件 -> 链接的第一个文件
已删除文件 -> 链接文件

等等。

问题是我有一个结构

主文件夹
子文件夹
子子文件夹
子子子文件夹
图片

拥有超过 200.000 个文件

所以脚本应该很不错，不会挂起并且速度很快。

你会建议哪个方向？

我手头有ubuntu。

更新:

我找到了一个脚本，它可以做我需要的小修改。它搜索并找到 md5 重复项并删除重复项。唯一需要的最后一步是制作一个包含已删除文件列表的文件->保留的副本

#!/bin/bash

DIR="/home/gevork/Desktop/webserver/maps.am/all_tiles/dubai_test"

find $DIR -type f -exec md5sum {} \; | sort > /home/gevork/Desktop/webserver/maps.am/all_tiles/dubai_test/sums-sorted.txt

OLDSUM=""
IFS=$'\n'
for i in `cat /home/gevork/Desktop/webserver/maps.am/all_tiles/dubai_test/sums-sorted.txt`; do
 NEWSUM=`echo "$i" | sed 's/ .*//'`
 NEWFILE=`echo "$i" | sed 's/^[^ ]* *//'`
 if [ "$OLDSUM" == "$NEWSUM" ]; then
  echo rm  "$NEWFILE"
 else
  OLDSUM="$NEWSUM"
  OLDFILE="$NEWFILE"
 fi
done

最佳答案

我发现 Python 是完成这些任务的一个很好的工具，而且更便携(尽管您已将问题限制在 Linux 上)。下面的代码将在副本中保留最旧的文件(按创建时间)，如果这对您无关紧要，那么它可以被简化。要使用它，请将其另存为，例如，“remove_dups.py”，并以 python remove_dumps.py startdir 运行。 .来自 startdir ，它将查找 3 级深度的目录，并计算那里的内容的 md5 总和。它存储每个哈希的文件名列表。你要的文本文件被打印到标准输出，所以你实际上想以 python remove_dumps.py startdir > myoutputfile.txt 运行它.它还将起始目录存储在此输出文件中。每一行的格式为:md5sum: file1, file2, file3, ...对于重复文件。其中第一个被保留，其他被删除。

import os
import sys
import glob
import hashlib
from collections import defaultdict

BIG_ENOUGH_CTIME = 2**63-1

start_dir = sys.argv[1]

hash_file = defaultdict(list)
level3_files = glob.glob(os.path.join(start_dir, "*", "*", "*", "*"))
for name in level3_files:
    try:
        md5 = hashlib.md5(open(name).read()).hexdigest()
    except Exception, e:
        sys.stderr.write("Failed for %s. %s\n" % (name, e))
    else:
        # If you don't care about keeping the oldest between the duplicates,
        # the following files can be simplified.
        try:
            ctime = os.stat(name).st_ctime
        except Exception, e:
            sys.stderr.write("%s\n" % e)
            hash_file[md5].append((BIG_ENOUGH_CTIME, name))
        else:
            hash_file[md5].append((ctime, name))

print "base: %s" % (os.path.abspath(start_dir))
for md5, l in hash_file.items():
    if len(l) == 1:
        continue

    # Keep the oldest file between the duplicates.
    l = sorted(l)
    name = [data[1] for data in l]

    # md5sum: list of files. The first in the list is kept, the others are
    # removed.
    print "%s: %s" % (md5, ','.join('"%s"' % n for n in name))

    original = name.pop(0)
    for n in name:
        print "%s->%s" % (n, original)
        sys.stderr.write("Removing %s\n" % n)
        try:
            os.remove(n)
        except Exception, e:
            sys.stderr.write("%s\n" % e)

关于ubuntu - 通过 cli 删除重复图像，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14292741/

27

4

0

文章推荐： ubuntu - Vagrant 间歇性 `Error: cannot open display: localhost:10.0`

文章推荐： apache - 设置不记录/存储 IP 地址的 LAMP 服务器？

文章推荐： ruby-on-rails - Ubuntu 上的 Ruby on Rails - 多个错误

ubuntu - 从 ubuntu 服务器在远程 ubuntu 服务器的后台运行进程
我正在尝试使用以下命令在远程 Ubuntu 服务器的后台运行进程: sshpass -p PASSWORD ssh root@HOST 'nohup COMMAND-THAT-BLOCKS &' 不幸
ubuntu - ubuntu 和 ARM Ubuntu 的区别
普通 Ubuntu 和 ARM Ubuntu 有什么区别。我可以运行所有应用程序吗也在 ARM Ubuntu 中的普通 Ubuntu 下运行？ Ubuntu 更新会自动发生吗？ Torrent 下载器
ubuntu - 假脱机的后缀重新处理 - ubuntu
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题？ Update the question所以它是on-topic对于堆栈溢出。 9年前关闭。 Improve this que
ubuntu - 使用主分区预置 Ubuntu
我正在尝试预置 Xenial 图像，它工作得很好，除了分区。 cloud-init 只能增长根分区，并且在使用扩展分区内的根文件系统构建镜像时不起作用: NAME MAJ:MIN RM SIZ
ubuntu - 终端看不到复制的文件夹 - ubuntu
我对 Ubuntu 和 OpenFoam 真的很陌生，所以尝试学习并做一些教程。我正在使用 Docker 在 Ubuntu 上使用 OpenFoam。我将文件夹复制到特定目录，但是当我尝试使用终端访
ubuntu - 如何使用系统启动运行软件 - ubuntu
我在使用系统启动设置运行软件时遇到问题。我有 ubuntu 20.04。我试图将这些行插入到 etc/rc.local #!/bin/bash /usr/bin/clamonacc 它不起作用。第二次
ubuntu - 制作文件中可能出现的错误(UBuntu)
TARGETS = client server CL_OBJ = clientMain.o Controller.o UI.o List.o Movie.o Server.o Serializer.o
ubuntu - 如何在旧的 ubuntu 版本上安装仅在较新的 ubuntu 版本上可用的更高版本的软件包？我以erlang为例
我有一个 ubuntu服务器系统是8.04 hardy ，我在哪里安装rabbitmq。 rabbitmq依赖于 erlang-nox (>= 1:12.b.3) ，但是在当前的 ubuntu 版本中
ubuntu - 组织模式热键不起作用(ubuntu)
我有一个用于开发的 Ubuntu virtualbox 设置。当我在文件中处于 org-mode 时，org-mode 的任何热键都不起作用(例如 M-RETURN 用于创建新标题)。我该怎么做才能让
ubuntu - Ubuntu 图表中截断的表名
我的 SchemaCrawler(版本 15.01.03)模式图在 Ubuntu 18.04 LTS 上截断表名。看起来表格通常被画得太窄，因为“[TABLE]”符号也开箱即用。在我的 Mac 上渲染
ubuntu - Ubuntu 的设置应用程序用于列表的小部件是什么？
在 Ubuntu 中，设置应用程序中有几个地方有一个非常漂亮的 ListView ，带有添加/删除按钮，包括外观、键盘布局、隐私、蓝牙等。他们使用什么小部件？我开始使用 Glade 开发我的第一个 U
ubuntu - 如何卸载jprofiler，ubuntu？
需要帮助卸载 jjrofiler。没有意识到它需要许可证。通过 .sh 可执行文件安装。最佳答案如果您转到 jProfiler 安装目录，您将找到名为 uninstall 的可执行文件，只需从终端
ubuntu - 疯狂创建管理员帐户 ubuntu
我一直在寻找几天，我没有想出解决方案。我是 ruby 新手，但我想通过使用 spree 开发自己的在线商店。我使用:rails:Rails 3.2.13 ruby :ruby-1.9.3-p42
ubuntu - 终端窗口不工作 Ubuntu
我尝试使用以下命令从/usr/local/bin 中删除我的 python2.7 和 python3 文件夹:sudo rm -rf python2.7 和 sudo rm -rf python3。后
ubuntu - ubuntu 服务器断开连接的时间
在 ubuntu 服务器中(使用 ssh 协议(protocol))，如何更改因不活动而断开连接的时间？最佳答案你能在 .bash_profile 中加入“exec screen -R”，在 .
ubuntu - ubuntu 中的虚拟主机无法正常工作
我使用以下配置在 /etc/apache2/site-available/mysite.local 中创建了一个虚拟主机: ServerAdmin webmaster@localhost
ubuntu - ubuntu 服务器上的鱿鱼在特定时间段内停止为特定网站工作
我为大约 210 个用户新设置了一个代理服务器。它运行 ubuntu server 2012 和 squid3。问题是在凌晨 1:30 之后，如果用户尝试打开 google.com、youtube.c
ubuntu - 修复无法创建引导目录 ubuntu
gitlab-ci-multi-runner 1.0.2 (ea19241) Using Shell executor... Running on ip-... Cloning repository.
ubuntu - Ubuntu 中的信号量和锁
我有一个备份服务器，它每小时接收许多 rsync 连接。由于打开太多 rsync 实例可能会导致崩溃，我想使用 Semaphore 来限制并发实例的数量。 .我的想法是这样的: ssh root@ba
ubuntu - Ubuntu 中的临时库搜索路径
我有同一个库的多个版本，我的程序动态链接到这些库。有时我想更改使用的版本。我一直在阅读，出于安全原因，新版本的 Ubuntu 不再支持 LD_LIBRARY_PATH。我可以将路径添加到 /etc/

首页

博学

6Ren·AI

商城

ubuntu - 通过 cli 删除重复图像