git - 在 git repo 中查找超过 x 兆字节的文件，这些文件在 HEAD 中不存在-6ren

git - 在 git repo 中查找超过 x 兆字节的文件，这些文件在 HEAD 中不存在

转载作者：IT王子更新时间：2023-10-29 00:41:02

25

4

我有一个 Git 存储库，我在其中存储随机的东西。主要是随机脚本、文本文件、我设计的网站等等。

随着时间的推移，我删除了一些大型二进制文件(通常为 1-5MB)，这些文件会增加存储库的大小，而我在修订历史记录中不需要这些文件。

基本上我希望能够做到..

me@host:~$ [magic command or script]
aad29819a908cc1c05c3b1102862746ba29bafc0 : example/blah.psd : 3.8MB : 130 days old
6e73ca29c379b71b4ff8c6b6a5df9c7f0f1f5627 : another/big.file : 1.12MB : 214 days old

..然后能够遍历每个结果，检查它是否不再需要然后将其删除(可能使用 filter-branch)

最佳答案

这是对 the git-find-blob script I posted previously 的改编:

#!/usr/bin/perl
use 5.008;
use strict;
use Memoize;

sub usage { die "usage: git-large-blob <size[b|k|m]> [<git-log arguments ...>]\n" }

@ARGV or usage();
my ( $max_size, $unit ) = ( shift =~ /^(\d+)([bkm]?)\z/ ) ? ( $1, $2 ) : usage();

my $exp = 10 * ( $unit eq 'b' ? 0 : $unit eq 'k' ? 1 : 2 );
my $cutoff = $max_size * 2**$exp; 

sub walk_tree {
    my ( $tree, @path ) = @_;
    my @subtree;
    my @r;

    {
        open my $ls_tree, '-|', git => 'ls-tree' => -l => $tree
            or die "Couldn't open pipe to git-ls-tree: $!\n";

        while ( <$ls_tree> ) {
            my ( $type, $sha1, $size, $name ) = /\A[0-7]{6} (\S+) (\S+) +(\S+)\t(.*)/;
            if ( $type eq 'tree' ) {
                push @subtree, [ $sha1, $name ];
            }
            elsif ( $type eq 'blob' and $size >= $cutoff ) {
                push @r, [ $size, @path, $name ];
            }
        }
    }

    push @r, walk_tree( $_->[0], @path, $_->[1] )
        for @subtree;

    return @r;
}

memoize 'walk_tree';

open my $log, '-|', git => log => @ARGV, '--pretty=format:%T %h %cr'
    or die "Couldn't open pipe to git-log: $!\n";

my %seen;
while ( <$log> ) {
    chomp;
    my ( $tree, $commit, $age ) = split " ", $_, 3;
    my $is_header_printed;
    for ( walk_tree( $tree ) ) {
        my ( $size, @path ) = @$_;
        my $path = join '/', @path;
        next if $seen{ $path }++;
        print "$commit $age\n" if not $is_header_printed++;
        print "\t$size\t$path\n";
    }
}

关于git - 在 git repo 中查找超过 x 兆字节的文件，这些文件在 HEAD 中不存在，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/298314/

25

4

0

文章推荐： git - 删除 Git 存储库 Gitolite？

文章推荐： PHP - 重载属性的间接修改

如果子 repo 属于两个主要 repo ，Mercurial 更新不适用于子 repo ？
采用这个 repo 结构: Server (main repo) ProjectA (subrepo) SharedLibrary (subrepo) Client (main rep
grails - grails repo 的最新网址是什么？ (repo.grails.org/grails/repo 与 repo.grails.org/grails/plugins)
我们正在尝试使用 https://grails.org/plugin/jms用于 jms 集成。但我们无法解决它。环顾四周，我能够验证它是否存在于这个 repo 中: http://repo.gra
repo 内的 Mercurial repo
是否可以在现有的 Mercurial 存储库中创建 Mercurial 存储库？这个想法是将存储库的子目录作为不同的存储库进行处理，你是如何做到的？我不是在谈论子存储库(至少，如果我理解子存储库的
repo 内部的 Git repo
这个问题在这里已经有了答案: How do I work with a git repository within another repository? (5 个答案) 关闭 6 年前。我想克隆
git - 提取不相关的 repo 后如何修复我的 repo ？
我在尝试让 ssh 在 GIT 中工作时犯了一个灾难性的错误。我实际上将错误的 url 从服务器复制到该存储库的配置文件中。因此，我放入配置文件的 url 是一个不同但名称相似的 repo。现在，
git - 将存档的 repo 移动到 repo ？
我们在 github 上有数百个不再使用的存档库。默认情况下，Github 上没有 stash 存档仓库的选项。目前，通过 active repos 是不友好的，尤其是在 github 上大量滚动。
repo - repo 文件中的 gpgcheck 是什么意思？
在 .repo文件: [centos] name=centos7.2 baseurl=http://10.0.0.1/centos7.2/7.2/xxx/x86_64/ enabled=
repo - 如何使用 Android repo 工具检查现有功能分支
一位同事使用 repo start 创建了功能分支 thebranch。现在我想检查这个分支并对其进行处理。我试试这个: repo init -u git@gitserver:manifest.git
git - 在推送时将大型 repo 分成多个较小的 repo
我在github上托管了一个项目，结构如下 github.com/example/allpackages . ├── .git └── packages ├── example-1 ├
git - 在推送时将大型 repo 分成多个较小的 repo
我在github上托管了一个项目，结构如下 github.com/example/allpackages . ├── .git └── packages ├── example-1 ├
mercurial - 使用视觉差异比较当前 repo 与主 repo ？
我们可以使用 hg in -vp 将我们的本地仓库与主仓库进行比较。如何在视觉上做到这一点？我们使用 ExamDiff extension作为我们的 Mercurial 视觉差异工具。我们认为有一种
android - 如何将 repo 镜像同步到新的上游 repo
我有一个 repo 镜像服务器 (myrepo)，最初创建它是为了镜像和与远程同步(repoA)。也就是说，我使用了类似下面的东西来创建它。 cd myrepo repo init -u git://
Git 将一个包含所有子模块的 repo 镜像到另一个 repo
我镜像了https://github.com/boostorg/boost.git使用命令到我自己的存储库: git clone --recursive https://github.com/boos
git - 如何区分我的 repo 和非来源的远程 repo ？
来自 Viewing Unpushed Git Commits我知道如何区分我自己的 repo 和本地提交: git diff origin/master..HEAD 但是，我怎样才能使用 path/
repo 的 Github repo 名称和本地文件夹名称
我已将我的应用程序源 (git repo) 存储在文件夹中: MyProject/front_app 但在 GitHub 上，我希望将存储库命名为 front_app 而不是 my_project_f
git:将一个 repo 中的提交引入的更改应用到另一个 repo
我有一个 repo1和 repo2在本地机器上。它们非常相似，但后者是某种其他分支(不再维护 repo1)。 /path/to/repo1 $ git log HEAD~5..HEAD~4 Add:
Android 源代码、Git/Repo 和错误 : '.../.repo/repo/.git/clone.bundle' does not look like a v2 bundle file
我在 Mac OS X (10.7.3)、x64 Intel 上更新我的 Android 源代码树时遇到问题。代码是根据 Downloading the Source Tree 安装的, 并且 SE
SVN 将一个 Repo 的分支合并到另一个 Repo 的主干中
我有两个位于不同服务器上的存储库，分别称为 repo-1 和 repo-2。开始两个“树干”是平等的: repo-1/trunk == repo-2/trunk 与此同时，正在向 repo-1/tr
Mercurial repo : ignore all folders which contain their own repo?
我大约在 6 个月前加入，当我到达时，我的团队没有使用任何形式的版本控制。我已经说服 mgmt 在新项目中使用 Mercurial，所以我们在我们的网络服务器上有以下结构: -MainFolder (
svn:将 repo 迁移到 repo？帮助!
我正在尝试从包含通常结构(分支、标签和主干)的 repoA 迁移到仅在主干中具有子文件夹的现有 RepoB，该 RepoB 在分支、标签和主干中具有项目和代码。我有一个通过代码创建的转储文件: sv

首页

博学

6Ren·AI

商城

git - 在 git repo 中查找超过 x 兆字节的文件，这些文件在 HEAD 中不存在