- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我想从git存储库中删除大文件。但是,我想详细说明一下,所以我想查看存储库历史记录中的所有文件大小?
我已经创建了以下bash脚本,但它似乎效率很低,并且可能丢失了历史上某个地方删除的文件:
git log --pretty=tformat:%H | while read hash; do
git show --stat --name-only $hash | grep -P '^(?:(?!commit|Author:|Date:|Merge:| ).)*$' | while read filename; do
if [ ! -z "$filename" ]; then
git show "$hash:$filename" | wc -c | while read filesize; do
if [ $(echo "$filesize > 100000" | bc) -eq 1 ]; then
printf "%-40s %11s %s\n" "$hash" "$filesize" "$filename"
fi
done
fi
done
done
最佳答案
你是最棒的,真的。
git log --pretty=tformat:%H
git rev-list <start-points>
,例如
git rev-list HEAD
或
git rev-list --all
。您可能需要添加
--topo-order --reverse
,原因我们稍后会联系您。
| while read hash; do
git show --stat --name-only $hash
git show --stat
,而不是
git ls-tree
。使用递归
git ls-tree
可以找到给定提交中的每个树和blob及其对应的路径名。
git ls-tree
,否则
-z
将对一些有问题的文件名进行编码(但这会使读取项变得更困难;bash可以做到,而普通sh不能做到)。
| grep -P '^(?:(?!commit|Author:|Date:|Merge:| ).)*$' | while read filename; do
git ls-tree
我们可以将其替换为:
git ls-tree -r $hash | while read mode type objhash path; do
[ $type == blob ] || continue
if [ ! -z "$filename" ]; then
git show "$hash:$filename" | wc -c | while read filesize; do
if [ $(echo "$filesize > 100000" | bc) -eq 1 ]; then
printf "%-40s %11s %s\n" "$hash" "$filesize" "$filename"
fi
while read filesize
循环,也不清楚复杂的测试。在任何情况下,获取blob对象大小的简单方法是使用
git cat-file -s $objhash
,并且很容易测试
[ $blobsize -gt 100000 ]
,例如:
blobsize=$(git cat-file -s $objhash)
if [ $blobsize -gt 100000 ]; then
echo "$hash contains $filename size $blobsize"
fi
git show
而选择
git ls-tree -r
,我们可以在每次提交中看到每个文件的每个副本,而不仅仅是在它出现的第一次提交中看到一次。例如,如果commit
f00f1e
添加了大文件
bigfile
并且它在commit
baafba6
中保持不变,我们将看到这两次。使用
git show --stat
运行
git diff
的变体,将每个提交与其父级进行比较,这样,如果我们以前看到过该文件,就会忽略它。
--topo-order --reverse
。如果我们使用这个,我们会在他们的孩子之前得到所有父母的承诺。然后,我们可以保存每个诊断对象哈希,并禁止重复诊断。这里有一个很好的编程语言,它有关联数组(散列表)会很方便,但是我们可以在纯bash中使用包含以前显示的对象散列的文件或目录来实现这一点:
#! /bin/sh
# get temporary file to hold viewed object hashes
TF=$(mktemp)
trap "rm -f $TF" 0 1 2 3 15
BIG=100000 # files up to (and including?) this size are not-big
git rev-list --all --topo-order --reverse |
while read commithash; do
git ls-tree -r $commithash |
while read mode type objhash path; do
[ $type == blob ] || continue # only look at files
blobsize=$(git cat-file -s $objhash)
[ $blobsize -lt $BIG ] && continue # or -le
# found a big file - have we seen it yet?
grep $objhash $TF >/dev/null && continue
echo "$blobsize byte file added at commit $commithash as $path"
echo $objhash >> $TF # don't print again under any path name
done
done
git mv
ed,或者被删除,然后以相同或另一个名称重新出现),我们也不会重新通知它们。
git show
使用的diff调用方法,我们可以使用它而不是保存临时文件的散列,但仍然可以通过使用适当的管道命令(即
git diff-tree
)避免提交消息的笨拙重映射。使用-topo-order(就像一般规则一样)可能仍然是明智的,尽管它不再是必需的。所以这给出了:
BIG=100000 # just as before
git rev-list --all --topo-order | while read commithash; do
git diff-tree -r --name-only --diff-filter=AMT $commithash |
tail -n +2 | while read path; do
objsize=$(git cat-file -s "$commithash:$path")
[ $objsize -lt $BIG ] && continue
echo "$blobsize byte file added at commit $commithash as $path"
done
done
git diff-tree
需要
-r
递归工作(与
git ls-tree
相同),需要
--name-only
只打印文件名,需要
--diff-filter=AMT
只打印添加、修改或更改的文件名(从符号链接到文件或从符号链接到文件)。令人讨厌的是,
git diff-tree
再次将提交ID打印为第一行。我们可以用
--no-commit-id
来抑制id,但随后我们会得到一个空行,所以我们最好使用
tail -n +2
来跳过第一行。
git cat-file -s
简单地获得对象的大小,并使用
[
/
test
程序直接测试它。
git diff-tree
(类似于
git show
)使用组合diff,仅显示合并结果中不匹配任何父级的文件。这应该没问题,因为如果合并结果中的文件
huge
是4gb,但与两个合并提交中的一个中的文件
huge
是4gb相同,我们将在将其添加到该提交时看到
huge
,而不是在合并本身中看到它。
-m
添加到
git diff-tree
命令中。但是,您需要删除
tail -n +2
并放入
--no-commit-id
,它在
-m
下的行为不同。git中的这种特殊行为有点烦人,尽管使用默认输出格式(类似于
git log --raw
)是有意义的。
$hash
vs
$commithash
。)
关于git - 如何获取整个git历史记录中每个文件的大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41623237/
背景 之前陆续写过一些和 OpenTelemetry 相关的文章: 实战:如何优雅的从 Skywalking 切换到 OpenTelemetry 实战:如何编写一个 OpenTeleme
我很困惑PSReadLine历史在 Powershell 中跨 session 工作。我可以在 PS 版本 5.1 中看到我以前的命令历史记录自动存储在 %userprofile%\AppData\R
我有一个实体,我正在从面板中保存我们的数据库,您可以在其中执行常规操作(编辑、添加等)。不是很大,大多数时候大约有 1k 行,而且这个数字可能总是在这个左右。该实体有一些与其他实体相关的字段(例如:位
有时有人想直接在环境中更改 crx 中的内容。 这通常是环境不工作状态的原因。而且往往很难找到问题的原因。而且我认为如果 cq5 crx 有审计日志会很有帮助。像这样。 12.12.12 21:03
这个问题与可以在其他问题之一中找到的模式有关here.基本上在数据库中,我存储用户,位置,传感器等。所有这些内容都可以由用户在系统中编辑,并且可以删除。 但是-在编辑或删除项目时,我需要存储旧数据;我
我需要随时跟踪许多项目及其状态。 例子 ItemId Location DateTime State 1 Mall A 2010-02-03 07:00 on
我有这个方法来添加 fragment : public void addFragmentOnTop(Fragment fragment) { getSupportFragmentManager()
我想了解 HTML5 历史对象。这是我开始的一个简单示例。 function addDialog(){ document.getElementById('d').style.
我如何使用 HTML5 history api。我确实通过了https://developer.mozilla.org/en/DOM/Manipulating_the_browser_history
我正在尝试找出在关系数据库中保存表的历史记录/修订的最佳方法。 我进行了一些研究和阅读,但不确定跟踪更改的最佳方式是什么。对于我的主表,我很确定我已经确定了一个修订表,以保持跟踪(见图),但我不确定是
这个问题在这里已经有了答案: Git: discover which commits ever touched a range of lines (6 个答案) 关闭 9 年前。 我一直在研究 gi
我有一个相当复杂的程序(带有 SWIG'ed C++ 代码的 Python,长期运行的服务器),它显示了不断增长的常驻内存使用量。我一直在使用常用的泄漏工具(valgrind、Pythons gc 模
我的 Git 存储库中有一行包含单词“Foo”的数百次提交。 是否有任何方法可以在上次的位置找到它的修订号? 最佳答案 这可以通过 -S 的镐 ( gitlog ) 选项来解决。 git log -
我不小心删除了一个文件(我不是他的创建者)并提交并将其推送到远程。现在我想让 git 取消删除此更改,但是当我使用 git revert #mistaken commit 时,它可以工作,但指责信息指
我使用 spyder 历史 Pane 查看我过去尝试过的命令,但最近我注意到它不会在我键入命令时更新。屏幕截图 1 显示了控制台和历史记录 Pane ,因为您可以看到历史记录中没有显示任何控制台条目。
我的应用程序使用 Camunda 7.7 运行。到目前为止,所有数据都保存在 Camunda 表 (ACT_XXX) 中——它们变得很大。所以现在我想清理表格并配置 Camunda,以便在 14 天后
我在 SVN 上有一个这样组织的旧项目: /一些/子目录/a/trunk/foo /一些/子目录/b/trunk/foo /一些/子目录/c/trunk/foo 我使用GitHub工具git-impo
我有一个通用的工作功能,为此我将使用 GNU Radio 的历史记录功能。在 block 的构造函数中,我调用了 set_history( m )。我以标准方式转换输入缓冲区: const flo
当我加载 php 页面时,我会附加一些数据。例如 MyPage.php?value=something。正如预期的那样,当我使用后退按钮来回移动时,它总是会加载附加的相同数据。我不想那样。我希望在页面
我们有一个相当大的库,我们需要定期将其导入(然后修补)到我们的代码库中。 SVN Book 似乎推荐了一个“vendor branch”方案,我们保留了“vendor drops”的补丁版本。这会起作
我是一名优秀的程序员,十分优秀!