git - 为什么 Git 不能处理大文件和大仓库？-6ren

git - 为什么 Git 不能处理大文件和大仓库？

转载作者：IT王子更新时间：2023-10-29 00:51:39

27

4

SO 和其他地方的许多问题和答案强调 Git 无法处理大文件或大 repo 。建议使用一些解决方法，例如 git-fat和 git-annex ，但理想情况下，Git 会本地处理大文件/存储库。

如果此限制已存在多年，是否有理由尚未取消该限制？我假设 Git 中存在一些技术或设计挑战，这使得大文件和大型存储库支持变得极其困难。

很多相关问题，但似乎没有一个能解释为什么这是一个如此大的障碍:

最佳答案

基本上，它归结为权衡。

你的一个问题有一个 Linus 自己的例子:

...CVS, ie it really ends up being pretty much oriented to a "one file at a time" model.

Which is nice in that you can have a million files, and then only check out a few of them - you'll never even see the impact of the other 999,995 files.

Git fundamentally never really looks at less than the whole repo...So git scales really badly if you force it to look at everything as one huge repository...

And yes, then there's the "big file" issues. I really don't know what to do about huge files. We suck at them, I know.

正如您不会找到具有 O(1) 索引访问和插入的数据结构一样，您也不会找到可以出色完成所有工作的内容跟踪器。

Git 故意选择在某些方面做得更好，而损害其他方面。

磁盘使用情况

由于 Git 是 DVCS(分布式 版本控制系统)，每个人都有整个存储库的副本(除非您使用相对较新的浅克隆)。

这有一些真的很好的优势，这就是像 Git 这样的 DVCS 变得非常流行的原因。

但是，在带有 SVN 或 CVS 的中央服务器上的 4 TB 存储库是可管理的，而如果您使用 Git，每个人都不会对随身携带它感到兴奋。

Git 具有巧妙的机制，可通过跨文件创建增量链(“差异”)来最小化存储库的大小。 Git 在创建它们时不受路径或提交顺序的限制，而且它们确实工作得很好......有点像压缩整个 repo。

Git 将所有这些小差异放入包文件中。 Delta 链和 packfile 使检索对象花费的时间稍长，但这在最大限度地减少磁盘使用方面非常有效。 (又是那些权衡。)

该机制不适用于二进制文件，因为它们往往会有很大差异，即使在“小”更改之后也是如此。

历史

当您 checkin 文件时，您将永远拥有它。您的孙辈的孙辈每次克隆您的存储库时都会下载您的猫 gif。

Git 基于内容的设计(每个对象 ID 都是其内容的 SHA)使得永久删除这些文件变得困难、具有侵入性并且对历史具有破坏性。相比之下，我可以从工件存储库或 S3 存储桶中删除粗糙的二进制文件，而不会影响我的其余内容。

难度

处理非常大的文件需要很多仔细的工作，以确保最小化您的操作，并且永远不会将整个文件加载到内存中。在创建具有像 git 这样复杂的功能集的程序时，要可靠地做到这一点是极其困难的。

结论

最终，说“不要将大文件放入 Git”的开发人员有点像那些说“不要将大文件放入数据库”的开发人员。他们不喜欢它，但任何替代方案都有缺点(一种情况下是 Git 集成，另一种情况下是 ACID 合规性和 FK)。实际上，它通常工作正常，特别是如果您有足够的内存。

它不是为此而设计的，所以它不会出类拔萃。

关于git - 为什么 Git 不能处理大文件和大仓库？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29393447/

27

4

0

文章推荐： linux - 内核模块的 CPU 使用率

文章推荐： c - extern char **environ 和 extern char *environ[] 有什么区别

文章推荐： linux - 为什么 `read -t` 在 RHEL 上的 bash 中没有超时？

文章推荐：没有额外重量的 Git 子模块

javascript - (不能)在javascript中获取元素样式的一部分
我是 javascript 的新手(今天开始弄乱它)。我正在尝试更改名为“bar”的元素(div)的高度。条形图将成为图表的一部分。我可以毫无问题地将按钮连接到更改栏高度的函数。一切正常，除了条形
ios - 不能 "addSubView"
错误 -> “UIVIew”没有名为“addSubView”的成员 override func viewDidLoad() { super.viewDidLoad() // Do an
swift - 不能 CGEventTapCreate
我在命令行工具项目中复制并粘贴了 main.swift 下面链接中的代码。 How do you use CGEventTapCreate in Swift? 它构建没有错误，但是当我运行时， gua
c++ - 不能 dynamic_cast
我在尝试编译我的代码时遇到以下错误。 ERROR! ..\myCode\CPOI.cpp:68:41: error: cannot dynamic_cast 'screenType' (of type
不能 strcat_s 多个字符到字符串指针
我正在尝试将多个字符串连接到一个我已为其分配内存的字符串指针。这是一个例子: char *finalNumString = malloc(sizeof(char)*1024); finalNumStr
不能 dup2 将管道的末端写入标准输出
我在使用 dup2() 和 pipe() 时遇到问题。当我尝试将管道的写入端 dup2 到 STDOUT_FILENO 时，我收到了 EBADF。我用 gdb 在 dup2(pout[1], ST
Git:不能 pull
首先，我应该说我运行的是 Windows 7。因此，今天早上我尝试像往常一样从我的存储库中提取数据，但我做不到。我得到了错误: The authenticity of host 'github.co
python - 不能 "activate"virtualenv
刚开始在虚拟环境中运行Python，乱用Django，无法激活虚拟环境。花了最后 4 个小时尝试在本地终端/VS 代码上激活虚拟环境 (venv)，但没有成功。避免使用“sudo pip inst
r - 数据框可以做什么而 tibble 不能？
Tidyverse 的粉丝经常给出使用小标题而不是数据框的几个优点。它们中的大多数似乎旨在保护用户免于犯错误。例如，与数据框不同，小标题: 不需要 ,drop=FALSE不从数据中删除维度的论据。不
javascript - 不能 Dockerize Elm
我一直在对 Elm 应用程序进行 docker 化时遇到问题。据我所知，我已经创建了一个完整且有效的 Docker 文件……但它不起作用。我会解释的。所以我的脚本在 3 个文件中运行。首先是启动
java - 不能 Mockbean HttpServletResponse
我可以在 Controller 中使用@Autowired，例如 @RestController public class Index { @Autowired HttpServlet
function - 不能 `compose` 和方法和函数
我定义了一个方法和一个函数: def print(str:String) = println val intToString = (n:Int) => n.toString 现在我想创作它们。我的问
javascript - 不能 .map() 一个看似数组的值
当我控制台单独记录变量“pokemons”时，它确实返回一个数组。但是当我尝试映射它时，出现错误: TypeError: pokemons.map is not a function 我的代码: im
python - 不能 `import smtplib`
每当我尝试在 Python 解释器中导入 smtplib 时，都会收到此错误: ImportError: cannot import name fix_eols 我该如何解决这个问题？编辑:这是完整
javascript - 为什么 {{#each}} 可以正常工作而 {{#with}} 不能？
我正在使用 Meteor.js 开发一个项目，但在使用 Handlebar 时遇到了一些问题:我想检索集合的最后一项，并显示字段:其中包含 html 的文本: 这是我的javascript代码: Te
java - onTouchEvent 不能@Override
你好，我想使用 Service 实现 GestureDetector 但是我有这个错误The method onTouchEvent(MotionEvent) of type GestureServi
java - 不能@Autowired接口(interface)
我正在尝试在 Controller bean 中 Autowiring 接口(interface) 在我放置的上下文配置文件中和我的 Controller 类是 @Controller pub
c++ - 不能 #include
我试图在 mainwindow.cpp 中包含 QtSvg，但是当我编译时它说无法打开包含文件:QtSvg。我已经在我的 *.pro 文件中添加了这个(QT += svg)。我可以知道可能是什么问题吗
postgresql - 不能 100% 确定这是否安全
鉴于以下 PostgreSQL 代码，我认为这段代码不容易受到 SQL 注入(inject)攻击: _filter 'day' _start 1 _end 10 _sort 'article_name
MYSQL:不能/如何将子查询用作完全合格的 CTE
我想执行以下操作。这在 MySQL 中是非法的。 PostGRESQL 中关联的 CTE(“with”子句)有效。这里的假设是 MySQL 中的子查询不是完全限定的 CTE。请注意:这个查询显然非常

首页

博学

6Ren·AI

商城

git - 为什么 Git 不能处理大文件和大仓库？