- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
SO 和其他地方的许多问题和答案强调 Git 无法处理大文件或大 repo 。建议使用一些解决方法,例如 git-fat和 git-annex ,但理想情况下,Git 会本地处理大文件/存储库。
如果此限制已存在多年,是否有理由尚未取消该限制?我假设 Git 中存在一些技术或设计挑战,这使得大文件和大型存储库支持变得极其困难。
很多相关问题,但似乎没有一个能解释为什么这是一个如此大的障碍:
最佳答案
基本上,它归结为权衡。
你的一个问题有一个 Linus 自己的例子:
...CVS, ie it really ends up being pretty much oriented to a "one file at a time" model.
Which is nice in that you can have a million files, and then only check out a few of them - you'll never even see the impact of the other 999,995 files.
Git fundamentally never really looks at less than the whole repo...So git scales really badly if you force it to look at everything as one huge repository...
And yes, then there's the "big file" issues. I really don't know what to do about huge files. We suck at them, I know.
正如您不会找到具有 O(1) 索引访问和插入的数据结构一样,您也不会找到可以出色完成所有工作的内容跟踪器。
Git 故意选择在某些方面做得更好,而损害其他方面。
磁盘使用情况
由于 Git 是 DVCS(分布式 版本控制系统),每个人都有整个存储库的副本(除非您使用相对较新的浅克隆)。
这有一些真的很好的优势,这就是像 Git 这样的 DVCS 变得非常流行的原因。
但是,在带有 SVN 或 CVS 的中央服务器上的 4 TB 存储库是可管理的,而如果您使用 Git,每个人都不会对随身携带它感到兴奋。
Git 具有巧妙的机制,可通过跨文件创建增量链(“差异”)来最小化存储库的大小。 Git 在创建它们时不受路径或提交顺序的限制,而且它们确实工作得很好......有点像压缩整个 repo。
Git 将所有这些小差异放入包文件中。 Delta 链和 packfile 使检索对象花费的时间稍长,但这在最大限度地减少磁盘使用方面非常有效。 (又是那些权衡。)
该机制不适用于二进制文件,因为它们往往会有很大差异,即使在“小”更改之后也是如此。
历史
当您 checkin 文件时,您将永远拥有它。您的孙辈的孙辈每次克隆您的存储库时都会下载您的猫 gif。
Git 基于内容的设计(每个对象 ID 都是其内容的 SHA)使得永久删除这些文件变得困难、具有侵入性并且对历史具有破坏性。相比之下,我可以从工件存储库或 S3 存储桶中删除粗糙的二进制文件,而不会影响我的其余内容。
难度
处理非常大的文件需要很多 仔细的工作,以确保最小化您的操作,并且永远不会将整个文件加载到内存中。在创建具有像 git 这样复杂的功能集的程序时,要可靠地做到这一点是极其困难的。
结论
最终,说“不要将大文件放入 Git”的开发人员有点像那些说“不要将大文件放入数据库”的开发人员。他们不喜欢它,但任何替代方案都有缺点(一种情况下是 Git 集成,另一种情况下是 ACID 合规性和 FK)。实际上,它通常工作正常,特别是如果您有足够的内存。
它不是为此而设计的,所以它不会出类拔萃。
关于git - 为什么 Git 不能处理大文件和大仓库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29393447/
我时不时地输入“git”,然后想到别的东西,然后输入例如“git checkout master”。当然,这给我留下了 $ git git checkout master git: 'git' is
我做到了 git 克隆 git://foo.git 光盘富 ...编辑文件.. 现在我想重新开始。我不在乎我已经做出的任何改变,但我不想再次克隆整个巨型 foo.git,只是丢失我所有的更改。我怎
我在我的电脑上开发代码,我的计算节点很少。 为了让我的程序保持同步,我决定使用 git。以前,我以一种单向模式使用它来“下推”从 PC 到计算节点的更改。但是时不时遇到计算节点特有的小bug,现场修复
虽然它似乎什么也没做,但它没有给出任何警告或错误消息。有什么想法吗? 最佳答案 来自 Git 源的注释: /* * Read a directory tree. We currently ignor
我知道如何为这样的 HTTPS 请求提供用户名和密码: git clone https://username:password@remote 但我想知道如何像这样向 Remote 提供用户名和密码:
Git GUI、Git Bash 和 Git CMD 之间有什么区别?我是初学者,为了进行安装,我发现自己通常同时使用 git bash 和 git CMD 最佳答案 Git CMD 就像使用 git
有人能告诉我git中文件索引被删除是什么意思吗?这些文件在我的 VS Code 中标记为红色,但我仍然可以修改文件并将更改推送到将反射(reflect)这些更改的远程存储库。我认为这一切都是在我使用命
我通过 git 子树将 GLFV 库添加到项目中,但出现此警告“看起来您的 git 安装或您的 git-subtree 安装已损坏”。还描述了几个原因,为什么这可能是: 如 git --exec-pa
我有需要外部 git 项目的 repo,但我不想使用子模块,因为我想在 github 上存档所有文件,所以我认为我只是将具有 git repo 的整个目录添加到 git 但它不t 添加里面的 .git
我有需要外部 git 项目的 repo,但我不想使用子模块,因为我想在 github 上存档所有文件,所以我认为我只是将具有 git repo 的整个目录添加到 git 但它不t 添加里面的 .git
我一直在阅读一篇文章,作者在其中指示:在现有存储库中创建一个新存储库,并想知道这是否是他忽略的错误。稍后我会与他核实。 这些是我要检查的条件: 将现有目录制作成仓库的条件,并且已经 checkin 主
我确实在不同的计算机上处理相同的项目,我想知道是否有一种方法可以跟踪该 .git 文件夹,这样我就不必在所有本地文件中重新配置配置文件。 我将所有工作推送到 bitbucket。 最佳答案 不,没
这个问题在这里已经有了答案: How does git store files? (3 个答案) 关闭 9 年前。 我为我的许多项目创建了一个远程存储库,所以它是我的push 的目的地。与 git
应该如何在 git 中查看文件内容的完整历史记录? 一个文件在 git 中的历史很短,存储库通过 git-svn 同步,但在 svn 中的历史很长。 git 中的历史记录到达文件移动的位置。要查看历史
我是confused here ... 如何对修改后的文件进行git commit,以及如何对新文件进行git commit? 还有,你如何在git中单独提交文件? 最佳答案 git 提交过程分为两个
正在搜索 throw SO 来寻找答案。遇到这个似乎没有给出任何答案的旧线程。重新触发此线程,希望有人知道! 有人能告诉我 git subtree 和 git filter-branch 的区别吗?为
我想知道是否有一种方法可以避免在每个 Git 命令的开头键入单词 git。 如果有一种方法可以在打开命令提示符进入 “Git 模式” 后只使用一次 git 命令就好了。 例如: git> 之后,我们键
当您修改工作目录中的文件时,git 会告诉您使用“git add”暂存。 当您向工作目录添加新文件时,git 会告诉您使用“git add”开始跟踪。 我对这两个概念有点困惑,因为我假设跟踪文件的更改
为什么 git://有效 $ git clone git://github.com/schacon/grit.git Cloning into 'grit'... ... Checking conne
我在以下沙箱中练习 git:https://learngitbranching.js.org/?NODEMO 我在两个单独的 session 中运行了两组命令。第一组命令顺序如下: git clone
我是一名优秀的程序员,十分优秀!