database - 使用 git 存储库作为数据库后端-6ren

database - 使用 git 存储库作为数据库后端

转载作者：IT王子更新时间：2023-10-29 01:23:05

29

4

我正在做一个处理结构化文档数据库的项目。我有一个类别树(约 1000 个类别，每个级别最多约 50 个类别)，每个类别包含数千个(例如，约 10000 个)结构化文档。每个文档都是一些结构化形式的几千字节的数据(我更喜欢 YAML，但它也可能是 JSON 或 XML)。

该系统的用户执行几种类型的操作:

通过 ID

检索这些文档

通过文档中的一些结构化属性搜索文档

编辑文档(即添加/删除/重命名/merge )；每个编辑操作都应记录为带有注释的事务

查看特定文档的记录更改历史记录(包括查看谁、何时以及为什么更改了文档，获取较早版本 - 如果需要，可能会恢复到此版本)

当然，传统的解决方案是使用某种文档数据库(例如 CouchDB 或 Mongo)来解决这个问题——然而，这个版本控制(历史)的东西让我产生了一个疯狂的想法——为什么我不应该使用 git存储库作为此应用程序的数据库后端？

乍一看，它可以这样解决:

类别 = 目录，文档 = 文件

通过 ID 获取文档 => 更改目录 + 读取工作副本中的文件

使用编辑注释编辑文档 => 由不同用户提交 + 存储提交消息

历史 => 正常的 git 日志和旧事务的检索

搜索 => 这是一个稍微棘手的部分，我想这需要定期将类别导出到关系数据库中，并为我们允许按

搜索的列建立索引。

这个解决方案还有其他常见的缺陷吗？有没有人尝试过实现这样的后端(即对于任何流行的框架 - RoR、node.js、Django、CakePHP)？此解决方案是否对性能或可靠性有任何可能的影响 - 即是否证明 git 会比传统数据库解决方案慢得多，或者是否存在任何可扩展性/可靠性陷阱？我认为推/pull 彼此存储库的此类服务器集群应该相当健壮和可靠。

基本上，告诉我这个解决方案是否有效以及为什么它会或不会？

最佳答案

回答我自己的问题并不是最好的做法，但是，由于我最终放弃了这个想法，我想分享一下在我的案例中起作用的基本原理。我想强调的是，这个基本原理可能并不适用于所有情况，因此由架构师来决定。

一般来说，我的问题遗漏的第一个要点是，我正在处理并行、并发工作的多用户系统，使用我的服务器和瘦客户端(即只是一个 Web 浏览器)。这样，我必须为所有人维护状态。有几种方法可以解决这个问题，但所有这些方法要么在资源上太难，要么太复杂而难以实现(因此，最初将所有困难的实现内容卸载到 git 的初衷有点不切实际):

“直率”方法:1 个用户 = 1 个状态 = 服务器为用户维护的存储库的 1 个完整工作副本。即使我们谈论的是具有 ~100K 用户的相当小的文档数据库(例如，100 秒 MiB)，为所有用户维护完整的存储库克隆会使磁盘使用量飙升(即 100K 用户乘以 100MiB ~ 10 TiB) .更糟糕的是，每次克隆 100 MiB 存储库需要几秒钟的时间，即使以相当有效的方式完成(即不使用 git 和解包重新打包的东西)，这是 Not Acceptable ，IMO。更糟糕的是——我们应用于主树的每个编辑都应该被 pull 到每个用户的存储库中，这就是 (1) 资源占用，(2) 在一般情况下可能会导致 Unresolved 编辑冲突。

基本上，就光盘使用而言，它可能与O(编辑次数×数据×用户数)一样糟糕，并且这种光盘使用自动意味着相当高的CPU使用率。

“仅活跃用户”方法:仅为活跃用户维护工作副本。这样，您通常不会存储每个用户的完整 repo-clone，而是:

当用户登录时，您克隆存储库。每个活跃用户需要几秒钟和大约 100 MiB 的磁盘空间。

当用户继续在站点上工作时，他会使用给定的工作副本。

当用户注销时，他的存储库克隆被复制回主存储库作为一个分支，因此只存储他的“未应用的更改”，如果有的话，这是相当节省空间的。

因此，在这种情况下，磁盘使用量在 O(编辑次数 × 数据 × 活跃用户数)时达到峰值，通常比总用户数少约 100..1000 倍，但它使登录/注销更加复杂和缓慢，因为它涉及在每次登录时克隆每个用户的分支，并在注销或 session 到期时将这些更改 pull 回(这应该以事务方式完成 => 增加了另一层复杂性)。在绝对数字上，在我的情况下，它将 10 TiB 的磁盘使用量降低到 10..100 GiB，这可能是可以接受的，但是，再一次，我们现在谈论的是相当小的 100 MiB 数据库。

“稀疏结帐”方法:使每个活跃用户进行“稀疏结帐”而不是完整的 repo 克隆并没有多大帮助。它可能会节省大约 10 倍的磁盘空间使用量，但代价是在涉及历史的操作上更高的 CPU/磁盘负载，这会破坏目的。

“ worker 池”方法:我们可能会保留一个“ worker ”克隆池，随时可以使用，而不是每次都为活跃的人进行全面的克隆。这样，每次用户登录时，他都会占用一个“ worker ”，将他的分支从主仓库 pull 到那里，当他注销时，他释放了“ worker ”，这使得聪明的 git hard reset 再次成为一个主要的 repo 克隆，准备被另一个登录的用户使用。对磁盘使用没有太大帮助(它仍然很高——每个活跃用户只有完整的克隆)，但至少它使登录/退出更快，作为代价更复杂。

也就是说，请注意，我特意计算了相当小的数据库和用户群的数量:100K 用户，1K 活跃用户，100 MiB 的总数据库 + 编辑历史，10 MiB 的工作副本。如果你看看更突出的众包项目，那里的数字要高得多:

│              │ Users │ Active users │ DB+edits │ DB only │
├──────────────┼───────┼──────────────┼──────────┼─────────┤
│ MusicBrainz  │  1.2M │     1K/week  │   30 GiB │  20 GiB │
│ en.wikipedia │ 21.5M │   133K/month │    3 TiB │  44 GiB │
│ OSM          │  1.7M │    21K/month │  726 GiB │ 480 GiB │

显然，对于如此大量的数据/事件，这种方法是完全 Not Acceptable 。

通常，如果可以将 Web 浏览器用作“厚”客户端，即发出 git 操作并将几乎完整的结帐存储在客户端，而不是在服务器端，它就会起作用。

我还遗漏了其他几点，但与第一点相比，它们并没有那么糟糕:

对于普通的 ORM，例如 ActiveRecord、Hibernate、DataMapper、Tower 等，具有“厚”用户编辑状态的模式是有争议的。

正如我所搜索的那样，从流行的框架中对 git 执行这种方法的现有免费代码库为零。

至少有一种服务能够以某种方式有效地做到这一点——显然是 github — 但是，唉，他们的代码库是闭源的，我强烈怀疑他们内部没有使用普通的 git 服务器/repo 存储技术，即他们基本上实现了替代的“大数据”git。

所以，底线 :这是可能的，但对于大多数当前用例来说，它不会接近最佳解决方案。汇总您自己的文档编辑历史到 SQL 实现或尝试使用任何现有文档数据库可能是更好的选择。

关于database - 使用 git 存储库作为数据库后端，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20151158/

29

4

0

文章推荐： go - 在go中复制一个文件夹

文章推荐： linux - 如何在 Linux 中获得内存修改通知

文章推荐：带有西类牙字符的 Git 字符编码

文章推荐： Golang 映射结构未按预期工作

git - 将 "git git"别名为 "git"？
我时不时地输入“git”，然后想到别的东西，然后输入例如“git checkout master”。当然，这给我留下了 $ git git checkout master git: 'git' is
git - 我怎么能再次 git clone git ://foo. git？
我做到了 git 克隆 git://foo.git 光盘富 ...编辑文件.. 现在我想重新开始。我不在乎我已经做出的任何改变，但我不想再次克隆整个巨型 foo.git，只是丢失我所有的更改。我怎
git - 在 `git format-patch` ,`git am` , `git pull` 之后在 git 历史中双重提交
我在我的电脑上开发代码，我的计算节点很少。为了让我的程序保持同步，我决定使用 git。以前，我以一种单向模式使用它来“下推”从 PC 到计算节点的更改。但是时不时遇到计算节点特有的小bug，现场修复
git - 当您在 Git 存储库中运行 `git add .git` 时会发生什么？
虽然它似乎什么也没做，但它没有给出任何警告或错误消息。有什么想法吗？最佳答案来自 Git 源的注释: /* * Read a directory tree. We currently ignor
git - 运行 "git clone git@remote.git"时如何提供用户名和密码？
我知道如何为这样的 HTTPS 请求提供用户名和密码: git clone https://username:password@remote 但我想知道如何像这样向 Remote 提供用户名和密码:
git - Git GUI、Git Bash、Git CMD 的区别
Git GUI、Git Bash 和 Git CMD 之间有什么区别？我是初学者，为了进行安装，我发现自己通常同时使用 git bash 和 git CMD 最佳答案 Git CMD 就像使用 git
git - git 中的文件索引已在 Git 中删除
有人能告诉我git中文件索引被删除是什么意思吗？这些文件在我的 VS Code 中标记为红色，但我仍然可以修改文件并将更改推送到将反射(reflect)这些更改的远程存储库。我认为这一切都是在我使用命
git - 库不会通过 git 子树添加到 git
我通过 git 子树将 GLFV 库添加到项目中，但出现此警告“看起来您的 git 安装或您的 git-subtree 安装已损坏”。还描述了几个原因，为什么这可能是: 如 git --exec-pa
git - 是否可以将子目录中的 .git 目录添加到 git？
我有需要外部 git 项目的 repo，但我不想使用子模块，因为我想在 github 上存档所有文件，所以我认为我只是将具有 git repo 的整个目录添加到 git 但它不t 添加里面的 .git
git - 是否可以将子目录中的 .git 目录添加到 git？
我有需要外部 git 项目的 repo，但我不想使用子模块，因为我想在 github 上存档所有文件，所以我认为我只是将具有 git repo 的整个目录添加到 git 但它不t 添加里面的 .git
git - git 如何处理一个 git 存储库在另一个存储库中的放置？
我一直在阅读一篇文章，作者在其中指示:在现有存储库中创建一个新存储库，并想知道这是否是他忽略的错误。稍后我会与他核实。这些是我要检查的条件: 将现有目录制作成仓库的条件，并且已经 checkin 主
git - git 是否可以跟踪 ".git"文件夹？
我确实在不同的计算机上处理相同的项目，我想知道是否有一种方法可以跟踪该 .git 文件夹，这样我就不必在所有本地文件中重新配置配置文件。我将所有工作推送到 bitbucket。最佳答案不，没
git - git 存储库 `.git` 文件夹中存储的项目文件在哪里？
这个问题在这里已经有了答案: How does git store files? (3 个答案) 关闭 9 年前。我为我的许多项目创建了一个远程存储库，所以它是我的push 的目的地。与 git
git - git (git-svn) 中文件的不完整历史记录
应该如何在 git 中查看文件内容的完整历史记录？一个文件在 git 中的历史很短，存储库通过 git-svn 同步，但在 svn 中的历史很长。 git 中的历史记录到达文件移动的位置。要查看历史
git - Git 提交修改和 Git 提交新文件之间的区别
我是confused here ... 如何对修改后的文件进行git commit，以及如何对新文件进行git commit？还有，你如何在git中单独提交文件？最佳答案 git 提交过程分为两个
git - git 过滤器分支和 git 子树之间的区别？
正在搜索 throw SO 来寻找答案。遇到这个似乎没有给出任何答案的旧线程。重新触发此线程，希望有人知道! 有人能告诉我 git subtree 和 git filter-branch 的区别吗？为
git - 如何避免在每个 Git 命令的开头键入 "git"？
我想知道是否有一种方法可以避免在每个 Git 命令的开头键入单词 git。如果有一种方法可以在打开命令提示符进入 “Git 模式” 后只使用一次 git 命令就好了。例如: git> 之后，我们键
git - git 跟踪和 git 暂存的概念
当您修改工作目录中的文件时，git 会告诉您使用“git add”暂存。当您向工作目录添加新文件时，git 会告诉您使用“git add”开始跟踪。我对这两个概念有点困惑，因为我假设跟踪文件的更改
git - 为什么 git ://works but git@ does not
为什么 git://有效 $ git clone git://github.com/schacon/grit.git Cloning into 'grit'... ... Checking conne
git - git pull 真的是 git fetch + git merge 吗？
我在以下沙箱中练习 git:https://learngitbranching.js.org/?NODEMO 我在两个单独的 session 中运行了两组命令。第一组命令顺序如下: git clone

首页

博学

6Ren·AI

商城

database - 使用 git 存储库作为数据库后端