algorithm - 这个散列/缓存/版本控制算法的名称是什么？-6ren

algorithm - 这个散列/缓存/版本控制算法的名称是什么？

转载作者：塔克拉玛干更新时间：2023-11-03 03:06:47

24

4

我在几周前的一次演示中看到它，尝试实现它，但失败了，然后忘记了它。但现在我想知道它是如何工作的 =)

这是一种高效传输/存储数据的方式。它适用于任何语言。这就是(我认为)它的作用:

您有 1 个非常大的文件(例如网站的整个 javascript 集合)。

将其分成 48 字节的 block
散列每个 48 字节的 block (例如 MD5)
根据以 0x00 结尾的散列拆分块列表
大块(>= 1 个哈希)现在应该有不同的大小。有些很大，有些很小。
在这些散列之间粘合 block (同样:实际数据的大小非常不同)
散列这些 block
现在你有一个代表大文件当前版本的散列列表

这个想法是，当大文件中的一段代码发生变化时，只有 1 或 2 个哈希值发生变化。使用新文件，您执行上述所有步骤，并且只上传/下载实际更改的部分( block ，可通过其哈希值识别)。根据更改的代码量和代码周围 block 的大小，您永远不需要下载超过 4 个 block 。 (而不是整个文件。)然后通信的另一端将用新 block 替换原始 block (相同的算法，相同的功能)。

听起来很熟悉？他们提到了一个名字，但在上面找不到任何东西。当我尝试构建它时，它就是行不通，因为如果你不恰好更改 48 个字节 [1]，那么更改 [2] 之后的所有哈希值都是不同的...

如果有人知道这个名字:太好了。如果有人也能解释一下:完美!

更新
我找到了它所在的演示文稿。它在新产品“Silo”中被提及(并使用):http://research.microsoft.com/apps/pubs/default.aspx?id=131524相关:http://channel9.msdn.com/Events/MIX/MIX11/RES04 (所以它实际上是微软的研究!整洁!)

从第一个链接:

A Silo-enabled page uses this local storage as an LBFS-style chunkstore.

在第二个链接(视频)中，精彩内容从 6:30 开始。现在我已经看过两次了......我还是不明白=)

关键字是Delta编码和Rabin指纹。

最佳答案

这听起来……有点……像远程差分压缩的工作原理；

In the Low Bandwidth File System (LBFS) [24], an RDC protocol is used to optimize the communication between a sender and a recipient by having both sides subdivide all of their files into chunks and compute strong checksums, or signatures, for each chunk. When a client needs to access or copy a file from the server, the latter first transmits the list of signatures for that file to the client, which determines which of its old chunks may be used to reconstruct the new file, and requests the missing chunks. The key to this protocol is that the files are divided independently on the client and server, by determining chunk boundaries from data features.

PDF http://research.microsoft.com/apps/pubs/default.aspx?id=64692

关于algorithm - 这个散列/缓存/版本控制算法的名称是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5842815/

24

4

0

文章推荐：最大化幂乘积的算法

文章推荐： ubuntu - 在 Ubuntu 中将库添加到 Java CLASSPATH

文章推荐： algorithm - SSN 的校验和

java - JSR 107 - 缓存 (JCache) 与 CPU 缓存
我阅读了有关 JSR 107 缓存 (JCache) 的内容。我很困惑:据我所知，每个 CPU 都管理其缓存内存(无需操作系统的任何帮助)。那么，为什么我们需要 Java 缓存处理程序？ (如果C
jquery - 使用 jQuery 缓存，缓存 jQuery Sortable 对象
好吧，我是 jQuery 的新手。我一直在这里和那里搞乱一点点并习惯它。我终于明白了(它并不像某些人想象的那么难)。因此，鉴于此链接:http://jqueryui.com/sortable/#dis
hibernate 缓存？
我正在使用 Struts 2 和 Hibernate。我有一个简单的表，其中包含一个日期字段，用于存储有关何时发生特定操作的信息。这个日期值显示在我的 jsp 中。我遇到的问题是hibernate更
缓存-修复浏览器本地缓存页面
我有点不确定这里发生了什么，但是我试图解释正在发生的事情，也许一旦我弄清楚我到底在问什么，就可能写一个更好的问题。我刚刚安装了Varnish，对于我的请求时间来说似乎很棒。这是一个Magneto 2
haskell 缓存
解决 Project Euler 的问题后，我在论坛中发现了以下 Haskell 代码: fillRow115 minLength = cache where cache = ((map fill
Python包代理/缓存
我正试图找到一种方法来为我网络上的每台计算机缓存或存储某些 python 包。我看过以下解决方案: pypicache但它不再被积极开发，作者推荐 devpi，请参见此处:https://bitbuc
缓存 WebSocket
我想到的一个问题是可以从一开始就缓存网络套接字吗？在我的拓扑中，我在通过双 ISP 连接连接到互联网的 HAProxy 服务器后面有 2 个 Apache 服务器(带有 Google PageSpee
Linux内存管理(缓存)
我很难说出不同缓存区域 (OS) 之间的区别。我想简要解释一下磁盘\缓冲区\交换\页面缓存。他们住在哪里？它们之间的主要区别是什么？据我了解，页面缓存是主内存的一部分，用于存储从 I/O 设备获取的
LeetCode_数据结构设计_困难_460. LFU 缓存
1.题目请你为最不经常使用（LFU）缓存算法设计并实现数据结构。实现 LFUCache 类： LFUCache(int capacity) - 用数据结构的容量 capacity 初始化对象 in
LeetCode_数据结构设计_中等_146. LRU 缓存
1.题目请你设计并实现一个满足 LRU (最近最少使用) 缓存约束的数据结构。实现 LRUCache 类： ① LRUCache(int capacity) 以正整数作为容量 capacity
Django 缓存 - 删除某些页面的缓存
我想在访问该 View 时关闭某些页面的缓存。它适用于简单查询模型对象的页面。好像什么时候 'django.middleware.cache.FetchFromCacheMiddleware', 启
WiX ExePackage 缓存
documents为 ExePackage element state Cache属性的目的是 Whether to cache the package. The default is "yes".
Docker 缓存，它是如何工作的？
我知道 docker 用图层存储每个图像。如果我在一台开发服务器上有多个用户，并且每个人都在运行相同的 Dockerfile，但将镜像存储为 user1_myapp . user2 将其存储为 use
Codeigniter - 缓存 - 服务器？
在 Codeigniter 中没有出现缓存问题几年后，我发现了一个问题。我在其他地方看到过该问题，但没有适合我的解决方案。例如，如果我在 View 中更改一些纯 html 文本并上传新文件并按 F5
caching - Janusgraph 缓存
我在 Janusgraph 文档中阅读了有关 Janusgraph Cache 的内容。关于事务缓存，我几乎没有怀疑。我在我的应用程序中使用嵌入式 janusgrah 服务器。如果我只对例如进行读取
javascript - 有没有办法从终端重新启动无效/缓存？
我想知道是否有来自终端的任何命令可以用来匹配 Android Studio 中执行文件>使缓存无效/重新启动的使用。谢谢! 最佳答案 According to a JetBrains employe
python - 带有默认可选参数的内存/缓存
我想制作一个 python 装饰器来内存函数。例如，如果 @memoization_decorator def add(a, b, negative=False): print "Com
jquery - 缓存 $(this) 是否会带来性能提升？
我经常在 jQuery 事件处理程序中使用 $(this) 并且从不缓存它。如果我愿意的话 var $this = $(this); 并且将使用变量而不是构造函数，我的代码会获得任何显着的额外性能吗？
使用模式匹配禁止 Varnish 缓存
是的，我要说实话，我不知道varnish vcl，我可以解决一些基本问题，但是我不太清楚，这就是为什么我遇到问题了。我正在尝试通过http请求设置缓存禁止，但是该请求不能通过DNS而是通过 Varn
Varnish 缓存-无法处理4000个并发用户
在 WP 站点上加载约 4000 个并发用户时遇到此问题。这是我的配置: F5 负载均衡器 ---> Varnish 4，8 核，32 Gb RAM ---> 9 个后端，4 个核，每个 16 RA

首页

博学

6Ren·AI

商城

algorithm - 这个散列/缓存/版本控制算法的名称是什么？