- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我正在尝试根据 IRLBot paper 在 Java 中实现 DRUM(具有更新管理的磁盘存储库) (相关页面从 4 开始)但作为快速总结,它本质上只是一种针对持久存储库批量更新(键,值)对的有效方法。在链接的论文中,它被用作爬虫 URLSeen
测试、RobotsTxt
检查和 DNS 缓存背后的 Backbone 。
在 c++ 中完成了一个有用的实现 here ,它以一种更易于理解的方式展示了架构。为了便于引用,这是 c++ 实现的架构图:
我很难理解的部分是将(键,值)桶和辅助桶分开的原因。带有 c++ 实现的文章说明如下:
During merge a key/value bucket is read into a separate buffer and sorted. Its content is synchronized with that of the persistent repository. Checks and updates happen at this moment. Afterwards, the buffer is re-sorted to its original order so that key/value pairs match again the corresponding auxiliary bucket. A dispatching mechanism then forwards the key, value and auxiliary for further processing along with the operation result. This process repeats for all buckets sequentially.
因此,如果(键,值)桶的顺序需要恢复到辅助桶的顺序,以便将(键,值)对与辅助信息重新链接起来,为什么不只保留(键, value, aux) 值一起放在单个桶中?将它们分开的原因是什么?将它们放在一起会更有效吗(因为您不再需要恢复存储桶的原始未排序顺序)?
最佳答案
在合并时,DRUM 会加载相应存储桶的键/值磁盘文件的内容,并根据使用的操作使用后备数据存储检查、更新或检查+更新该文件的每个条目。
因此,辅助磁盘文件是无关紧要的,不将辅助数据加载到内存中只是在排序时节省了一些内存占用空间,DRUM 试图将其最小化以处理超过 60 亿个条目的唯一性。如果是 f.e. RobotsCache 的辅助数据甚至可以是每个条目 100kb。然而,这只是我自己的一篇论文,如果你真的想知道为什么他们将这两个缓冲区和磁盘文件分开,你应该问问 Dmitri Loguinov。
我还创建了一个基于 Java 的 DRUM implementation (也是基于 Java 的 IRLbot implementation ),但两者可能都需要更多的爱。还有一个名为 DRUMS 的基于 Java 的 Github 项目。它使用用于存储基因组代码的选择功能扩展了 DRUM。
关于c++ - IRLBot Paper DRUM 实现 - 为什么要将键、值对和辅助桶分开?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27667138/
我正在尝试 specFlow 辅助,但不确定如何从表中创建类属性。 想象一下我有这门课: public class Tracking { public string Category { ge
我如何使用带 IOS 应用程序的辅助 GPS 来计算给定区域(例如建筑物)内部(或外部)某人的位置? 是否有可能在几英尺内就足够准确? 这样做正确吗? 是否可以在计算中使用多个 wifi 连接? 最佳
我在 wiki 和其他一些文本中看到,他们说冒泡排序、插入排序、选择排序等的空间复杂度是 O(1) 辅助。它们是否指的是程序中使用的变量所需的常量存储单元。 最佳答案 是的,他们指的是大多数排序都是就
默认情况下,页面上有 3 个点击事件(蓝色 X、蓝色 +、灰色 X)。每个人都会打开一个模式框。 每个模式框都有一个按钮。其中两个模态框,一个用于蓝色 X,一个用于蓝色 +,内部都有功能按钮。当我单击
我正在寻找 Kotlin 的 gigasecond 练习的解决方案:http://exercism.io/exercises/kotlin/gigasecond/readme 。我可以理解它如何需要两
我基本上刚刚开始使用 PyGame 进行开发,但我在整个 Sprite 概念方面遇到了麻烦。我一直在到处寻找有关如何使用它的指南,但似乎找不到任何指南。我想知道这一切是如何运作的基本概念。这是我一直在
我有一些无法运行的 JavaScript 代码。我尝试过移动一些东西,并更改一些关键字,但到目前为止没有任何效果。我会让你们尝试一下。 这是 JavaScript 文件: var GAME =
我有这个注册网页是我在帮助下创建的,感谢这里的人。在尝试使其响应之前,我只是做了一些调整。如何在复选框及其文本和底部的 div 之间创建空间而没有间隙。有什么建议吗? https://jsfiddle
我正在尝试检查是否启用了 WiFi 辅助。当我连接到我的接入点以获取一些数据时,我遇到了问题,当我的连接不佳时,我的蜂窝数据被使用并且它干扰了我的接入点。有什么方法可以检查是否启用了此选项? 最佳答案
为了安全起见,我希望使用异地复制/辅助 Blob 存储容器作为 AzureML 数据存储的数据源。所以我执行以下操作: 新数据存储 输入名称 + Azure Blob 存储 + 手动输入 对于 URL
我的讲师现在有一个我以前从未见过的奇怪习惯,我想知道这是 Haskell 标准还是他的编程风格的怪癖。 基本上,他经常会做这样的事情: functionEx :: String -> Int func
我想从可移动SD卡中删除文件,我尝试了很多方法但没有效果。 尝试过: file.delete(); 和 File file = new File(selectedFilePath); boolean
我正在开发一款 Android 应用,用户必须能够在其中进行身份验证,然后调用 YouTube 数据 API。 我可以毫无问题地使用主帐户对用户进行身份验证,使用 Google 登录对我和用户来说一切
命令: sudo mv /temp/hello.txt /path/to/destination/ 然后我通过 key 存储添加了密码。 我确信写在 sudo.password 中的密码是正确的。
我需要编写一个 java 代码来获取给定集群的辅助名称节点的 IP 地址。给定集群的 Namenode 的 IP 地址。 我能够获取数据节点和名称节点的报告,但无法找到获取辅助名称节点的 IP 地址的
Cay Horstmann 的书《不耐烦的 Scala》中的一个非常简单的练习一直让我感到困惑。是关于primary , auxiliary和 default primary构造函数: ex 5.10
我正在尝试确定 Google Cloud DNS 是否支持通过 NOTIFY 请求进行辅助 DNS (AXFR/IXFR) 传输?我在网上找不到任何东西,Google 也没有明确声明不支持它。 最佳答
我有一个简单的 Kotlin 类: data class ValveSpan(val begin:Duration, val end:Duration, val key:String):Compara
我有一个与最初在 UISplitView 中加载辅助 View 相关的快速问题。目前,我已经在 masterVC.swift 中获得了代码,可以用数组中的第一个对象(如果有)填充detailsVC。这
我正在使用这个命令来获取另一个命令的进程 ID: ps aux | grep 7000.conf | awk '{print $2}' 这将返回两个 PID: 7731 22125 我只想要第一个。第
我是一名优秀的程序员,十分优秀!