c++ - 与使用 Iterator 相比，为什么 Get 和 MultiGet 对于大型键集要慢得多？-6ren

c++ - 与使用 Iterator 相比，为什么 Get 和 MultiGet 对于大型键集要慢得多？

转载作者：行者123 更新时间：2023-11-30 03:17:35

26

4

我目前正在使用 RocksDB (C++)，并对我体验过的一些性能指标感到好奇。

出于测试目的，我的数据库键是文件路径，值是文件名。我的数据库中有大约 2M 个条目。我在 MacBook Pro 2016 (SSD) 上本地运行 RocksDB。

我的用例以读取为主。全键扫描非常常见，包括“大量”键的键扫描也是如此。 (50%+)

我对以下观察感到好奇:

<强>1。在执行全键扫描时，Iterator 比调用 Get 快得多。

当我想查看数据库中的所有键时，使用 Iterator 而不是调用 Get 时我发现性能提高了 4-8 倍每个键。 MultiGet 的使用没有区别。

在调用 Get 大约 2M 次的情况下，键已预先提取到 vector 中并按字典顺序排序。为什么反复调用 Get 比使用 Iterator 慢得多？有没有办法缩小两个 API 之间的性能差距？

<强>2。当获取大约一半的键时，使用 Iterator 和 Get 之间的性能开始变得可以忽略不计。

随着要获取的键的数量减少，多次调用 Get 开始花费与使用 Iterator 一样长的时间，因为迭代器正在付出代价扫描不在所需键集中的键。

对于大多数数据库来说，是否存在某种“神奇”的比例？例如，如果我需要扫描超过 25% 的键，则调用 Get 会更快，但如果是 75% 的键，则调用 Iterator 会更快。但这些数字只是通过粗略测试“编造”出来的。

<强>3。按排序顺序获取键似乎不会提高性能。

如果我将要获取的键预先排序为 Iterator 将返回它们的相同顺序，这似乎不会多次调用 Get任何更快。这是为什么？文档中提到建议在进行批量插入之前对键进行排序。 Get 不会受益于与 Iterator 相同的超前缓存吗？

<强>4。对于大量读取的用例，建议使用哪些设置？

最后，是否有针对可能涉及一次扫描大量键的读取密集型用例推荐的任何特定设置？

macOS 10.14.3、MacBook Pro 2016 SSD、RocksDB 5.18.3、Xcode 10.1

最佳答案

RocksDB 在内部将其数据表示为 log-structured merge tree默认情况下有几个排序层(这可以通过插件/配置更改)。保罗第一个答案的直觉是成立的，除了没有经典索引；数据实际上是在磁盘上排序的，并带有指向下一个文件的指针。查找操作具有平均对数复杂度，但在排序范围内推进迭代器是常数时间。所以对于密集的顺序读取，迭代要快得多。

成本平衡点不仅取决于您读取的键数，还取决于数据库的大小。随着数据库的增长，查找变慢，而 Next() 保持不变。最近的插入可能会被读取得非常快，因为它们可能仍在内存中(内存表)。

对键进行排序实际上只会提高您的缓存命中率。根据您的磁盘，差异可能非常小，例如，如果您有 NVMe SSD，则访问时间的差异不再像 RAM 与 HDD 时那样剧烈。如果您必须通过键顺序 (f(a-c) g(a-c) f(d-g)...) 而不是按顺序对相同或什至不同的键集执行多个操作应该会提高您的性能，因为您会有更多的缓存命中率，并且还受益于 RocksDB block 缓存。

调整指南是一个很好的起点，尤其是 video on database solutions ，但是如果 RocksDB 对你来说太慢了，你也可以考虑使用基于不同存储算法的数据库。 LSM 通常更适合写入繁重的工作负载，虽然 RocksDB 可以让您很好地控制读取与写入与空间放大，但基于 b 树或 ISAM 的解决方案对于范围读取/重复读取可能会快得多。

关于c++ - 与使用 Iterator 相比，为什么 Get 和 MultiGet 对于大型键集要慢得多？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55362103/

26

4

0

文章推荐： java - 构建项目时的 Maven 配置

文章推荐： android - 调用两种类型的 Intent

文章推荐： java - 拦截请求并在内部转发给 Controller ？

c++ - GET GET GET GET GET DO - 过度设计？效率与一致性
我知道使用 GET 和 SET 函数的公共(public)变量的缺点/私有(private)变量的优点，但目前我正在使用 Ogre3D 开发自己的第一个“真实”游戏(C++)..同时，我有时需要 6-
get - GET 请求响应的大小
我正在开发一个 GSM/GPRS 应用程序，它将每 10 秒报告一些值。我必须使用的 SIM 卡每月只有 15MB 可用数据。我使用的是 SIM900 GSM 芯片供您引用。我到达服务器的方式是通过
ruby - gets、gets.chomp 和 gets.chomp! 之间的区别？
这三者有什么区别:gets - 它获取带有 '\n' 的行gets.chomp - 它得到一行，但删除 '\n' 这样对吗？ gets.chomp! 怎么样？最佳答案 gets - 它得到一个末尾带
azure - 组合和匹配 Get-AzureADUser、Get-AzureADSubscribedSku 、 Get-AzureADUserManager 的输出
问题和我现在遇到的问题脚本顺便说一句，评论是挪威语的，如果它们看起来很奇怪哈哈 Connect-AzureAD #variabel $Users = Get-AzureADUser -All:$t
php - GET 中的 GET
我现在面临的问题是获取一个 URL，如下所示: www.example.com/example.php?url=www.google.com 现在的问题是，如果我的网址中有一个 get，如下所示: w
get - # 字符似乎会导致 get 请求出现问题
我有一个 queryString 传递给 servlet 的 doGet() 方法，如下所示: count=9&preId0=-99&objId0=-99&preId1=-99&objId1=-99&
python - 为什么 request.GET.get ('tag' , '' ) 在 Django GET 请求中返回 C 而不是 C++？
这是我在 Django 模板中的代码: {% for tag in tags %} {{ tag }} {% endfor %} 在view.py中: def tag_find(
node.js - `app.get("/", func1, func2);` 与 `app.get("/", func1); app.get("/", func2);` 相同吗？
我正在尝试在express.js中为我的网络应用程序创建一个路由系统，我需要知道是否需要使用app.get/post/put/delete.apply以编程方式设置多个功能对于一条路线。也是如此 a
django - request.GET.get 在做什么？
我正在通过示例查看 A.Mele Django，第 1 章 def post_list(request, category=None): object_list = Post.publishe
powershell - get-website/get-webapplication关联目录
如果我想找到与IIS站点或应用程序关联的目录，我该怎么做？我似乎无法从Get-Website和Get-WebApplication的对象的任何属性中找到任何允许我这样做的东西。最佳答案只需查看一
krl - http :get adding "&" before getting
不知道发生了什么。当我执行以下代码时......它运行良好......但它产生了错误。如果我将以下内容粘贴到我的浏览器地址栏中并点击它，我会得到一个 URL。如果我通过 KRL http:get 输入
curl -GET 和 -X GET
Curl 提供了一系列不同的带有 X 前缀的 http 方法调用，但也提供了不带 X 的相同方法。我两种都试过了，但我似乎无法弄清楚其中的区别。有人可以快速向我解释这两种操作有何不同吗？最佳答案默
python - request.GET.get 是什么意思？
request.GET.get 是什么意思？我在 Django 中看到类似的东西 page = request.GET.get('page', 1) 我认为它与类似的东西有关 « 它们是如
get - 带有正文的 Angular2 http GET？
我正在从我的 Angular2 站点查询一些 Elasticsearch 服务器。为了帮助提高安全性，我们希望锁定对 GET 请求的访问权限。 Elasticsearch 支持带主体的 GET，但我在
naming - 建议如何命名一个 "get/create & get"函数
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 4年前关闭。 Improve t
hbase - HTable.get(List) 结果顺序
调用 HTable.get(List) 返回的 Result 数组的顺序是什么？ ? 我的意思是，假设与输入列表的顺序相同是否正确？最佳答案结果数组中的顺序将与输入列表的顺序相同。与批处理方法一样
get - AngularJS - 如何发送多维 $http.get() 数据
所以我有一个看起来像这样的 JSON 数组: var myData = { foo : { biz : 'baz', fig : 'tree' } }
javascript - Http Get 请求中止先前的 Get 请求
我正在学习 Ajax、javascript 和 html，并且有一个应用程序可以触发“get”请求，然后再触发另一个“get”请求。这些请求是用户按下按钮的结果。在我的 servlet 中，我使用 T
javascript - 多个 GET 请求与一个返回多个对象的 GET 请求
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 6 年前。 Improv
powershell - "Get-ADGroupMember | Get-ADUser"对不同域中的用户失败
运行以下 cmdlet 适用于组成员(Amer 域中的组)中的所有用户，无论列出的用户位于哪个域: Get-ADGroupMember -Server amer 但是，当尝试通过管道传输到 Get-

首页

博学

6Ren·AI

商城

c++ - 与使用 Iterator 相比，为什么 Get 和 MultiGet 对于大型键集要慢得多？