gpt4 book ai didi

Rethinkdb 在复合索引上使用多值 eqJoin 的性能

转载 作者:行者123 更新时间:2023-12-03 07:04:19 25 4
gpt4 key购买 nike

更新:再看看这个,我想我只需要对数据进行更多的非规范化,然后简单地将相关位置信息(城市/州/等)添加到引用表的每一行,而不是做一大组邮政编码的联接。我走在正确的道路上吗?

原始问题:

我有两个表,一个包含邮政编码信息,另一个包含约 400 万行的引用表,每个表都有一个邮政编码和一些其他信息。给定一个特定的邮政编码,我想获取同一州和/或城市的所有邮政编码(仅在下面的示例中说明),然后从引用表中提取与这些邮政编码和其他一些类别数据匹配的所有行,它来自系统的其他一些部分。

我正在使用下面的这个查询,它可以工作,但运行需要大约 10 秒。

r.table('all_geocodes').getAll('77019',
{index:'postal_code'}).pluck('state_name')
.eqJoin(r.row('state_name'), r.table('all_geocodes'),
{index: 'state_name'}).zip().pluck('location_id').distinct()

.eqJoin(function(v) {
return [v('location_id'), '207P00000X', 1];
},
r.table('fact_referrals_aggregates'),
{index: 'location_and_taxonomy_and_entity_type_code'})
.zip().count()

一些相关数字:

  • 查询的第一部分返回大约 2700 个邮政编码。
  • 引用上的
  • getAll(['207P00000X', 1]) 返回大约 100000 行,并且对此与邮政编码进行内部联接比我慢得多。
  • 它还有约 100000 行仅与邮政编码匹配的行。
  • 大约有 8000 行与邮政编码和 ['207P00000X', 1] 参数相匹配。

正如您从下面的查询分析器输出中看到的,ReDB 正在插入一个 concatmap,它一直占用着所有时间。这是我第一天使用 RethinkDB,所以我确信我缺少一些东西,但不知道它是什么。关于如何提高此查询的性能有什么建议吗?是否可以通过不同的结构来避免 concatMap?

    {
"description": "Evaluating count.",
"duration(ms)": 9428.348954,
"sub_tasks": [
{
"description": "Evaluating zip.",
"duration(ms)": 9394.828064,
"sub_tasks": [
{
"description": "Evaluating eq_join.",
"duration(ms)": 9198.099333,
"sub_tasks": [
{
"description": "Evaluating concatmap.",
"duration(ms)": 9198.095406,
"sub_tasks": [
{
"description": "Evaluating distinct.", // Distinct ZIP codes
"duration(ms)": 114.880663,
"sub_tasks": [
{ *snipped for brevity* },
{
"description": "Evaluating elements in distinct.",
"mean_duration(ms)": 0.001039,
"n_samples": 2743
}
]
},
{
"description": "Evaluating func.",
"duration(ms)": 0.004119,
"sub_tasks": []
},
{
"description": "Evaluating stream eagerly.",
"mean_duration(ms)": 1.0934,
"n_samples": 8285
}
]
}
]
},
{
"description": "Evaluating stream eagerly.",
"mean_duration(ms)": 0.001005,
"n_samples": 8285
}
]
}
]

最佳答案

非规范化最终成为了这里的出路。我在转介表中添加了州和城市字段,消除了针对 ZIP 表的大量联接,速度大大提高。

关于Rethinkdb 在复合索引上使用多值 eqJoin 的性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29724208/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com