sql - Postgresql 中具有 Hash Join 的加速查询-6ren

sql - Postgresql 中具有 Hash Join 的加速查询

转载作者：行者123 更新时间：2023-11-29 12:41:28

25

4

我有以下查询:

SELECT
   Sum(fact_individual_re.quality_hours) AS C0,
   dim_gender.name AS C1,
   dim_date.year AS C2
FROM
   fact_individual_re
   INNER JOIN dim_date ON fact_individual_re.dim_date_id = dim_date.id
   INNER JOIN dim_gender ON fact_individual_re.dim_gender_id = dim_gender.id
GROUP BY dim_date.year,dim_gender.name
ORDER BY dim_date.year ASC,dim_gender.name ASC,Sum(fact_individual_re.quality_hours) ASC

在解释它的计划时，HASH JOIN 花费了最多的时间。有什么办法可以最大限度地减少 HASH JOIN 的时间:

Sort  (cost=190370.50..190370.55 rows=20 width=18) (actual time=4005.152..4005.154 rows=20 loops=1)
   Sort Key: dim_date.year, dim_gender.name, (sum(fact_individual_re.quality_hours))
   Sort Method: quicksort  Memory: 26kB
   ->  Finalize GroupAggregate  (cost=190369.07..190370.07 rows=20 width=18) (actual time=4005.106..4005.135 rows=20 loops=1)
         Group Key: dim_date.year, dim_gender.name
         ->  Sort  (cost=190369.07..190369.27 rows=80 width=18) (actual time=4005.100..4005.103 rows=100 loops=1)
               Sort Key: dim_date.year, dim_gender.name
               Sort Method: quicksort  Memory: 32kB
               ->  Gather  (cost=190358.34..190366.54 rows=80 width=18) (actual time=4004.966..4005.020 rows=100 loops=1)
                     Workers Planned: 4
                     Workers Launched: 4
                     ->  Partial HashAggregate  (cost=189358.34..189358.54 rows=20 width=18) (actual time=3885.254..3885.259 rows=20 loops=5)
                           Group Key: dim_date.year, dim_gender.name
                           ->  Hash Join  (cost=125.17..170608.34 rows=2500000 width=14) (actual time=2.279..2865.808 rows=2000000 loops=5)
                                 Hash Cond: (fact_individual_re.dim_gender_id = dim_gender.id)
                                 ->  Hash Join  (cost=124.13..150138.54 rows=2500000 width=12) (actual time=2.060..2115.234 rows=2000000 loops=5)
                                       Hash Cond: (fact_individual_re.dim_date_id = dim_date.id)
                                       ->  Parallel Seq Scan on fact_individual_re  (cost=0.00..118458.00 rows=2500000 width=12) (actual time=0.204..982.810 rows=2000000 loops=5)
                                       ->  Hash  (cost=78.50..78.50 rows=3650 width=8) (actual time=1.824..1.824 rows=3650 loops=5)
                                             Buckets: 4096  Batches: 1  Memory Usage: 175kB
                                             ->  Seq Scan on dim_date  (cost=0.00..78.50 rows=3650 width=8) (actual time=0.143..1.030 rows=3650 loops=5)
                                 ->  Hash  (cost=1.02..1.02 rows=2 width=10) (actual time=0.193..0.193 rows=2 loops=5)
                                       Buckets: 1024  Batches: 1  Memory Usage: 9kB
                                       ->  Seq Scan on dim_gender  (cost=0.00..1.02 rows=2 width=10) (actual time=0.181..0.182 rows=2 loops=5)
 Planning time: 0.609 ms
 Execution time: 4020.423 ms
(26 rows)

我正在使用 postgresql v10。

最佳答案

我建议在连接之前对行进行部分分组:

select
  sum(quality_hours_sum) AS C0,
  dim_gender.name AS C1,
  dim_date.year AS C2
from 
  (
    select
      sum(quality_hours) as quality_hours_sum,
      dim_date_id,
      dim_gender_id
    from fact_individual_re
    group by dim_date_id, dim_gender_id
  ) as fact_individual_re_sum
  join dim_date on dim_date_id = dim_date.id
  join dim_gender on dim_gender_id = dim_gender.id
group by dim_date.year, dim_gender.name
order by dim_date.year, dim_gender.name, 0;

这样，您将仅加入 1460 行 (count(distinct dim_date_id)*count(distint dim_gender_id))，而不是全部 2M 行。尽管它仍然需要读取和分组所有 2M 行 - 为了避免这种情况，您需要使用触发器维护汇总表之类的东西。

关于sql - Postgresql 中具有 Hash Join 的加速查询，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48385883/

25

4

0

文章推荐： python - 如何在模板中显示本地时间

文章推荐： ios - Xcode 5.1.1 启动时崩溃

文章推荐： ios - 在 MKMapView 上调整 MKCircle 的大小闪烁

文章推荐： ios - 如何从 AWS S3 下载文件并在 iOS 中访问它

hash - 我如何使用 std::hash::hash？
我正在尝试使用 Rust 的 std::hash 函数: use std::hash::{hash, Hash, SipHasher}; #[test] fn hash_test() { pr
ruby : Generate a Hash of Hashes from an Array of Hashes
我有以下内容 friends = [{ name: "Jack", attr1:"def", attr2:"def" }, { name: "Jill", attr1:"def", attr2:"de
ruby - 参数错误 : comparison of Hash with Hash failed - Sorting an array of hashes by hash name
我有以下数组: names = [ {"Adriana"=>{:gender=>"female", :nationality=>"danish"}}, {"Adriane"=>{:gender=>"f
Perl hash of hashes of hashes ... 是否有 'easy' 方法来获取列表末尾的元素？
我有一个哈希的 Perl 哈希......大约 11 或 12 个元素深。请原谅我没有重复下面的结构! 一些级别有固定的标签，例如'NAMES' , 'AGES'或类似的，因此访问这些级别很好，因为我
hash - 基于物理身份的替代Hashtbl.hash
我试图派生一个描述结构化值的Graphviz文件。这是出于诊断目的，因此我希望我的图形尽可能接近地反射(reflect)内存中的实际结构。我正在使用下面的方法将值映射到Graphviz顶点，以便当一个
ruby - 在 Ruby 中访问 Hash of Hash of Hash
我正在尝试获取在 xlm 中传递的事件日志条目，将它们转换为散列，然后存储到数据库中。我目前正在使用 XmlSimple gem 将 xml 输入转换为散列。测试样本输入: require 'xm
ruby - `Hash#reject!` 和 `Hash#reject` 与 `Hash#delete_if` 有何不同？
对于 Ruby 中的 Hash，reject! 和 reject 与 delete_if 有何不同？谁能用简单的代码片段解释它们之间的区别？最佳答案由于其他答案指的是 Array#delete_i
Perl Hash of Hashes 和计数
我正在尝试处理我使用 Data::Dumper 输出的 perl 数据结构 $VAR1 = 'GAHD'; $VAR2 = [ { 'COUNTRY' => 'US',
hash - DPDK Hash 无法从辅助进程中查找数据
无法使用来自辅助进程的现有 rte Hash: h = rte_hash_find_existing("some_hash"); if (h) { // this will w
Perl Hash of Hashes，获取最低数字键
我有一个散列的散列，其中第一个键是一个字符串，第二个键是一个整数。我试图在散列的散列中获得最低的第二个键。这是我的哈希。 %HoH = ( flintstones => { 8
perl - 数据库记录到 Hash-of-hashes
如何从一系列数组中生成哈希中的哈希？我需要从这里开始: my @data = /one two three/; my $value = 13: 为此: $hoh = { 'one' => { 'two
perl hash hash 中奇数个元素
我有这个配置文件 dbUser=customer dbPass=passwrd dbSid=customer.shadow passwdFile=/production/etc-user tmpUse
hash - 如何对使用rust 的单元结构执行 `Hash`？
我想实现一种thing，可以唯一标识，除此之外，它不包含其他字段。它有点像 ruby 中的 BasicObject 或 java 中的 Object。我添加了一个 PartialEq 特征。 s
ruby - Hash in Hash 给出错误的值作为返回？
我正在尝试使用以下键存储二维哈希: 维度 1 = 数字但不连续维度 2 = 字符串(如 :id 和 :value) 当元素未初始化时会出现问题。 memory = Hash.new(Hash.new
ruby - : "Hash.new takes a default value for the hash, which is the value of the hash for a nonexistent key"是什么意思
我目前正在学习 Michael Hartl 的 Ruby on Rails 教程不理解在 section 4.4.1 中找到的此语句的含义: Hashes, in contrast, are dif
ruby - 如何修改 Hash 以允许在 Ruby 中通过更短的 'hash[:a][:b]' 访问元素 'hash[:a,:b]'？
我很乐意通过更短的表达式访问多维哈希数组的任何元素 h = {a: {b: 'c'}} # default way p h[:a][:b] # => "c" # a nicer way p h[:a,
hash - 无法加载内核二进制文件 :Invalid SDK hash
我想在编写 flutter channel beta 后运行 flutter web 它回复:Can't load kernel binary:Invalid SDK hash，你知道如何解决这个问题
hash - DynamoDB : How is the hash key used?
我最近正在研究 Amazon 提供的新 NoSQL 服务，更具体地说是 DynamoDB。亚马逊说你应该避免使用不均匀分布的键作为主键，即主键应该越独特越好。我可以认为这是最好的情况下每个项目都有唯
hash - 如何在 Redis Hash 上执行搜索？
我的游戏中有很多哈希值，例如 HMSET('hash1', 'level', 25, 'connected', 2) HMSET('hash2', 'level', 50, 'connected',
hash - "over"中的 "overpass-the-hash"是什么意思？
我必须翻译这句话:'Susspected overpass-the-hash attack (Kerberos)' 我发现了这篇关于立交桥哈希的文章:https://blog.stealthbits.

首页

博学

6Ren·AI

商城

sql - Postgresql 中具有 Hash Join 的加速查询