即使两个表都很大，Oracle 总是使用 HASH JOIN 吗？-6ren

即使两个表都很大，Oracle 总是使用 HASH JOIN 吗？

转载作者：行者123 更新时间：2023-12-04 02:48:45

25

4

我的理解是，只有当两个表中的一个小到足以作为哈希表放入内存时，HASH JOIN 才有意义。

但是当我向 oracle 查询时，两个表都有几亿行，oracle 仍然想出了一个散列连接解释计划。即使我用 OPT_ESTIMATE(rows = ....) 提示欺骗了它，它也总是决定使用 HASH JOIN 而不是合并排序连接。

所以我想知道在两个表都非常大的情况下如何进行 HASH JOIN？

谢谢
杨

最佳答案

当一切都可以放入内存时，哈希连接显然效果最好。但这并不意味着当表无法放入内存时，它们仍然不是最好的连接方法。我认为唯一的其他现实连接方法是合并排序连接。
如果哈希表不能放入内存，那么为合并排序连接对表进行排序也不能放入内存。合并连接需要对两个表进行排序。根据我的经验，对于加入和分组，散列总是比排序快。
但也有一些异常(exception)。来自 Oracle® Database Performance Tuning Guide, The Query Optimizer :

Hash joins generally perform better than sort merge joins. However,sort merge joins can perform better than hash joins if both of thefollowing conditions exist:
  The row sources are sorted already.
  A sort operation does not have to be done.

测试
与创建数亿行相比，强制 Oracle 仅使用非常少量的内存更容易。
该图表显示散列连接的性能优于合并连接，即使表太大而无法放入(人为限制的)内存中:
Hash vs Merge

备注
对于性能调整，使用字节数通常比使用行数更好。但是表格的“真实”大小很难衡量，这就是图表显示行的原因。大小大约从 0.375 MB 到 14 MB。要仔细检查这些查询是否真的写入磁盘，您可以使用/*+ gather_plan_statistics */运行它们，然后查询 v$sql_plan_statistics_all。
我只测试了哈希连接与合并排序连接。我没有完全测试嵌套循环，因为这种连接方法对于大量数据总是非常慢。作为完整性检查，我确实将它与上次数据大小进行了一次比较，并且在我杀死它之前至少花了几分钟。
我还测试了不同的 _area_sizes、有序和无序数据以及连接列的不同差异性(匹配越多 CPU 限制越多，匹配越少越 IO 限制)，得到了相对相似的结果。
但是，当内存量小得离谱时，结果就不同了。只有 32K sort|hash_area_size，合并排序连接明显更快。但是，如果您的内存力如此之少，您可能需要担心更多重大问题。
还有许多其他变量需要考虑，例如并行性、硬件、布隆过滤器等。人们可能已经写过关于这个主题的书，我什至没有测试过其中的一小部分可能性。但希望这足以证实散列连接最适合大数据的普遍共识。

代码
以下是我使用的脚本:

--Drop objects if they already exist
drop table test_10k_rows purge;
drop table test1 purge;
drop table test2 purge;

--Create a small table to hold rows to be added.
--("connect by" would run out of memory later when _area_sizes are small.)
--VARIABLE: More or less distinct values can change results.  Changing
--"level" to something like "mod(level,100)" will result in more joins, which
--seems to favor hash joins even more.
create table test_10k_rows(a number, b number, c number, d number, e number);
insert /*+ append */ into test_10k_rows
    select level a, 12345 b, 12345 c, 12345 d, 12345 e
    from dual connect by level <= 10000;
commit;

--Restrict memory size to simulate running out of memory.
alter session set workarea_size_policy=manual;

--1 MB for hashing and sorting
--VARIABLE: Changing this may change the results.  Setting it very low,
--such as 32K, will make merge sort joins faster.
alter session set hash_area_size = 1048576;
alter session set sort_area_size = 1048576;

--Tables to be joined
create table test1(a number, b number, c number, d number, e number);
create table test2(a number, b number, c number, d number, e number);

--Type to hold results
create or replace type number_table is table of number;

set serveroutput on;

--
--Compare hash and merge joins for different data sizes.
--
declare
    v_hash_seconds number_table := number_table();
    v_average_hash_seconds number;
    v_merge_seconds number_table := number_table();
    v_average_merge_seconds number;

    v_size_in_mb number;
    v_rows number;
    v_begin_time number;
    v_throwaway number;

    --Increase the size of the table this many times
    c_number_of_steps number := 40;
    --Join the tables this many times
    c_number_of_tests number := 5;

begin
    --Clear existing data
    execute immediate 'truncate table test1';
    execute immediate 'truncate table test2';

    --Print headings.  Use tabs for easy import into spreadsheet.
    dbms_output.put_line('Rows'||chr(9)||'Size in MB'
        ||chr(9)||'Hash'||chr(9)||'Merge');

    --Run the test for many different steps
    for i in 1 .. c_number_of_steps loop
        v_hash_seconds.delete;
        v_merge_seconds.delete;
        --Add about 0.375 MB of data (roughly - depends on lots of factors)
        --The order by will store the data randomly.
        insert /*+ append */ into test1
        select * from test_10k_rows order by dbms_random.value;

        insert /*+ append */ into test2
        select * from test_10k_rows order by dbms_random.value;

        commit;

        --Get the new size
        --(Sizes may not increment uniformly)
        select bytes/1024/1024 into v_size_in_mb
        from user_segments where segment_name = 'TEST1';

        --Get the rows.  (select from both tables so they are equally cached)
        select count(*) into v_rows from test1;
        select count(*) into v_rows from test2; 

        --Perform the joins several times
        for i in 1 .. c_number_of_tests loop
            --Hash join
            v_begin_time := dbms_utility.get_time;
            select /*+ use_hash(test1 test2) */ count(*) into v_throwaway
            from test1 join test2 on test1.a = test2.a;
            v_hash_seconds.extend;
            v_hash_seconds(i) := (dbms_utility.get_time - v_begin_time) / 100;

            --Merge join
            v_begin_time := dbms_utility.get_time;
            select /*+ use_merge(test1 test2) */ count(*) into v_throwaway
            from test1 join test2 on test1.a = test2.a;
            v_merge_seconds.extend;
            v_merge_seconds(i) := (dbms_utility.get_time - v_begin_time) / 100;
        end loop;

        --Get average times.  Throw out first and last result.
        select ( sum(column_value) - max(column_value) - min(column_value) ) 
            / (count(*) - 2)
        into v_average_hash_seconds
        from table(v_hash_seconds);

        select ( sum(column_value) - max(column_value) - min(column_value) ) 
            / (count(*) - 2)
        into v_average_merge_seconds
        from table(v_merge_seconds);

        --Display size and times
        dbms_output.put_line(v_rows||chr(9)||v_size_in_mb||chr(9)
            ||v_average_hash_seconds||chr(9)||v_average_merge_seconds);

    end loop;
end;
/

关于即使两个表都很大，Oracle 总是使用 HASH JOIN 吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8188093/

25

4

0

文章推荐： tensorflow - 如何将暗N的张量的列表转换为暗N + 1的张量

文章推荐： objective-c - NSMutableArray : replaceObjectAtIndex vs assignment

文章推荐： types - 同像类型理论

join - 从一个“join”表到另一个“join”表的SqlAlchemy关系
我正在测试设置SQLAlchemy以映射现有数据库。这个数据库是很久以前自动建立的，它是由我们不再使用的先前的第三方应用程序创建的，因此 undefined 某些预期的事情，例如外键约束。该软件将管理
mysql - INNER JOIN、LEFT JOIN、RIGHT JOIN 和 FULL JOIN 有什么区别？
这个问题在这里已经有了答案: What is the difference between "INNER JOIN" and "OUTER JOIN"? (28 个答案) 关闭 7 年前。 INNE
mysql - INNER JOIN、LEFT JOIN、RIGHT JOIN 和 FULL JOIN 有什么区别？
这个问题在这里已经有了答案: What is the difference between "INNER JOIN" and "OUTER JOIN"? (29 个回答) 关闭7年前. INNER J
join - Hive:LEFT JOIN 与 JOIN 在 ON 子句中使用过滤器给出不同的结果
假设有两个表: table1.c1 table1.c2 1 1 A 2 1 B 3 1 C 4 2
join - Hive:LEFT JOIN 与 JOIN 在 ON 子句中使用过滤器给出不同的结果
假设有两个表: table1.c1 table1.c2 1 1 A 2 1 B 3 1 C 4 2
数据库Left join , Right Join, Inner Join 的相关内容，非常实用
一.先看一些最简单的例子例子 Table A aid adate 1 a1 2&nb
SQL 外链接操作小结 inner join left join right join
数据库操作语句 7. 外连接——交叉查询 7.1 查询 7.2 等值连接 7.3 右外
ruby-on-rails - :joins | change behavior inner join to left join
我有两个表 'users' 和 'lms_users' class LmsUser belongs_to :user end class User has_one :lms_user
ruby-on-rails - 首先使用 `joins()` 进行 INNER JOIN 然后是下一个表的 LEFT JOIN
我试图避免在 Rails 中对我的 joins 进行字符串插值，因为我注意到将查询器链接在一起时灵活性会降低。也就是说，我觉得 joins(:table1) 比 joins('inner join
ruby-on-rails - Rails ActiveRecord :joins with LEFT JOIN instead of INNER JOIN
我有这个代码 User.find(:all, :limit => 10, :joins => :user_points, :select => "users.*, co
join - Doctrine join 绕过延迟加载
我刚刚开始探索 Symfony2，我很惊讶它拥有如此多的强大功能。我开始做博客教程在: http://tutorial.symblog.co.uk/ 但使用的是 2.1 版而不是 2.0 我的问题是我
SQL JOIN 和不同类型的 JOIN
什么是 SQL JOIN什么是不同的类型？最佳答案插图来自 W3schools : 关于SQL JOIN 和不同类型的 JOIN，我们在Stack Overflow上找到一个类似的问题： http
join - Hive Join 返回零记录
我有两个 Hive 表，我正在尝试加入它们。这些表没有被任何字段聚集或分区。尽管表包含公共(public)键字段的记录，但连接查询始终返回 0 条记录。所有数据类型都是“字符串”数据类型。连接查询很
join - solr join - 返回父子文档
我正在使用 Solr 的(4.0.0-beta)连接功能来查询包含具有父/子关系的文档的索引。连接查询效果很好，但我只能在搜索结果中获得父文档。我相信这是预期的行为。但是，是否有可能在搜索结果中同时
join - 三向关联查询/has_many :through/join
我正在使用可用的指南/api/书籍自学 Rails，但我无法理解通过三种方式/嵌套 has_many :through 关联进行的连接。我有用户与组相关联:通过成员(member)资格。我在多对多
SQL JOIN 和不同类型的 JOIN
什么是 SQL JOIN，有哪些不同的类型？最佳答案插图来自 W3schools : 关于SQL JOIN 和不同类型的 JOIN，我们在Stack Overflow上找到一个类似的问题： htt
Mysql join 使所有 join
我正在尝试访问数据库的两个表。在商店里，我保留了一个事件列表，其中包含 Table Event id, name,datei,houri, dateF,Hourf ,capacity, age ,de
mysql - 复杂连接(Joining Joins)
我有 4 个表:booking、address、search_address 和 search_address_log 表:(相关列) 预订:(pickup_address_id, dropoff_a
Joining after join with yq(在与yq连接之后进行连接)
我在YML中有以下结构：。我正试着创造一个这样的结构：。作业名称和脚本用~分隔，作业用；分隔。。我可以使用以下命令使其正常工作。然而，我想知道是否可以用一个yq表达式来完成，而不是通过管道再次使用yq
Joining after join with yq(在与yq连接之后进行连接)
我在YML中有以下结构：。我正试着创造一个这样的结构：。作业名称和脚本用~分隔，作业用；分隔。。我可以使用以下命令使其正常工作。然而，我想知道是否可以用一个yq表达式来完成，而不是通过管道再次使用yq

首页

博学

6Ren·AI

商城

即使两个表都很大，Oracle 总是使用 HASH JOIN 吗？