apache-spark - 如何加入两个 JDBC 表并避免交换？-6ren

apache-spark - 如何加入两个 JDBC 表并避免交换？

转载作者：行者123 更新时间：2023-12-04 04:19:42

25

4

我有类似 ETL 的场景，其中我从多个 JDBC 表和文件中读取数据，并在源之间执行一些聚合和连接。

在一个步骤中，我必须加入两个 JDBC 表。我试过做这样的事情:

val df1 = spark.read.format("jdbc")
            .option("url", Database.DB_URL)
            .option("user", Database.DB_USER)
            .option("password", Database.DB_PASSWORD)
            .option("dbtable", tableName)
            .option("driver", Database.DB_DRIVER)
            .option("upperBound", data.upperBound)
            .option("lowerBound", data.lowerBound)
            .option("numPartitions", data.numPartitions)
            .option("partitionColumn", data.partitionColumn)
            .load();

val df2 = spark.read.format("jdbc")
            .option("url", Database.DB_URL)
            .option("user", Database.DB_USER)
            .option("password", Database.DB_PASSWORD)
            .option("dbtable", tableName)
            .option("driver", Database.DB_DRIVER)
            .option("upperBound", data2.upperBound)
            .option("lowerBound", data2.lowerBound)
            .option("numPartitions", data2.numPartitions)
            .option("partitionColumn", data2.partitionColumn)
            .load();

df1.join(df2, Seq("partition_key", "id")).show();

请注意 partitionColumn在这两种情况下都是相同的 - “partition_key”。

但是，当我运行这样的查询时，我可以看到不必要的交换(为了可读性而清除了计划):

df1.join(df2, Seq("partition_key", "id")).explain(extended = true);

Project [many many fields]
+- Project [partition_key#10090L, iv_id#10091L, last_update_timestamp#10114,  ... more fields]
    +- SortMergeJoin [partition_key#10090L, id#10091L], [partition_key#10172L, id#10179L], Inner
       :- *Sort [partition_key#10090L ASC NULLS FIRST, iv_id#10091L ASC NULLS FIRST], false, 0
       :  +- Exchange hashpartitioning(partition_key#10090L, iv_id#10091L, 4)
       :     +- *Scan JDBCRelation((select mod(s.id, 23) as partition_key, s.* from tab2 s)) [numPartitions=23] [partition_key#10090L,id#10091L,last_update_timestamp#10114] PushedFilters: [*IsNotNull(PARTITION_KEY)], ReadSchema: struct<partition_key:bigint,id:bigint,last_update_timestamp:timestamp>
       +- *Sort [partition_key#10172L ASC NULLS FIRST, id#10179L ASC NULLS FIRST], false, 0
          +- Exchange hashpartitioning(partition_key#10172L, iv_id#10179L, 4)
             +- *Project [partition_key#10172L, id#10179L ... 75 more fields]
               +- *Scan JDBCRelation((select mod(s.id, 23) as partition_key, s.* from tab1 s)) [numPartitions=23] [fields] PushedFilters: [*IsNotNull(ID), *IsNotNull(PARTITION_KEY)], ReadSchema: struct<partition_key:bigint,id:bigint...

如果我们已经用 numPartitions 对读取进行了分区和其他选项一样，分区数是一样的，为什么还需要另一个Exchange？我们能以某种方式避免这种不必要的洗牌吗？在测试数据上，我看到 Sparks 在此 Exchange 期间发送了超过 150M 的数据，其中生产 Datasets大得多，所以它可能是严重的瓶颈。

最佳答案

使用 Date Source API 的当前实现，没有向上游传递分区信息，因此即使可以在没有 shuffle 的情况下加入数据，Spark 也无法使用此信息。因此，您的假设是:

JdbcRelation uses RangePartitioning on reading

只是不正确。此外，看起来 Spark 使用相同的内部代码来处理基于范围的 JDBC 分区和基于谓词的 JDBC 分区。而前者可以翻译成 SortOrder ，后者通常可能与 Spark SQL 不兼容。

如有疑问，可以检索 Partitioner信息使用 QueryExecution和内部 RDD :

df.queryExecution.toRdd.partitioner

这在 future 可能会改变( SPIP: Data Source API V2 、 SPARK-15689 - Data source API v2 和 Spark Data Frame. PreSorded partitions )。

关于apache-spark - 如何加入两个 JDBC 表并避免交换？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47597970/

25

4

0

文章推荐： cryptography - 基本的高性能数据真实性

文章推荐： angular - 如何删除primeng中轮播的分页

文章推荐： r - 如何在ggplot2 qplot上叠加经过修改的黄土线？

clojure - 交换!改变和相似
我在理解这些函数如何更新底层引用、原子等时遇到问题。文档说:(应用当前身份值参数) (def one (atom 0)) (swap! one inc) ;; => 1 所以我想知道它是如何“扩展到
Clojurescript 交换!和多个关联
尝试让一段代码看起来更好。我在 Clojurescript 中有以下内容: (swap! app-state assoc-in [:lastresults] []) (swap! app-state
java - 交换/重新排序记录
我在数据库中有带有排序顺序号的记录。现在我想创建一个带有向上和向下按钮的用户界面来重新排序它们。制作两个 functionsUp(record) 和 functionDown(record) 的最佳算
jquery div 交换
如何才能让第二次点击时返回？我想我必须以某种方式找到活跃的，但不确定。 $("#test").click(function(){ $("#dsa").fadeOut() $("#asd
c - 反转字符串(交换)
我需要有关这次考试的帮助。我需要反转输入字符串。 int main(void) { char str[30]; int strlen; int i=0; int count=0;int
C 指针 - 交换
我正在用 C 语言玩指针...我尝试编写一个接收指向值的指针、检索指针的指针并交换指向值的指针的交换，而不是接收指向值的指针和交换值的常规交换。这是代码... 互换功能: void swap(voi
JavaScript 切换/交换
如何在 javascript 中切换值？例如，如果 x = apple，则函数应返回 x = orange。如果 x = orange，则函数应返回 x = apple。不确定，这里有什么用，切换或交
C++ 交换 unique_ptr's
刚接触这类东西，可能做错了什么，但是- 我有 3 个成员 std::unique_ptr currentWeapon; std::unique_ptr weaponSlotOne; std::uniq
javascript - 如何对不可变映射内的项目进行排序(交换)？
我想在 Map 内的不可变列表内交换项目，示例: const Map = Immutable.fromJS({ name:'lolo', ids:[3,4,5] }); 我正在尝试使用
c - 交换/交换指针时的未定义行为
我创建了动态数组。如果具有某些值，则填充。打印它。但是交换/交换指针后(任务是在特定条件下交换行) 条件取决于sumL。为了不浪费您的时间，我没有描述细节。问题在于交换指针。 for ( k = 0
c++ - 中途反转/交换
要反转整个 vector，存在 std::reverse。但我想将一个 vector “划分”为两部分(恰好在中间)并将两者反转，将它们放回一起并再次反转整个 vector 。例如我们有: 0 1 2
java - 交换 if 语句
我正在致力于代码最小化和增强。我的问题是:是否可以在不破坏代码逻辑的情况下交换上面的 if 语句？ int c1 = Integer.parseInt(args[0]) ; int c
c++ - 交换 vector 以释放它
我读过释放 vector 内存的最佳方法是: vector().swap(my_vector); 而且我真的不明白发生了什么。交换函数需要 2 个 vector 并交换它们的元素，例如: vector
string - 交换 Haskell 字符串中的多对字符
我正在尝试编写一个 Haskell 函数，该函数接受一串字母对，并在所有字母组成的字符串中交换该对字母，但我想出的方法感觉很尴尬且不惯用。我有 swap a b = map (\x-> if x =
jquery - 交换 jQuery 中的两个元素
我正在尝试使用向上和向下箭头交换两个元素。 JSFiddle 解决方案会很棒! 我的 HTML: Some text down Some ot
cocoa - 自动布局 View 交换
当将 subview 与另一个太阳 View 交换时，是否需要重新应用约束？是否需要删除适用于已删除 View 的约束？或者它们应该自动持续存在？最佳答案约束是 View 的“一部分”。当您删除
javascript - 交换 AngularJS 语法导致错误
所以我制作网站已经有一段时间了，但只是真正用于显示和信息的东西。我想尝试一下 AngularJs，所以我遵循了 Codeschool 上的指南。当我根据在线文档意识到我使用的语法不被推荐时，我在该应用
javascript - 交换 unicode 字符
我正在尝试编写一个函数，可以将字符串中的 unicode 字符替换为非 unicode ASCII 字符，问题是上传包含它们的字符串时，unicode 连字符和引号不会被读取。我希望该函数有一个带有
Azure 网站和 VIP 交换
我目前正在使用 Azure 网站来部署我的应用程序。我目前正在使用两个网站，每个网站监听我的 GIT 的不同分支。如图所示here . 现在，为了让它变得完美，我只是缺少一种在这两个实例之间快速切换的
javascript - 交换
标签中的值？
在我的 javascript 中，有两个包含一些值的 div。我想交换这些div中的值。有什么解决办法吗？最佳答案 var temp = $('#div1').html(); $('#div1'

首页

博学

6Ren·AI

商城

apache-spark - 如何加入两个 JDBC 表并避免交换？