gpt4 book ai didi

java - Spark Cassandra Connector 3.0.0 - 如何启用 DirectJoin - Java

转载 作者:行者123 更新时间:2023-12-04 08:08:08 25 4
gpt4 key购买 nike

我有 cassandra 3.11.9、spark 3.0.1 和 spark-cassandra-connector 3.0.0(依赖项)。我正在尝试使用 SCC 3.0.0 的直接连接,但似乎当我在下面的数据集上使用连接时,我得到了 spark 的广播哈希连接。

Dataset<Row> metlistinitial = sp.read().format("org.apache.spark.sql.cassandra")
.options(new HashMap<String, String>() {
{
put("keyspace", "mdb");
put("table", "experiment");
}
})
.load().select(col("experimentid"), col("description"))
.join(dfexplist,"experimentid")
.filter(col("description").notEqual("Unidentified"));
metlistinitial.explain();

== Physical Plan ==
*(1) Project [experimentid#6, description#7]
+- *(1) BroadcastHashJoin [experimentid#6], [experimentid#4], Inner, BuildRight
:- *(1) Project [experimentid#6, description#7]
: +- *(1) Filter NOT (description#7 = Unidentified)
: +- BatchScan[experimentid#6, description#7] Cassandra Scan: mdb.experiment
- Cassandra Filters: []
- Requested Columns: [experimentid,description]
+- BroadcastExchange HashedRelationBroadcastMode(List(input[0, string, true])), [id=#19]
+- LocalTableScan [experimentid#4]
我应该启用与 cassandra 表的直接连接吗?现在进行连接大约需要 8 分钟,我想看看直接连接是否会更快。

最佳答案

刚找到!看来我只需要通过添加来激活连接器

.config("spark.sql.extensions","com.datastax.spark.connector.CassandraSparkExtensions")
在 Spark 配置中。惊人的表现。现在只需8秒!

关于java - Spark Cassandra Connector 3.0.0 - 如何启用 DirectJoin - Java,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66117180/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com