scala - joinWithCassandraTable 在增加表大小时变得更慢-6ren

scala - joinWithCassandraTable 在增加表大小时变得更慢

转载作者：行者123 更新时间：2023-12-01 02:06:23

27

4

我目前正在使用这个堆栈:

Cassandra 2.2(多节点)

Spark/Streaming 1.4.1

Spark-Cassandra-连接器 1.4.0-M3

我有这个 DStream[Ids]，其中 RDD 大约有 6000-7000 个元素。 id是分区键。

val ids: DStream[Ids] = ...
ids.joinWithCassandraTable(keyspace, tableName, joinColumns = SomeColumns("id"))

如 tableName变得更大，假设大约有 30k“行”，查询需要更长的时间，而且我无法保持在批处理持续时间阈值以下。它的性能类似于使用大量 IN -clause，我明白这是不可取的。

有没有更有效的方法来做到这一点？

回答:
永远记住用 repartitionByCassandraReplica 重新分区你的本地 RDDs在加入 Cassandra 之前，确保每个分区只针对本地 Cassandra 节点工作。就我而言，我还必须在加入的本地 RDD/DStream 上增加分区，以便任务在工作人员之间均匀分布。

最佳答案

“id”是表中的分区键吗？如果没有，我认为它需要这样做，否则您可能正在执行表扫描，随着表变大，它的运行速度会逐渐变慢。

同样为了使用这种方法获得良好的性能，我相信您需要在您的 ids RDD 上使用 repartitionByCassandraReplica() 操作，以便连接是每个节点上的本地操作。

见 this .

关于scala - joinWithCassandraTable 在增加表大小时变得更慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32250271/

27

4

0

文章推荐： docker - 要求 apt::source 作为依赖项会出现语法错误

文章推荐： jquery-ui - JTable jQuery 与 Spring MVC 3 集成问题

文章推荐： LLVM IR 主函数返回无效

文章推荐： javascript - 双文档准备好了吗？

scala - joinWithCassandraTable 在增加表大小时变得更慢
我目前正在使用这个堆栈: Cassandra 2.2(多节点) Spark/Streaming 1.4.1 Spark-Cassandra-连接器 1.4.0-M3 我有这个 DStream[Ids]
scala - Spark joinWithCassandraTable() 映射多个分区键错误
我正在尝试使用以下方法过滤巨大的 Cassandra 表的一小部分: val snapshotsFiltered = sc.parallelize(startDate to endDate).map(
apache-spark - joinWithCassandraTable() 是懒惰的吗？
我正在使用 Spark 1.2.1 和 spark-cassandra-connector : //join with cassandra val rdd = some_array.map(x =>
mysql - 时间戳分区键上的 Spark JoinWithCassandraTable STUCK
我正在尝试使用以下方法对巨大的 C* 表的一小部分进行过滤: val snapshotsFiltered = sc.parallelize(startDate to endDate).map(
scala - Cassandra spark 连接器 joinWithCassandraTable 在具有不同名称的字段上
我希望在 RDD 和 cassandra 表上进行连接，它们的名称与相同的键不同前(简化): case class User(id : String, name : String) 和 case c
apache-spark - Spark Full Rdd joinWithCassandraTable java.lang.IllegalArgumentException : requirement failed: Invalid row size: instead of
我目前正在尝试将 spark 数据框加入 cassandra 表。遗憾的是，我们无法立即升级到新的 Datastax 连接器 2.5.0 并使用直接连接所以我正在尝试使用现有的 Rdd 方法 jo

首页

博学

6Ren·AI

商城

scala - joinWithCassandraTable 在增加表大小时变得更慢