- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我目前正在使用这个堆栈:
id
是分区键。
val ids: DStream[Ids] = ...
ids.joinWithCassandraTable(keyspace, tableName, joinColumns = SomeColumns("id"))
tableName
变得更大,假设大约有 30k“行”,查询需要更长的时间,而且我无法保持在批处理持续时间阈值以下。它的性能类似于使用大量
IN
-clause,我明白这是不可取的。
repartitionByCassandraReplica
重新分区你的本地 RDDs在加入 Cassandra 之前,确保每个分区只针对本地 Cassandra 节点工作。就我而言,我还必须在加入的本地 RDD/DStream 上增加分区,以便任务在工作人员之间均匀分布。
最佳答案
“id”是表中的分区键吗?如果没有,我认为它需要这样做,否则您可能正在执行表扫描,随着表变大,它的运行速度会逐渐变慢。
同样为了使用这种方法获得良好的性能,我相信您需要在您的 ids RDD 上使用 repartitionByCassandraReplica() 操作,以便连接是每个节点上的本地操作。
见 this .
关于scala - joinWithCassandraTable 在增加表大小时变得更慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32250271/
我目前正在使用这个堆栈: Cassandra 2.2(多节点) Spark/Streaming 1.4.1 Spark-Cassandra-连接器 1.4.0-M3 我有这个 DStream[Ids]
我正在尝试使用以下方法过滤巨大的 Cassandra 表的一小部分: val snapshotsFiltered = sc.parallelize(startDate to endDate).map(
我正在使用 Spark 1.2.1 和 spark-cassandra-connector : //join with cassandra val rdd = some_array.map(x =>
我正在尝试使用以下方法对巨大的 C* 表的一小部分进行过滤: val snapshotsFiltered = sc.parallelize(startDate to endDate).map(
我希望在 RDD 和 cassandra 表上进行连接,它们的名称与相同的键不同 前(简化): case class User(id : String, name : String) 和 case c
我目前正在尝试将 spark 数据框加入 cassandra 表。 遗憾的是,我们无法立即升级到新的 Datastax 连接器 2.5.0 并使用直接连接 所以我正在尝试使用现有的 Rdd 方法 jo
我是一名优秀的程序员,十分优秀!